ICLR 2024

Poster

Fri 7:30

RLCD: Reinforcement Learning from Contrastive Distillation for LM Alignment
Kevin Yang · Dan Klein · Asli Celikyilmaz · Nanyun (Violet) Peng · Yuandong Tian

Workshop

What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety
Luxi He · Mengzhou Xia · Peter Henderson

Workshop

AI Alignment with Changing and Influenceable Reward Functions
Micah Carroll · Davis Foote · Anand Siththaranjan · Stuart Russell · Anca Dragan

Workshop

Data Alignment for Zero-Shot Concept Generation in Dermatology AI
Soham Gadgil · Mahtab Bigverdi

Oral

Fri 6:45

Self-Alignment with Instruction Backtranslation
Xian Li · Ping Yu · Chunting Zhou · Timo Schick · Omer Levy · Luke Zettlemoyer · Jason E Weston · Mike Lewis

Affinity Workshop

Aligners: Decoupling LLMs and Alignment
Lilian Ngweta · Mayank Agarwal · Subha Maity · Alex Gittens · Yuekai Sun · Mikhail Yurochkin

Poster

Fri 7:30

Self-Alignment with Instruction Backtranslation
Xian Li · Ping Yu · Chunting Zhou · Timo Schick · Omer Levy · Luke Zettlemoyer · Jason E Weston · Mike Lewis

Poster

Thu 1:45

SALMON: Self-Alignment with Instructable Reward Models
Zhiqing Sun · Yikang Shen · Hongxin Zhang · Qinhong Zhou · Zhenfang Chen · David Cox · Yiming Yang · Chuang Gan

Workshop

Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis
Stefan Horoi · Albert M Orozco Camacho · Eugene Belilovsky · Guy Wolf

Affinity Workshop

Tue 7:30

Aligners: Decoupling LLMs and Alignment
Lilian Ngweta · Mayank Agarwal · Subha Maity · Alex Gittens · Yuekai Sun · Mikhail Yurochkin

Poster

Fri 7:30

The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning
Bill Yuchen Lin · Abhilasha Ravichander · Ximing Lu · Nouha Dziri · Melanie Sclar · Khyathi Chandu · Chandra Bhagavatula · Yejin Choi

Workshop

Learning and Aligning Structured Random Feature Networks
Vivian White · Muawiz Chaudhary · Guy Wolf · Guillaume Lajoie · Kameron Decker Harris

Main Navigation

27 Results