ICLR 2021

Poster

Thu 1:00

AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights
Byeongho Heo · Sanghyuk Chun · Seong Joon Oh · Dongyoon Han · Sangdoo Yun · Gyuwan Kim · Youngjung Uh · Jung-Woo Ha

Spotlight

Wed 19:25

Large Scale Image Completion via Co-Modulated Generative Adversarial Networks
Shengyu Zhao · Jonathan Cui · Yilun Sheng · Yue Dong · Xiao Liang · Eric Chang · Yan Xu

Spotlight

Tue 5:28

Identifying nonlinear dynamical systems with multiple time scales and long-range dependencies
Dominik Schmidt · Georgia Koppe · Zahra Monfared · Max Beutelspacher · Daniel Durstewitz

Oral

Thu 3:00

What Matters for On-Policy Deep Actor-Critic Methods? A Large-Scale Study
Marcin Andrychowicz · Anton Raichuk · Piotr Stanczyk · Manu Orsini · Sertan Girgin · Raphaël Marinier · Léonard Hussenot-Desenonges · Matthieu Geist · Olivier Pietquin · Marcin Michalski · Sylvain Gelly · Olivier Bachem

Oral

Wed 3:00

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Alexey Dosovitskiy · Lucas Beyer · Alexander Kolesnikov · Dirk Weissenborn · Xiaohua Zhai · Thomas Unterthiner · Mostafa Dehghani · Matthias Minderer · Georg Heigold · Sylvain Gelly · Jakob Uszkoreit · Neil Houlsby

Oral

Wed 19:55

Deformable DETR: Deformable Transformers for End-to-End Object Detection
Xizhou Zhu · Weijie Su · Lewei Lu · Bin Li · Xiaogang Wang · Jifeng Dai

Oral

Tue 21:18

MONGOOSE: A Learnable LSH Framework for Efficient Neural Network Training
Beidi Chen · Zichang Liu · Binghui Peng · Zhaozhuo Xu · Jonathan L Li · Tri Dao · Zhao Song · Anshumali Shrivastava · Christopher Re

Poster

Wed 9:00

Evaluation of Neural Architectures Trained With Square Loss vs Cross-Entropy in Classification Tasks
Like Hui · Misha Belkin

Poster

Tue 1:00

Identifying nonlinear dynamical systems with multiple time scales and long-range dependencies
Dominik Schmidt · Georgia Koppe · Zahra Monfared · Max Beutelspacher · Daniel Durstewitz

Poster

Mon 17:00

MONGOOSE: A Learnable LSH Framework for Efficient Neural Network Training
Beidi Chen · Zichang Liu · Binghui Peng · Zhaozhuo Xu · Jonathan L Li · Tri Dao · Zhao Song · Anshumali Shrivastava · Christopher Re

Poster

Thu 1:00

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
Dmitry Lepikhin · HyoukJoong Lee · Yuanzhong Xu · Dehao Chen · Orhan Firat · Yanping Huang · Maxim Krikun · Noam Shazeer · Zhifeng Chen

Poster

Thu 1:00

Deformable DETR: Deformable Transformers for End-to-End Object Detection
Xizhou Zhu · Weijie Su · Lewei Lu · Bin Li · Xiaogang Wang · Jifeng Dai

Main Navigation

23 Results