Skip to yearly menu bar Skip to main content


Poster

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Romain Froger · Amine Benhalloum · Andrey Rusakov · Dheeraj Mekala · Emilien Garreau · Gerard Bertran · Grégoire Mialon · Hugo Laurençon · Jean-Baptiste Gaya · Kunal Malkan · Mathieu Rita · Matteo Bettini · Maxime Lecanu · Mengjuew Wang · Pierre Andrews · Pierre Ménard · Thomas Scialom · Ulyana Piterbarg · Virginie Do · Amar Budhiraja · Ian Yu · Mikhail Plekhanov · Ricardo Cabral · Vladislav Vorotilov

Abstract

Log in and register to view live content