Workshop

Generative Models for Robot Learning

Ziwei Wang ⋅ Congyue Deng ⋅ Changliu Liu ⋅ Zhenyu Jiang ⋅ Haoran Geng ⋅ Huazhe Xu ⋅ Yansong Tang ⋅ Philip Torr ⋅ Ziwei Liu ⋅ Angelique Taylor ⋅ Yuke Zhu

Abstract

Next generation of robots should combine ideas from other fields such as computer vision, natural language processing, machine learning and many others, because the close-loop system is required to deal with complex tasks based on multimodal input in the complicated real environment. This workshop proposal focuses on generative models for robot learning, which lies in the important and fundamental field of AI and robotics. Learning-based methods in robotics have achieved high success rate and generalization ability in a wide variety of tasks such as manipulation, navigation, SLAM, scene reconstruction, proprioception, and physics modeling. However, robot learning faces several challenges including the expensive cost of data collection and weak transferability across different tasks and scenarios. Inspired by the significant progress in computer vision and natural language processing, efforts have been made to combine generative models with robot learning to address the above challenges such as synthesizing high-quality data, and incorporating generation frameworks into representation and policy learning. Besides, pre-trained large language models (LLMs), vision-language models (VLMs) and vision-language-action (VLA) models are adapted to various downstream tasks to fully leverage the rich commonsense knowledge. This progressive development enables robot learning frameworks to be applied in complex and diverse real-world tasks. This workshop aims to enable interdisciplinary communication for researchers in the broader community, so that more attention can be drawn to this field. In this workshop, the state-of-the-art process and promising future directions will be discussed, which will inspire new ideas and fantastic applications in related fields.

Video

Chat is not available.

Schedule

Timezone: America/Los_Angeles

6:00 PM

Opening Remarks and Welcome

Video

6:05 PM

Xiaojuan Qi

Video

6:45 PM

Sergey Levine

Video

7:25 PM

Coffee Break

7:40 PM

Shuran Song

Video

8:20 PM

Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

Video

8:30 PM

Latent Action Pretraining from Videos

Video

8:40 PM

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

Video

8:50 PM

Lunch Break

9:20 PM

Poster Session

10:20 PM

Daquan Zhou

Video

11:00 PM

Yilun Du

Video

11:40 PM

Qi Dou

Video

12:20 AM

Closing Remarks

Video

RL Zero: Zero-Shot Language to Behaviors Without Any Supervision

Harshit Sikchi ⋅ Siddhant Agarwal ⋅ Pranaya Jajoo ⋅ Samyak Parajuli ⋅ Caleb Chuck ⋅ Max Rudolph ⋅ Peter Stone ⋅ Amy Zhang ⋅ Scott Niekum

Learning from Massive Human Videos for Universal Humanoid Pose Control

Jiageng Mao ⋅ Siheng Zhao ⋅ Siqi Song ⋅ Tianheng Shi ⋅ Junjie Ye ⋅ Mingtong Zhang ⋅ Haoran Geng ⋅ Jitendra Malik ⋅ Vitor Campagnolo Guizilini ⋅ Yue Wang

PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning

Utsav Singh ⋅ Vinay Purushothaman Namboodiri

Modality-Composable Diffusion Policy via Inference-Time Distribution-level Composition

Jiahang Cao ⋅ Qiang Zhang ⋅ Hanzhong Guo ⋅ Jiaxu Wang ⋅ Hao Cheng ⋅ Renjing Xu

SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation

Haoquan Fang ⋅ Markus Grotz ⋅ Wilbert Pumacay ⋅ Yi Ru Wang ⋅ Dieter Fox ⋅ Ranjay Krishna ⋅ Jiafei Duan

Learning Novel Skills from Language-Generated Demonstrations

Ao-Qun Jin ⋅ Tian-Yu Xiang ⋅ Xiao-Hu Zhou ⋅ Mei-Jiang Gui ⋅ Xiao-Liang Xie ⋅ Shi-Qi Liu ⋅ Shuang-Yi Wang ⋅ Yue Cao ⋅ Sheng-Bin Duan ⋅ Fu-Chao Xie ⋅ Zeng-Guang Hou

Video

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

Shiduo Zhang ⋅ Zhe Xu ⋅ Peiju Liu ⋅ Xiaopeng Yu ⋅ Yuan Li ⋅ Qinghui Gao ⋅ Zhaoye Fei ⋅ Zhangyue Yin ⋅ Zuxuan Wu ⋅ Yugang Jiang ⋅ Xipeng Qiu

Link

Solving New Tasks by Adapting Internet Video Knowledge

Calvin Luo ⋅ Zilai Zeng ⋅ Yilun Du ⋅ Chen Sun

AVID: Adapting Video Diffusion Models to World Models

Marc Rigter ⋅ Tarun Gupta ⋅ Agrin Hilmkil ⋅ Chao Ma

Video

Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

Max Sobol Mark ⋅ Tian Gao ⋅ Georgia Gabriela Sampaio ⋅ Mohan Kumar Srirama ⋅ Archit Sharma ⋅ Chelsea Finn ⋅ Aviral Kumar

Diffusion Model Predictive Control

Stannis (Guangyao) Zhou ⋅ Sivaramakrishnan Swaminathan ⋅ Rajkumar Vasudeva Raju ⋅ J. Swaroop Guntupalli ⋅ Wolfgang Lehrach ⋅ Joseph Ortiz ⋅ Antoine Dedieu ⋅ Miguel Lázaro-Gredilla ⋅ Kevin Murphy

FP3: A 3D Foundation Policy for Robotic Manipulation

Rujia Yang ⋅ Geng Chen ⋅ Chuan Wen ⋅ Yang Gao

ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models

Lingfeng Zhang ⋅ Yuening Wang ⋅ Hongjian Gu ⋅ Atia Hamidizadeh ⋅ Zhanguang Zhang ⋅ Yuecheng Liu ⋅ Yutong Wang ⋅ David Gamaliel Arcos Bravo ⋅ Junyi Dong ⋅ Shunbo Zhou ⋅ Tongtong Cao ⋅ Yuzheng Zhuang ⋅ Yingxue Zhang ⋅ Jianye Hao

Video

Sampling from Energy-based Policies using Diffusion

Vineet Jain ⋅ Tara Akhound-Sadegh ⋅ Siamak Ravanbakhsh

Offline Learning of Controllable Diverse Behaviors

Mathieu Petitbois ⋅ Rémy Portelas ⋅ sylvain lamprier ⋅ Ludovic Denoyer

Latent Action Pretraining from Videos

Seonghyeon Ye ⋅ Joel Jang ⋅ Byeongguk Jeon ⋅ Sejune Joo ⋅ Jianwei Yang ⋅ Baolin Peng ⋅ Ajay Mandlekar ⋅ Reuben Tan ⋅ Yu-Wei Chao ⋅ Bill Yuchen Lin ⋅ Lars Liden ⋅ Kimin Lee ⋅ Jianfeng Gao ⋅ Luke Zettlemoyer ⋅ Dieter Fox ⋅ Minjoon Seo

Overcoming Slow Decision Frequencies in Continuous Control: Model-Based Sequence Reinforcement Learning for Model-Free Control

Devdhar Patel ⋅ Hava Siegelmann

DexTrack: Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References

Xueyi Liu ⋅ Jianibieke Adalibieke ⋅ Qianwei Han ⋅ Yuzhe Qin ⋅ Li Yi

Video

Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling

Yuejiang Liu ⋅ Jubayer Hamid ⋅ Yoonho Lee ⋅ Annie Xie ⋅ Max Du ⋅ Chelsea Finn

TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

Ruijie Zheng ⋅ Yongyuan Liang ⋅ Shuaiyi Huang ⋅ Jianfeng Gao ⋅ Hal Daume ⋅ Andrey Kolobov ⋅ Furong Huang ⋅ Jianwei Yang

EQM-MPD EQUIVARIANT ON-MANIFOLD MOTION PLANNING DIFFUSION

Evangelos Chatzipantazis ⋅ Nishanth Arun Rao ⋅ Kostas Daniilidis

Video

Responsive Noise-Relaying Diffusion Policy: Responsive and Efficient Visuomotor Control

Zhuoqun Chen ⋅ Xiu Yuan ⋅ Tongzhou Mu ⋅ Hao Su

DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning

Zhengrong Xue ⋅ Shuying Deng ⋅ Zhenyang Chen ⋅ Yixuan Wang ⋅ Zhecheng Yuan ⋅ Huazhe Xu

Generative Quality Diversity Imitation Learning for Robot Skill Acquisition

Zhenglin Wan ⋅ Xingrui Yu ⋅ David Bossens ⋅ Yueming Lyu ⋅ Qing Guo ⋅ Flint Xiaofeng Fan ⋅ Ivor Tsang

Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

Kaizhe Hu ⋅ Zihang Rui ⋅ Yao He ⋅ Yuyao Liu ⋅ Pu Hua ⋅ Huazhe Xu

Environment as Policy: Generative Curriculum for Autonomous Racing

Jiaxu Xing ⋅ Hongze Wang ⋅ Nico Messikommer ⋅ Davide Scaramuzza

Video

Contrastive Initial State Buffer for Reinforcement Learning

Nico Messikommer ⋅ Yunlong Song ⋅ Davide Scaramuzza

Video