Skip to yearly menu bar Skip to main content

Workshop

2nd Workshop on Navigating and Addressing Data Problems for Foundation Models (DATA-FM)

Jiachen (Tianhao) Wang ⋅ Ruoxi Jia ⋅ Pang Wei Koh ⋅ Dawn Song ⋅ Jerone Andrews ⋅ Hoang Anh Just ⋅ Feiyang Kang

Project Page

Abstract

Foundation models (FMs) have become central to modern machine learning, with data playing a crucial role in their development and sparking increased attention to data-related challenges such as curation and attribution. Adapting traditional data-centric methods to FMs is challenging due to the scale of both data and model architectures, necessitating interdisciplinary collaboration and community efforts. Building on the success of the first Data Problems in Foundation Models workshop at ICLR 2024, the second workshop will address persistent and emerging data-related challenges in FM deployment. While longstanding issues in data collection, curation, and synthesis remain relevant, new challenges have arisen as FMs are integrated into a growing number of applications and become increasingly multi-modal. Concurrently, the societal impact of AI has intensified, highlighting concerns such as data copyright. These evolving challenges emphasize the need for continued, focused discussions on data-related issues in FM development. Our goals include fostering a comprehensive understanding of these challenges across the entire FM pipeline and creating a platform for interdisciplinary researchers to connect, collaborate, and drive progress. We hope this workshop will serve as a catalyst for innovative solutions to critical data challenges, shaping the future of FMs and their wide-ranging applications.

Video

Chat is not available.

Schedule

Timezone: America/Los_Angeles

6:00 PM

Opening Remarks 📖

Video

6:05 PM

Invited Talk: Peter Henderson 🤝🗣️ Copyright Law and Foundation Model Design

Peter Henderson

Video

6:35 PM

Invited Talk: Danqi Chen 🤝🗣️ How Data Domains Improve Language Model Pre-Training

Danqi Chen

Video

7:05 PM

Coffee Break ☕

7:20 PM

Spotlight Presentation: Xinran Gu 📊 Data Mixing Can Induce Phase Transitions in Knowledge Acquisition

Kaifeng Lyu

Video

7:35 PM

Spotlight Presentation: Edward Yeo 📊 Demystifying Long CoT Reasoning in LLMs

Xiang Yue

Video

7:50 PM

Poster Session I 🪧

9:00 PM

Lunch Break 🍲 Lunch Box Bento Provided

10:30 PM

Invited Talk: Vahab Mirrokni 🤝🗣️Data for LLMs: From Mixture and Efficiency to Privacy, and Reasoning

Vahab Mirrokni

Video

11:00 PM

Invited Talk: Kyle Lo 🤝🗣️ The OLMo Cookbook: Open Recipes for Language Model Data Curation

Kyle Lo

Video

11:30 PM

Spotlight Presentation: Zheng Xu 📊 Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs

Video

11:45 PM

Spotlight Presentation: Brandon Trabucco 📊 Towards Internet-Scale Training For Agents

Brandon Trabucco

Video

12:00 AM

Coffee Break ☕

12:30 AM

Invited Talk: Bryan Low 🤝🗣️ Data-centric AI Research @ GLOW.AI

Bryan Kian Hsiang Low

Video

1:00 AM

Closing Remarks 📗

1:05 AM

Poster Session II 🪧

Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning

Wanyun Xie ⋅ Francesco Tonin ⋅ Volkan Cevher

The Price is Right? Making Data Valuations Incentive-Compatible

Dongyang Fan ⋅ Tyler Rotello ⋅ Sai Karimireddy

Video

Language Model Preference Evaluation with Multiple Weak Evaluators

Zhengyu Hu ⋅ Jieyu Zhang ⋅ Zhihan Xiong ⋅ Alexander Ratner ⋅ Hui Xiong ⋅ Ranjay Krishna

Building Bridges, Not Walls: Advancing Interpretability by Unifying Feature, Data, and Model Component Attribution

Shichang Zhang ⋅ Tessa Han ⋅ Usha Bhalla ⋅ Hima Lakkaraju

Revisiting Multi-Modal LLM Evaluation

Jian Lu ⋅ Shikhar Srivastava ⋅ Junyu Chen ⋅ Robik Shrestha ⋅ Manoj Acharya ⋅ Kushal Kafle ⋅ Christopher Kanan

$f$-SCRUB: Unbounded Machine Unlearning Via $f$-divergences

Amirhossein Bagheri ⋅ Radmehr Karimian ⋅ Gholamali Aminian

Video

Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models

Ishaan Malhi ⋅ Praneet Dutta ⋅ Ellie Talius ⋅ Sally Ma ⋅ Brendan Driscoll ⋅ Krista Holden ⋅ Garima Pruthi ⋅ Arunachalam Narayanaswamy

Video

TOWARD EFFICIENT INFLUENCE FUNCTION: DROPOUT AS A COMPRESSION TOOL

Yuchen Zhang ⋅ Mohammad Mohammadi Amiri

Video

Explaining Length Bias in LLM-Based Preference Evaluations

Zhengyu Hu ⋅ Linxin Song ⋅ Jieyu Zhang ⋅ Zheyuan Xiao ⋅ Zhengyu Chen ⋅ Hui Xiong

DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks

Zhiliang Chen ⋅ Gregory Kang Ruey Lau ⋅ Chuan Sheng Foo ⋅ Bryan Kian Hsiang Low

Video

Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model

Zinan Lin ⋅ Tadas Baltrusaitis ⋅ Sergey Yekhanin

Approximations to worst-case data dropping: unmasking failure modes

Jenny Huang ⋅ David Burt ⋅ Yunyi Shen ⋅ Tin Nguyen ⋅ Tamara Broderick

Video

Adversarial Attacks on Data Attribution

Xinhe Wang ⋅ Pingbang Hu ⋅ Junwei Deng ⋅ Jiaqi Ma

Data Efficient Pre-training for Language Models: An Empirical Study of Compute Efficiency and Linguistic Competence

Andreas Paraskeva ⋅ Max van Duijn ⋅ Maarten de Rijke ⋅ Suzan Verberne ⋅ Jan Rijn

Autoregressive Optimal Design for Language Models

Rohan Deb ⋅ Kiran Thekumparampil ⋅ Kousha Kalantari ⋅ Gaurush Hiranandani ⋅ Shoham Sabach ⋅ Branislav Kveton

PiKE: Adaptive Data Mixing for Multi-Task Learning Under Low Gradient Conflicts

Zeman Li ⋅ Yuan Deng ⋅ Peilin Zhong ⋅ Meisam Razaviyayn ⋅ Vahab Mirrokni

Defending LVLMs Against Vision Attacks through Partial-Perception Supervision

Qi Zhou ⋅ Tianlin Li ⋅ Qing Guo ⋅ Dongxia Wang ⋅ Yun Lin ⋅ Yang Liu ⋅ Jin Song Dong

OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning

Jiawei Zhou ⋅ Lei Chen

Nepotistically Trained Generative Image Models Collapse

Maty Bohacek ⋅ Hany Farid

Video

MMA: Benchmarking Multi-Modal Large Language Model in Ambiguity Contexts

Ru Wang ⋅ Selena Song ⋅ Liang Ding ⋅ Mingming Gong ⋅ Yusuke Iwasawa ⋅ Yutaka Matsuo ⋅ Jiaxian Guo

TsKAN: An Transparent Architecture for Improving the Interpretability of Multivariate Time Series Forecasting

Zechuan Chen ⋅ TianMing Sha ⋅ Ziyi Tang ⋅ Keze Wang

Revisiting Semi-supervised Adversarial Robustness via Noise-aware Online Robust Distillation

Tsung-Han Wu ⋅ Hung-Ting Su ⋅ Shang-Tse Chen ⋅ Winston Hsu

Privacy Attacks on Image AutoRegressive Models

Antoni Kowalczuk ⋅ Jan Dubiński ⋅ Franziska Boenisch ⋅ Adam Dziedzic

Tracing the Misuse of Personalized Textual Embeddings for Text-to-Image Models

Weitao Feng ⋅ Jiyan He ⋅ Jie Zhang ⋅ Tianyi Wei ⋅ Wenbo Zhou ⋅ Qing Guo ⋅ Weiming Zhang ⋅ Tianwei Zhang ⋅ Nenghai Yu

RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

Yuefan Cao ⋅ Chengyue Gong ⋅ Xiaoyu Li ⋅ Yingyu Liang ⋅ Zhizhou Sha ⋅ Zhenmei Shi ⋅ Zhao Song

Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Abhimanyu Hans ⋅ Yuxin Wen ⋅ Neel Jain ⋅ John Kirchenbauer ⋅ Hamid Kazemi ⋅ Prajwal Singhania ⋅ Siddharth Singh ⋅ Gowthami Somepalli ⋅ Jonas Geiping ⋅ Abhinav Bhatele ⋅ Tom Goldstein

NICE: Non-Differentiable Evaluation Metric-Based Data Selection for Instruction Tuning

Jingtan Wang ⋅ Xiaoqiang Lin ⋅ Rui Qiao ⋅ Pang Wei Koh ⋅ Chuan Sheng Foo ⋅ Bryan Kian Hsiang Low

STAMP Your Content: Proving Dataset Membership via Watermarked Rephrasings

Saksham Rastogi ⋅ Pratyush Maini ⋅ Danish Pruthi

Blind Baselines Beat Membership Inference Attacks for Foundation Models

Debeshee Das ⋅ Jie Zhang ⋅ Florian Tramer

RepFair-QGAN: Alleviating Representation Bias in Quantum Generative Adversarial Networks Using Gradient Clipping

Kamil Sabbagh ⋅ Hadi Salloum ⋅ Yaroslav Kholodov

The Delta Learning Hypothesis: Preference Tuning on Weak Data Can Yield Strong Gains

Scott Geng ⋅ Hamish Ivison ⋅ Chun-Liang Li ⋅ Maarten Sap ⋅ Jerry Li ⋅ Ranjay Krishna ⋅ Pang Wei Koh

Diversity Measurement and Subset Selection for Instruction Tuning Datasets

Peiqi Wang ⋅ Yikang Shen ⋅ Gavin (Zhen) Guo ⋅ Matthew Stallone ⋅ Yoon Kim ⋅ Polina Golland ⋅ Rameswar Panda

Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models

Vinith Suriyakumar ⋅ Rohan Alur ⋅ Ayush Sekhari ⋅ Manish Raghavan ⋅ Ashia Wilson

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

Shenao Zhang ⋅ Zhihan Liu ⋅ Boyi Liu ⋅ Yufeng Zhang ⋅ Yingxiang Yang ⋅ Yongfei Liu ⋅ Liyu Chen ⋅ TAO SUN ⋅ Zhaoran Wang

Beyond ordinary Lipschitz constraints: Differentially Private optimization with TNC

Difei Xu ⋅ Meng Ding ⋅ Zihang Xiang ⋅ Jinhui Xu ⋅ Di Wang

Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training

Shijian Wang ⋅ Linxin Song ⋅ Jieyu Zhang ⋅ Ryotaro Shimizu ⋅ Ao Luo ⋅ Li Yao ⋅ Cunjian Chen ⋅ Julian McAuley ⋅ Hanqian Wu

Information-theoretic Quantification of Inherent Discrimination Bias in Training Data for Supervised Learning

Sokrat Aldarmini ⋅ Mohamed Nafea

Video

Data Mixing Can Induce Phase Transitions in Knowledge Acquisition

Xinran Gu ⋅ Kaifeng Lyu ⋅ Jiazheng Li ⋅ Jingzhao Zhang

Privacy Auditing for Large Language Models with Natural Identifiers

Lorenzo Rossi ⋅ Bartłomiej Marek ⋅ Franziska Boenisch ⋅ Adam Dziedzic

SubLIME*: Data Efficient Foundation Model Evaluation across Modalities, Languages and Benchmarks

Mahammad Parwez Alam ⋅ Gayathri Saranathan ⋅ Cong Xu ⋅ Javier Aula-Blasco ⋅ Martin Foltin ⋅ Tarun Kumar ⋅ Soon Wong ⋅ Suparna Bhattacharya

BenchAgents: Automated Benchmark Creation with Agent Interaction

Natasha Butt ⋅ Varun Chandrasekaran ⋅ Neel Joshi ⋅ Besmira Nushi ⋅ Vidhisha Balachandran

Enhancing Multilingual LLM Pretraining with Model-Based Data Selection

Bettina Messmer ⋅ Vinko Sabolčec ⋅ Martin Jaggi

Video

The surprising amount of arbitrariness in Shapley-value data valuation

Hannah Diehl ⋅ Ashia Wilson

Training and Evaluating Language Models with Template-based Data Generation

Yifan Zhang

D$^3$: A Large Dataset for Training Code Language Models to Act Diff-by-Diff

Ulyana Piterbarg ⋅ Kanishk Gandhi ⋅ Lerrel Pinto ⋅ Noah Goodman ⋅ Rob Fergus

Towards Internet-Scale Training For Agents

Brandon Trabucco ⋅ Gunnar Sigurdsson ⋅ Robinson Piramuthu ⋅ Russ Salakhutdinov

MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

Shengkang Wang ⋅ Hongzhan Lin ⋅ Ziyang Luo ⋅ Zhen Ye ⋅ Guang Chen ⋅ Jing Ma

Improving Influence-based Instruction Tuning Data Selection for Balanced Learning of Diverse Capabilities

Qirun Dai ⋅ Dylan Zhang ⋅ Jiaqi Ma ⋅ Hao Peng

Common Functional Decompositions Can Mis-attribute Differences in Outcomes Between Populations

Manuel Quintero ⋅ William Stephenson ⋅ Advik Shreekumar ⋅ Tamara Broderick

Video

Aioli: A Unified Optimization Framework for Language Model Data Mixing

Mayee Chen ⋅ Michael Hu ⋅ Nicholas Lourie ⋅ Kyunghyun Cho ⋅ Christopher Re

Robust In-Context Learning via Multi-Armed Bandit-Based Partition Selection

Varul Srivastava ⋅ Sankarshan Damle ⋅ Manisha Padala

Synthesizing Physical Backdoor Datasets: An Automated Framework Leveraging Deep Generative Models

Sze Jue Yang ⋅ Chinh La ⋅ Hung Quang Nguyen ⋅ Eugene Bagdasarian ⋅ Kok-Seng Wong ⋅ Anh T Tran ⋅ Chee Seng Chan ⋅ Khoa Doan

Video

LoBAM: LoRA-Based Backdoor Attack on Model Merging

Ming Yin ⋅ Jingyang Zhang ⋅ Jingwei Sun ⋅ Minghong Fang ⋅ Hai Li ⋅ Yiran Chen

Context-Guided Responsible Data Augmentation with Diffusion Models

Khawar Islam ⋅ NAVEED AKHTAR

Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance

Sachin Goyal ⋅ Christina Baek ⋅ Zico Kolter ⋅ Aditi Raghunathan

Investigating Memorization in Video Diffusion Models

Chen Chen ⋅ Enhuai Liu ⋅ Daochang Liu ⋅ Mubarak Shah ⋅ Chang Xu

Utilizing Language Models For Synthetic Knowledge Graph Generation

Shuran Fu ⋅ Peihua Mai ⋅ Zhang Jingqi ⋅ Yan Pang

The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination

Yifan Sun ⋅ Han Wang ⋅ Dongbai Li ⋅ Gang Wang ⋅ Huan Zhang

Unlocking Post-hoc Dataset Inference with Synthetic Data

Bihe Zhao ⋅ Pratyush Maini ⋅ Franziska Boenisch ⋅ Adam Dziedzic

A Missing Testbed for LLM Pre-Training Membership Inference Attacks

Mingjian Jiang ⋅ Ken Liu ⋅ Sanmi Koyejo

Abg-SciQA: A dataset for Understanding and Resolving Ambiguity in Scientific Questions

Tiejin Chen ⋅ Kuan-Ru Liou ⋅ Mithun Shivakoti ⋅ Aaryan Gaur ⋅ Pragya Kumari ⋅ Meiqi Guo ⋅ Hua Wei

Video

Why Does Private Fine-Tuning Resist Differential Privacy Noise? A Representation Learning Perspective

Yue Zhao ⋅ Yutong Xia ⋅ Chendi Wang

Understanding Private Learning From Feature Perspective

Meng Ding ⋅ Mingxi Lei ⋅ Shaopeng Fu ⋅ Di Wang ⋅ Jinhui Xu

Proper Dataset Valuation by Pointwise Mutual Information

Shuran Zheng ⋅ Xuan Qi ⋅ Rui Chen ⋅ Yongchan Kwon ⋅ James Y Zou

Synthesizing Privacy-Preserving Text Data via Finetuning *without* Finetuning Billion-Scale LLMs

Bowen Tan ⋅ Zheng Xu ⋅ Eric P Xing ⋅ Zhiting Hu ⋅ Shanshan Wu

On the Power of Context-Enhanced Learning in LLMs

Xingyu Zhu ⋅ Abhishek Panigrahi ⋅ Sanjeev Arora

Contrastive Private Data Synthesis via Weighted Multi-PLM Fusion

TIANYUAN ZOU ⋅ Yang Liu ⋅ Peng Li ⋅ Yufei Xiong ⋅ Jianqing Zhang ⋅ Jingjing Liu ⋅ Ye Ouyang ⋅ Xiaozhou Ye ⋅ Yaqin Zhang

Lightweight Dataset Pruning without Full Training via Example Difficulty and Prediction Uncertainty

Yeseul Cho ⋅ Baekrok Shin ⋅ Changmin Kang ⋅ Chulhee Yun

How much of my dataset did you use? Quantitative Data Usage Inference in Machine Learning

Yao Tong ⋅ Jiayuan Ye ⋅ Sajjad Zarifzadeh ⋅ Reza Shokri

Editable Concept Bottleneck Models

Lijie Hu ⋅ Chenyang Ren ⋅ Zhengyu Hu ⋅ Hongbin Lin ⋅ Chenglong Wang ⋅ Zhen Tan ⋅ Weimin Lyu ⋅ Jingfeng Zhang ⋅ Hui Xiong ⋅ Di Wang

Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

Simon Park ⋅ Abhishek Panigrahi ⋅ Yun Cheng ⋅ Dingli Yu ⋅ Anirudh Goyal ⋅ Sanjeev Arora

Video

Demystifying Long CoT Reasoning in LLMs

Edward Yeo ⋅ Yuxuan Tong ⋅ Xinyao Niu ⋅ Graham Neubig ⋅ Xiang Yue

Rule-Based Rating and Selection of LLM Training Data

Xiaomin Li ⋅ Mingye Gao ⋅ Zhiwei Zhang ⋅ Chang Yue ⋅ Hong Hu

Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning

Yilun Kong ⋅ Hangyu Mao ⋅ Qi Zhao ⋅ Bin Zhang ⋅ Jingqing Ruan ⋅ Li Shen ⋅ Yongzhe Chang ⋅ Xueqian Wang ⋅ Rui Zhao ⋅ Dacheng Tao

ADSO: Adaptive Data Mixture & Scale Optimization. A Multi-Scale Multi-Fidelity Bayesian Optimization Approach.

Andrew Siah ⋅ Haozhe Chen ⋅ C. Daniel Guetta ⋅ Tianyi Peng ⋅ Hongseok Namkoong ⋅ Thomson Yen

Towards Comprehensive Preference Data Collection for Reward Modeling

Yulan Hu ⋅ Qingyang Li ⋅ Sheng Ouyang ⋅ Ge Chen ⋅ Jinman Zhao ⋅ Yong Liu

Towards Human-Guided, Data-Centric LLM Co-Pilots

Evgeny Saveliev ⋅ Jiashuo Liu ⋅ Nabeel Seedat ⋅ Anders Boyd ⋅ Mihaela van der Schaar

Improving Multimodal Large Language Models in Low-Resource Language Contexts

Yufei Gao ⋅ Feijiaying ⋅ Guohang Yan ⋅ Yunshi Lan

Enhancing Interpretability in Generative AI Through Search-Based Data Influence Analysis

Theodoros Aivalis ⋅ Iraklis A. Klampanos ⋅ Antonis Troumpoukis ⋅ Joemon Jose

Video

KGGen: Text To Knowledge Graph

Belinda Mo ⋅ Kyssen Yu ⋅ Joshua Kazdan ⋅ Proud Mpala ⋅ Lisa Yu ⋅ Chris Cundy ⋅ Charilaos Kanatsoulis ⋅ Sanmi Koyejo

Position: What's the next frontier for Data-centric AI? Data Savvy Agents!

Nabeel Seedat ⋅ Jiashuo Liu ⋅ Mihaela van der Schaar

Domain-Specific Benchmarking of Vision-Language Models: A Task Augmentation Framework Using Metadata

Tim Rädsch ⋅ Leon Mayer ⋅ Simon Pavicic ⋅ Ali Emre Kavur ⋅ Marcel Knopp ⋅ Barış Öztürk ⋅ Klaus Maier-Hein ⋅ Paul Jaeger ⋅ Fabian Isensee ⋅ Annika Reinke

Model Collapse in the Self-Consuming Chain of Diffusion Finetuning: A Novel Perspective from Quantitative Trait Modeling

Youngseok Yoon ⋅ Dainong Hu ⋅ Iain Weissburg ⋅ Yao Qin ⋅ Haewon Jeong

Video

A Versatile Influence Function for Data Attribution with Non-Decomposable Loss

Junwei Deng ⋅ Weijing Tang ⋅ Jiaqi Ma

PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation

Albert Gong ⋅ Kamilė Stankevičiūtė ⋅ Chao Wan ⋅ Anmol Kabra ⋅ Raphael Thesmar ⋅ Johann Lee ⋅ Julius Klenke ⋅ Carla Gomes ⋅ Kilian Weinberger

Video