Direct Preference Optimization for… · DeepSignal

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

arXiv cs.CL·Trung Nguyen Quang, Cheng Yi Lewis Won, Minh Duc Pham, Yingxu He, Shuo Sun, Ai Ti Aw

4d ago

·~1 min·5/26/2026·en·1

Quick Take

Direct Preference Optimization (DPO) significantly enhances English-Mandarin code-switching transcription in Audio LLMs, reducing error rates by up to 89.6% in-distribution. Training on 100K preference pairs, models now preserve language composition instead of translating, addressing systematic failures in multilingual capabilities.

Key Points

DPO aligns models to preserve mixed-language content during transcription.
Training involved 100K preference pairs, totaling 570 hours of data.
Error rates dropped by 89.6% in-distribution and 20.0% out-of-distribution.
Three Audio LLMs were trained to improve code-switching transcription.
Findings indicate DPO effectively enhances multilingual transcription behavior.

Article Excerpt

From source RSS / original summary

arXiv:2605. 23975v1 Announce Type: new Abstract: Audio large language models (Audio LLMs) exhibit systematic failures in transcribing code-switching speech despite strong multilingual capabilities. Focusing on English-Mandarin, we identify three failure modes: language omission, translation-instead-of-transcription, and hallucination.

We apply Direct Preference Optimization (DPO) to align models, constructing preference pairs in which chosen responses preserve mixed-language content while rejected responses mimic failure patterns. Training three Audio LLMs on 100K pairs (570 hours), we observe consistent behavioral shifts: models learn to preserve language composition rather than translating when prompted for transcription. This alignment yields MER reductions up to 89. 6% (in-distribution) and 20. 0% (out-of-distribution).

Our findings suggest DPO can effectively elicit correct code-switching transcription behavior from multilingual Audio LLMs.

Reader Mode unavailable (could not extract clean content).

Read on arxiv.org

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Quick Take

Key Points

Article Excerpt

Want this in your inbox every morning?

More from arXiv cs.CL

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

What are They Thinking? Delineation, Probing and Tracking of Concepts in LLMs

In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective