Soft Token Alignment for Cross-Lingual Reasoning

arXiv cs.CL·Jiayi He, Jungsoo Park, Wei Xu, Alan Ritter

3h ago

·~2 min·6/26/2026·en·0

Quick Answer

The proposed SOLAR method enhances multilingual large language models by aligning soft-token representations across languages, improving accuracy by up to 17.7 points on reasoning benchmarks.

Quick Take

The proposed SOLAR method enhances multilingual large language models by aligning soft-token representations across languages, improving accuracy by up to 17.7 points on reasoning benchmarks. This approach reduces language-specific divergences, particularly benefiting low-resource languages and preserving shared semantic structures during reasoning.

Key Points

SOLAR aligns soft-token representations using English as a pivot for multilingual models.
Achieves up to +17.7 accuracy improvement on four multilingual reasoning benchmarks.
Largest gains observed in low-resource languages, enhancing their performance.
Reduces language-cluster separability, preserving semantic structure across languages.
Strengthens final-layer cross-lingual similarity in multilingual reasoning tasks.

Paper Resources

Read Paperarxiv.org View PDFarxiv.org

Article Content

From source RSS / original summary

arXiv:2606. 26466v1 Announce Type: new Abstract: Multilingual large language models often produce inconsistent reasoning and answers for semantically equivalent prompts in different languages. Prior work suggests that intermediate representations can be relatively language-agnostic, but generation becomes increasingly language-specific as models commit to discrete output tokens.

This is problematic because language-specific lexical choices can cause semantically equivalent reasoning paths to diverge across languages. These divergences motivate searching for a cross-lingual alignment signal that is less tied to any single vocabulary item or script. We propose SOLAR, an auxiliary objective for supervised fine-tuning that aligns soft-token representations across languages, using English as a pivot.

Soft tokens are probability-weighted mixtures over the vocabulary embeddings, yielding continuous representations that can aggregate information from semantically related tokens across languages. We then align each non-English soft-token summary to its English counterpart in the shared embedding space. Across four multilingual reasoning benchmarks, SOLAR improves accuracy by up to +17. 7 points over the base model and +3. 8 over standard supervised fine-tuning, with the largest gains on low-resource languages.

SOLAR also strengthens final-layer cross-lingual similarity and substantially reduces language-cluster separability, suggesting that aligning soft-token representations helps preserve shared semantic structure during multilingual reasoning.

Read on arxiv.org

Want this in your inbox every morning?

Daily brief at your local 8am — bilingual EN/中文, free.

Subscribe — it's free

More from arXiv cs.CL

See more →

arXiv cs.CL·Barak Or

2d ago

FeaturedOriginal

Quantifying Prior Dominance in Systems

AI Summary

The study introduces the Normalized Context Utilization (NCU) metric to evaluate Retrieval-Augmented Generation (RAG) systems, revealing that Small Language Models (SLMs) outperform larger models in factual extraction. The findings indicate that traditional scaling laws yield diminishing returns, with a commercial API frequently failing against adversarial evidence due to systemic confidence collapse.

#LLM #AI Coding #Inference #AI Startup

Soft Token Alignment for Cross-Lingual Reasoning

Quick Answer

Quick Take

Key Points

Paper Resources

Article Content

Want this in your inbox every morning?

More from arXiv cs.CL

Quantifying Prior Dominance in Systems

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

When Plausible Is Not Realistic: Evaluating Human Mobility in LLM-Based Urban Simulation

Quick Answer

Quick Take

Key Points

Paper Resources

Article Content

Want this in your inbox every morning?

More from arXiv cs.CL

Quantifying Prior Dominance in RAG Systems

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

When Plausible Is Not Realistic: Evaluating Human Mobility in LLM-Based Urban Simulation

Quantifying Prior Dominance in Systems