语言混用对双语 LLM 推理能力的影响 — EMNLP 2025 论文解析

> 一句话版本:宾大团队发现,双语大模型(如 DeepSeek-R1)在思考时中英文混用不是 bug,而是一种"策略性行为"——强制它们只用一种语言反而会降低推理准确率。

项目信息
来源https://arxiv.org/abs/2507.15849
作者Yihao Li, Jiayi Xin, Miranda Muqing Miao, Qi Long, Lyle Ungar(宾夕法尼亚大学)
发表EMNLP 2025 Main Conference
提交2025-07-21更新 2025-09-30
代码https://github.com/liyihao0302/language-mixing-in-llm-reasoning

核心发现

1. 语言混用从哪来?

追踪 QwQ32B 和 DeepSeek-R1 系列模型的训练阶段,发现:

训练阶段语言混用程度
预训练(Pretraining)少量(自然语料中的 code-switching)
SFT + RLHF**最少**(人工标注偏好单语输出)
RLVR(强化学习+可验证奖励)**最多** ← 关键触发阶段

RLVR(Reinforcement Learning with Verifiable Rewards)只看结果对不对(pass/fail),不管用什么语言。模型自由探索后发现混用语言能更好地解决问题,于是自然演化出这个行为。

2. 强制单语会怎样?

在 MATH500 上,强制模型只用一种语言解码,准确率下降 5.6 个百分点

3. 什么时候混用有用?

训练了一个轻量级 probe(探针分类器),能预测某次语言切换是有益、中性还是有害的。用 probe 引导解码,准确率提升 2.92 个百分点

4. 四种混用模式

模式说明示例
短语级切换简短切换,提高精确性中文推理中插入英文术语
术语切换遇到技术术语切到英文"由 ADAM 优化器..."
格式切换匹配推理或答案格式切换到英文写证明步骤
完全切换找不到解法时切到另一语言重试中文解不出来,切英文再试

核心论点

语言混用不是训练副产物,而是策略性推理行为。

和人类一样:

实验数据

模型覆盖:Qwen2.5-32B → QwQ32B-Preview → QwQ32B, DeepSeek-V3 → DeepSeek-R1-Zero → DeepSeek-R1 → R1-Distill 系列

关键数字

因果验证

分析

优势

局限

与 Jay 的关联

评分

维度评分 (1-10)说明
创新性8首次系统性研究 LLM 语言混用的因果效应
学术严谨性8双向因果验证 + 多模型对比 + probe 实验
实用价值7Probe 方案可集成到解码策略,但工程落地还需工作
可读性7写作清晰,图表直观
影响力7EMNLP 2025,对理解双语 LLM 行为有贡献
与 Jay 的关联7直接解释了日常使用 DeepSeek-R1 的观察
**总分****7.3**高质量研究,揭示了一个被忽视但重要的 LLM 行为