微软亚洲研究院

告别盲猜token时代，LTD赋予大模型“时间感知”能力

已发布 2026年4月30日

分享这个页面

慢，越来越慢…… 你在使用大模型时是否也面临这样的无奈：AI的回答总是需要等待，敲完一个问题，要等上几秒甚至十几秒才能得到回复，在复杂推理、多轮对话或代码生成等场景中，可能还需要更长的时间。

推测解码方法一定程度上缓解了这一延迟问题。它通过引入一个更快、更小的草稿模型，先猜一些可能的词元（token），再由大的目标模型统一验证，从而减少逐步生成的时间。然而，其现实效果并不总是理想的。由于推测解码采用固定策略或简单的启发式规则，所以无法根据具体任务动态调整生成多少和验证多少词。小模型猜得太多，大模型验证成本就会更高；小模型猜得太少，又无法发挥并行验证的优势。结果就是加速效果打折，甚至出现越优化越慢的情况。

在这样的背景下，微软亚洲研究院与北京大学联合提出了LTD（Learning to Draft）方法，它不再依赖静态规则，而是通过强化学习，让小模型生成和大模型验证之间形成动态协同关系，并直接以大模型的有效吞吐量为优化目标，助力大模型推理从机械加速走向智能加速。相关论文已被ICLR 2026接收。

点击文末相关链接，了解更多技术详情。

LTD：让小模型和大模型实现“灵魂契合”

传统的推测解码原理是“小模型猜词、大模型验证”。小模型用固定的长度去猜，比如每次固定猜8个token，然后大模型会一次性验证这8个token。但在简单的上下文场景中，小模型能猜对超过8个token，所以只猜8个会不够用，因为它其实可以猜更多；而在复杂的上下文终，小模型往往一个token都猜不对，如果猜8个然后送去验证的话，就会造成算力的浪费。另外，小模型和大模型在整个过程中就像两个没有沟通的人各干各的，没有配合。

LTD打破了这种各自为战的模式，将“单位时间有效生成量”作为唯一的优化目标，不再单纯追求猜中多少答案，而是看在猜token和验证的总时间里，能生成多少有效的正确内容，让小模型的生成阶段和大模型的验证阶段实现动态协同工作，从根本上实现智能加速。

Diagram — 图1：LTD方法概述：将草稿小模型与目标大模型之间的交互建模为一个强化学习环境。采用两种策略，通过控制草稿树的深度和验证规模，动态管理草稿与目标验证之间的资源分配。这些策略基于每个“生成-验证”周期的吞吐量所产生的奖励信号，来联合优化。

为了让猜token和验证环节精准适配、默契配合，LTD 为大模型的加速过程配备了两个“智能协调员”：深度策略和规模策略。

首先，深度策略管控小模型，决定小模型应该猜多少token，也就是草稿树的深度。它会根据当前的问题上下文、小模型猜测token的概率等信息，判断问题的难易程度，在草稿树每一层扩展后，做出“继续扩展”或“停止扩展”的二元决策，确保小模型的猜测数量恰到好处，既不会太少，浪费了大模型的验证能力，也不会太多而增加无谓的时间成本。

其次，规模策略专门对接大模型，决定大模型需要验证多少个候选答案，也就是验证规模。它会根据小模型猜测token的结果、当前的生成进度，从所有候选token中挑选出最优的数量让大模型验证，让大模型的每一次计算都能发挥最大价值。

两个策略通过强化学习联合优化，根据上下文与候选质量动态调整，实现协同平衡，使系统能够在不同输入和场景下自动找到最优平衡点，实现算力的高效利用。

更关键的是，这种默契是通过强化学习训练而来的。LTD 将整个推理过程建模为一个决策环境，每一轮“生成+验证”都会产生一个反馈信号。两个策略利用这一信号不断优化自身行为，逐渐学会如何协同决策。

其训练过程分为两个阶段。第一阶段，深度策略和规模策略分别独立训练。深度策略会在固定验证规模的前提下，反复训练如何根据不同场景判断最优的猜token深度；规模策略则会在固定猜token深度的前提下，训练如何选择最合理的验证规模。经过这一阶段的训练，两个协调员都能形成稳定的独立决策能力，从而为后续的协同配合打下基础。

第二阶段是迭代协同优化，让两个模型开始练习配合的默契。这一阶段先固定深度策略的决策规则，训练规模策略如何根据小模型的猜token结果，做出最适配的验证决策；再固定规模策略的决策规则，训练深度策略如何配合大模型的验证能力，调整最优的猜token深度。研究员们发现，仅需两轮交替迭代，两个策略即可实现完美的协同配合，让整个加速过程高效且顺畅。

这样的创新设计，让 LTD 方法拥有了三大优势。其一是时间感知能力。小模型不再盲目追求猜中答案的数量，而是始终在计算“是否值得”，从而避免无效开销。其二是动态适配能力，在不同任务、不同上下文中，系统都会自动调整策略，而不是依赖固定参数。最后是轻量高效，两个策略模型本身非常小，额外计算开销低于1.5%，几乎不会增加系统负担，这让加速方案的落地变得简单可行。

LTD 的加速实力超能“打”：最高提速 36.4%

研究员们在多个主流大模型，包括Llama-3、Vicuna、Qwen3 等，以及涵盖多轮对话 MT-bench、数学推理 GSM8K、指令遵循 Alpaca 等不同性质的基准测试集上，对 LTD 进行了全面评估。

chart — 图2：左：在Llama3-8B和DeepSeek-8B模型上采用迭代训练策略的有效性。右：各组件在Vicuna-13B模型上的贡献。

实验结果表明，LTD 在各种模型上都实现了稳健的提速。相比先进的 Eagle3 方案，Qwen3-32B 模型加速提升了高达 36.4%。在处理像DeepSeek这类擅长生成逻辑缜密、长思考链内容的模型时，LTD 也能带来大概10%的额外加速，这对于改善长文本生成模型的用户体验至关重要。

除了效率外，LTD 还展现出强大的鲁棒性和通用性。很多动态加速方法在面对高随机性任务时会失灵，甚至导致速度倒退，但 LTD 依然能维持约 5% 的提速优势。这意味着无论用户是在写一段代码，还是在进行创作，LTD 都能提供稳定的加速支持。

此外，LTD落地门槛极低。它不依赖对大模型结构的修改，可直接集成到现有推理框架中。由于策略模型十分轻量，部署成本接近于零，几乎可以无缝应用于现有系统，为企业和开发者提供了极具性价比的加速方案。

“时间感知”将成为大模型的加速度

LTD的创新不仅为大模型推理安上了加速键，还颠覆了推测解码“以猜对数量为目标”的传统范式，证明了优化中间指标不等于优化最终效果，加速必须时间感知。这意味着来自于系统层面的动态协同优化更有助于模型效率的提升。而LTD通过将强化学习与推理加速深度融合，为大模型自适应推理研究提供了一条新路径，将推动大模型从静态调参向智能调度转变。

与此同时，在算力成本越来越昂贵的当下，推理效率的提升相当于资源利用率的提高，也就是说同样的硬件可以支撑更多请求，或者在更低配置下实现相近性能。这不仅降低了企业部署大模型的门槛，更为大规模应用打开了空间，使大模型从实验室走向真实业务场景的路径更加清晰可行。

Learning To Draft: Adaptive Speculative Decoding with Reinforcement Learning

论文链接：https://openreview.net/pdf?id=IK9cbzzXLt (opens in new tab)