News & features
告别盲猜token时代,LTD赋予大模型“时间感知”能力
慢,越来越慢…… 你在使用大模型时是否也面临这样的无奈:AI的回答总是需要等待,敲完一个问题,要等上几秒甚至十几秒才能得到回复,在复杂推理、多轮对话或代码生成等场景中,可能还需要更长的时间。 推测解码方法一定程度上缓解了这一延迟问题。它通过引入一个更快、更小的草稿模型,先猜一些可能的词元(token),再由大的目标模型统一验证,从而减少逐步生成的时间。然而,其现实效果并不总是理想的。由于推测解码采…
语音识别技术在近年来取得了飞速发展,但在面对真实的复杂场景时,许多系统依然显得有些力不从心:漫长的会议、多人混杂的交谈、极具专业性的行业术语,或是中英夹杂的日常对话…… 传统的语音识别系统往往需要将长音频切分成一个个短小的片段,分别识别后再费力地“拼凑”起来。这种“化整为零”的方法不仅容易丢失上下文,还常常在谁说了什么、什么时候说的等问题上张冠李戴。 近日,微软亚洲研究院发布了一款通用的语音识别模…
别让AI在部署后停滞:OEL重塑大模型进化之路
大模型部署之后能力还可以持续提升吗? 如果去问AI开发者这个问题,在过去,答案大多是否定的。传统的大模型在出厂那一刻,其智力水平就几乎定型了。即便在实际应用中遇到了未见过的新问题,或者被用户反馈指出错误,模型也很难像人类一样,在下一次尝试时立刻吸取教训。这正是当前大语言模型面临的尴尬现状。 在现有的主流范式下,AI模型性能的提升高度依赖于离线训练,要么是昂贵的人工标注,要么是预先构建的模拟环境。一…
In recent years, as the shift toward agentic AI has accelerated, automation has advanced to handle increasingly complex tasks, from document and code generation to image creation, visual understanding, and mathematical reasoning. This trend points to the growing need to…
DocReward:让智能体“写得更专业”的文档奖励模型
编者按:当大模型已能“写对”内容,如何让文档也“好看、易读”成为办公智能体转型的新焦点。微软亚洲研究院携手香港中文大学、中国科学院大学提出了一个专注于评估文档“结构与样式”专业性的奖励模型 DocReward。该模型为智能体生成的文档提供了清晰、可量化的优化信号,使其不仅在内容层面准确可信,更在形式呈现上清晰有序、专业规范,为下一代智能办公智能体的落地奠定了关键基础。 近年来,随着智能体化转型(A…
VibeVoice实现90分钟、多角色播客生成,拓展语音合成新边界
编者按:AI 自动生成播客早已不是新鲜事,但常见的 AI 播客只局限于几分钟的双人对话,这是因为传统语音生成模型大多基于离散化方法,更擅长生成短句、单一音色、结构规整的语音内容。近日,微软亚洲研究院提出了一种全新的语音生成模型 VibeVoice。该模型采用 next-token diffusion 机制,实现了长达90分钟、支持最多4人自然对话的高质量语音生成。更重要的是,VibeVoice 生…
CoR:多范式思维加持,大模型也能学会“多思路解题”
编者按:大语言模型(LLMs)在语言生成与基础推理中已展现出强大的能力,但它们在数学解题上的能力仍存在明显短板,尤其是难以兼顾复杂计算与定理证明。这背后的关键原因在于,现有模型普遍依赖于单一的推理范式(如自然语言、代码或符号推理),缺乏人类思考问题时那种灵活的推理能力。 为此,微软亚洲研究院与清华大学联合提出了“推理链”(Chain-of-Reasoning, CoR)框架,引入了自然语言、代码与…
One of the driving forces behind AI’s rapid progress is access to large-scale, high-quality data, essential to enable training models to continuously improve and perform reliably. But that well is running dry. As the supply of usable internet data shrinks,…
World models are a key concept in AI, used to simulate how agents behave in virtual environments and enable immersive, interactive experiences. They’re not only transforming game and media generation, they’re also opening new frontiers for using AI in complex,…