微软研究院发布了新版本的小参数模型Phi-4。作为Phi系列的第五代产品,这款模型延续了小巧参数的设计,总参数量达到140亿。
虽然参数不多,但Phi-4在多个基准测试中展现了强劲实力。在GPQA研究生考试中,它获得56.1分,超过GPT-4o。而在MATH数学测试里,Phi-4得分高达80.4,领先于GPT-4o、开源模型Qwen 2.5 -14B和Llama-3.3-70B。尤其在美国数学竞赛AMC中,Phi-4更是拿下91.8分的好成绩,优于GeminiPro1.5、Claude 3.5 Sonnet和Qwen 2.5等多个知名模型。
这说明,即便参数规模不大,优质数据和创新训练手段依然能让模型发挥强大功能。与大型模型相比,Phi-4在部署、使用和推理时所需的计算资源显著减少。
Phi-4的成功离不开高质量合成数据的支持。不同于传统大模型依赖网络爬取或公开数据库的真实文本,Phi-4运用了多种合成技术,比如种子筛选、多智能体提示、自我修正流程、重写与优化以及指令反转等,弥补了传统无监督数据集的不足。
种子筛选是合成数据生成的起点。Phi-4从多个领域提取优质数据种子,为后续生成奠定基础。这些种子来自网页、书籍和代码库等内容,具有高复杂性、深度推理和教育意义。为了保证质量,采取了两步筛选机制:先锁定教育潜力大的页面,再将选定页面分割成段落,并逐段评估事实性和推理内容。
多智能体提示让不同智能体间互动对话,创造接近实际应用的情景;自我修正流程促使模型参与自我编辑,提升输出质量和一致性。指令反转则通过改变任务表述方式,增强模型应对多样问题的能力,进一步提高其灵活性。
最终,生成了涵盖50种类型、涉及广泛主题和技能的合成数据集,总量约400B未加权高质量token数据。
为了保证Phi-4在各类任务中的优秀表现,研发人员采用了一系列创新训练方法,并依据具体需求调整数据分布。特别是在提升长上下文理解能力方面,Phi-4将rope位置编码的基础频率增至25万次,并适度降低最大学习率,以便更好适配长文本序列。此举大幅增强了模型解析复杂结构化信息的能力,使其在处理需要综合分析多段文字甚至整篇文章的任务时更加得心应手。
Phi-4还注重不同类型数据间的均衡分配,防止因某一类数据过多影响其他方面的性能。
在后训练阶段,研究团队通过两种形式的DPO数据强化模型训练。一种是基于人工标注的SFT数据,即由专家精选并标记的问答对;另一种是自动构建的DPO对,通过查找关键节点,把原始对话片段拆分为多个选项,让模型选择最佳答案。结合这两种方式,Phi-4不仅能生成更贴合预期的回答,还能根据不同场合调整语气和风格,提供更个性化的交互体验。
另外,Phi-4引入了一些创新后训练技巧,以提升其在特定领域的表现。例如,在解答STEM领域问题时,Phi-4借助名为Math-Shepherd的工具进行验证和强化学习。Math-Shepherd能自动核查模型生成的答案是否正确,并在需要时给出额外指引,帮助模型逐步掌握正确解题路径。这种方法有效解决了传统无监督数据集中常见的逻辑不清问题,使Phi-4在数学竞赛类题目上的准确率达到了80.4%,远远超出其他竞争产品。
针对编程代码评估任务,Phi-4也采取了类似策略,通过对大量开源项目代码片段的分析和总结,提高了其在该领域的执行效率和准确性。
值得一提的是,微软AI副总裁、Phi系列模型的主要推动者之一Sébastien Bubeck已经离开微软加入OpenAI。