微软开源最强小模型Phi-4，超GPT-4o、可商用

小哪吒

2025年1月8日，微软在Hugging Face平台发布了Phi-4语言模型的完整权重。这一举措遵循MIT许可，意味着开发者和研究人员可自由使用、修改并基于该模型进行商业应用开发，直接访问和调整底层参数。

Phi-4模型以其仅140亿参数的紧凑架构，展现出与大型模型相媲美的能力，尤其在科学技术问题回答上超越了其教师模型GPT-4。在数学领域，Phi-4表现卓越，大学水平问题的成功率达56.1%，数学竞赛问题的成功率高达80.4%。此外，Phi-4在MMLU上的准确率为84.8%，在HumanEval上的准确率为82.6%，远超其前身Phi-3。

微软强调，Phi-4的训练数据质量是其核心优势。与依赖网络内容或代码的常规语言模型不同，Phi-4采用了精心生成的合成“教科书式”数据，结合高质量的有机数据和先进的训练方法，有效提升了模型区分高质量与低质量答案的能力。研究人员通过识别“关键标记”——决定答案准确性的特定词汇或符号，训练模型精准识别这些决策点，从而优化问答表现。
尽管Phi-4在多项测试中表现优异，但也存在一些局限性。例如，它在遵循精确提示指令和表格格式要求方面表现欠佳，且可能生成虚假信息，如为陌生人编造虚构传记，有时也无法通过基本逻辑测试。