百度最新推出深度思考模型,文心大模型X1.1正式上线。该版本在事实判断、任务执行和智能体功能方面有明显提升。官方展示其在客服场景中的表现,用户输入问题后,模型能自动分解任务,调用工具并按流程完成操作。
测试中,模型能够编写Python代码,模拟25个彩色粒子在圆柱容器内运动,并实现容器旋转与画面缩放,效果流畅,粒子始终在限定范围内。
通过HTML动画展示归并排序过程,让算法步骤清晰可见。
数据显示,相比上一版本,文心X1.1的事实性提高34.8%,指令遵循能力提升12.5%,智能体性能增加9.6%。在多个评测标准下,整体表现超越DeepSeek R1-0528,接近GPT-5和Gemini 2.5Pro,部分任务领先。
在WAVE SUMMIT大会上,百度还发布了新的开源思考模型ERNIE-4.5-21B-A3B-Thinking,以及开发套件ERNIEKit,提供更便捷的模型优化方案,降低实际应用门槛。同时,开源了大规模计算图数据集GraphNet,填补AI编译器测试基准的空白。
文心X1.1可在文心一言官网、文小言APP及百度智能云平台直接使用或调用API。
测试显示,模型能解决逻辑难题“农夫过河”的变体版本,准确给出解决方案。面对历史争议问题,也能正确指出郑和船队未到达美洲,纠正错误观点。
在文案创作任务中,模型准确理解要求,生成符合风格的短文案,并生成相关图片。对于网络热梗“老奶打方向盘”,模型也能快速分析来源和背景。
在代码生成方面,模型能设计在线答题系统,支持自动评分。虽然偶尔出现误判,但整体表现稳定。
技术上,文心X1.1基于文心4.5训练,采用迭代式混合强化学习框架,提升模型性能。通过思维链与行动链机制、指令验证器和知识一致性验证等技术,增强模型的准确性与可靠性。
飞桨框架v3.2同步升级,为文心系列模型提供更强的支持。训练效率提升,推理速度加快,适配性更好,支持更多硬件平台。
百度持续推动开源生态建设,已开放多款文心模型,包括ERNIE-4.5-21B-A3B-Thinking。同时提供多种开发套件,助力开发者高效使用模型进行创新。
目前,飞桨文心已服务超过76万家企业,开发者数量突破2333万。百度通过不断优化技术架构,提升开发者的使用体验,降低AI应用门槛。