中科闻歌+华为云：高质量打造数据平台底座推动大模型赋能产业

投稿
APP
微信扫一扫获取更多

中科闻歌+华为云：高质量打造数据平台底座推动大模型赋能产业

洪雅丹

2024-06-23 00:00:00

图灵汇官网

探索大模型驱动的人工智能革新与数智化应用的未来

华为开发者大会2024：中科闻歌的创新实践

在6月22日举办的华为开发者大会2024（HDC 2024）上，中科闻歌的技术副总盘浩军先生受邀参与，围绕《基于Data4AI打造高质量数据平台底座》这一主题，与会者深入探讨了基于数据集构建大模型的实际操作与创新方向。

中科闻歌：人工智能的科技先锋

中科闻歌，作为中国科学院自动化研究所孵化的人工智能公司，专注于复杂数据解析与AI辅助决策。通过与华为云的紧密合作，中科闻歌在云服务的支持下，构建了认知与决策智能的基础平台DIOS和雅意大模型，推动了人工智能技术的飞跃发展，全面助力行业的数字化与智能化转型。

数据工程：构建高质量数据治理体系

在数据工程领域，中科闻歌致力于解决大模型训练所需数据质量的关键问题。通过使用高质量数据清理工具，他们对原始数据进行深度处理，包括文档数据去重、标准化、启发式清理、段落及句子去重与“毒性”过滤，确保数据的安全与可控性。这种精细化的数据治理流程，为大模型的预训练与推理应用提供了坚实的基础。

模型工程：打造多元、自主可控的模型体系

在模型工程层面，中科闻歌采取了“1+N+MoE”的策略，即构建一个自主可控的基础模型，融合多种领域模型，形成一个多专家模型体系。其中，中科闻歌自主研发的雅意大模型作为代表，以其国产自主可控、多年数据集积累、生态开源开放、垂直领域知识增强的特点，提供多语言理解、多模态内容生成、多智能体辅助决策的核心能力。雅意大模型2.0版本在数据、算法、模型和应用方面拥有全自主知识产权，具备面向行业应用场景的自主训练与微调能力，兼容多种国产算力硬件，为政府与企业提供安全可靠的AI解决方案。