在6月22日举办的华为开发者大会2024(HDC 2024)上,中科闻歌的技术副总盘浩军先生受邀参与,围绕《基于Data4AI打造高质量数据平台底座》这一主题,与会者深入探讨了基于数据集构建大模型的实际操作与创新方向。
中科闻歌:人工智能的科技先锋
中科闻歌,作为中国科学院自动化研究所孵化的人工智能公司,专注于复杂数据解析与AI辅助决策。通过与华为云的紧密合作,中科闻歌在云服务的支持下,构建了认知与决策智能的基础平台DIOS和雅意大模型,推动了人工智能技术的飞跃发展,全面助力行业的数字化与智能化转型。
在数据工程领域,中科闻歌致力于解决大模型训练所需数据质量的关键问题。通过使用高质量数据清理工具,他们对原始数据进行深度处理,包括文档数据去重、标准化、启发式清理、段落及句子去重与“毒性”过滤,确保数据的安全与可控性。这种精细化的数据治理流程,为大模型的预训练与推理应用提供了坚实的基础。
在模型工程层面,中科闻歌采取了“1+N+MoE”的策略,即构建一个自主可控的基础模型,融合多种领域模型,形成一个多专家模型体系。其中,中科闻歌自主研发的雅意大模型作为代表,以其国产自主可控、多年数据集积累、生态开源开放、垂直领域知识增强的特点,提供多语言理解、多模态内容生成、多智能体辅助决策的核心能力。雅意大模型2.0版本在数据、算法、模型和应用方面拥有全自主知识产权,具备面向行业应用场景的自主训练与微调能力,兼容多种国产算力硬件,为政府与企业提供安全可靠的AI解决方案。
中科闻歌展示了其雅意大模型在金融、媒体、安全等多个领域的实际应用案例,如银行财报问答、航天信息财税大模型、深圳市龙华政务问答GPT、中医科学院国医金匮智能问诊等。这表明,通过AI技术,中科闻歌正致力于推动行业应用的智能化升级。
中科闻歌将聚焦于通用人工智能的前沿技术,从理解和运用语义到深入理解世界,实现从感知智能向认知与决策智能的跨越。未来,中科闻歌计划推出雅意大模型3.0版本,进一步深化模型能力,打造更为高效、经济且专业的行业专用模型,以适应不断丰富的AI应用场景与持续增长的算力需求。
随着AI应用的广泛拓展,“大模型+大算力+大数据”将成为新一代人工智能发展的核心模式。中科闻歌将持续与华为云及其他伙伴合作,基于国产算力,高质量构建数据平台底座,共同推动大模型行业生态的建设与发展,加速大模型的应用落地。