合合信息TextIn“大模型加速器2.0”上线,破解复杂版面及图表解析难题

图灵汇官网

随着大型人工智能模型在日常生活中越来越普及,它们虽然带来了很多便利,但也存在一定的风险,比如可能出现“AI幻觉”。这类模型的表现很大程度上取决于训练数据的质量。近期,合合信息公司发布了“大模型加速器2.0”,这项技术依托强大的智能文档处理能力,能够高效分析和整理复杂文档的排版、布局及各类元素,从根源上降低模型出错的概率,使其在与人互动时更加稳定。

新版本的“大模型加速器”在处理复杂文档、表格和图表方面有了很大突破。它可以准确识别上千种文档里的各种表格和图表,解析的准确率达到了99.99%。与其他同类产品相比,其单页处理速度提高了三成以上。不仅如此,它还能把多种专业图表的数据反向还原,并转为模型能够理解的形式。另外,这个版本还新增了开源的知识库模块,这对医疗、制造和教育等多个领域的开发者来说非常有用,可以帮助他们打造定制化的知识库。

比如,在教育行业,“大模型加速器”助力合合信息与赛尔教育展开合作,提升了模型对复杂文档的理解力。这样一来,模型就能依照人们的阅读习惯识别文档结构,自动区分标题、段落、表格和图表等内容,从而更清楚地把握文档各部分内容的关系,减少错误的发生。

赛尔教育的技术负责人杨林表示,教育行业使用的文档格式繁杂,包含大量表格、公式、手写字符以及多语言文字等复杂信息,从中提取文本信息并非易事。

杨林提到:“教育行业里,大模型项目的效果好坏主要看数据量和数据质量。我们试过很多办法,但模型的速度和准确性一直不理想,严重影响了研究进展。”构建行业知识库需要从众多文档中提取文本信息,这就离不开高效的工具。合合信息提供的文档解析技术为此提供了重要支持,解决了不少文档处理上的难题。

除了复杂的文档布局,图表这类空间结构复杂的元素也是一个难点。“大模型加速器2.0”的图表解析模块能智能提取图表中的关键数据点、坐标轴信息和图例说明等内容,并转化为完整的Excel表格数据,适用于教育行业的大模型微调、学科知识库建设以及智能审核等场景。

为了帮用户简化专业文档的数据筛选和提取流程,提升解读效率和准确性,“大模型加速器2.0”推出了知识库产品模块,支持复杂文档的智能问答、摘要生成和检索等功能。

为了让用户更安心地使用大模型,知识库产品加入了溯源功能。通过为“投喂”给知识库的Markdown和JSON文件添加标记,如页码和坐标等空间位置信息,实现对句子和段落的精准定位,为用户提供一条快速验证的路径。例如,在财务分析中,当大模型从上千页的财报文件中提取出收入和利润等核心数据后,券商分析师可以通过溯源功能找到原始表格,进一步核实信息,防止错误或遗漏。

据悉,目前知识库模块已向开发者开放源代码,便于他们根据自身需求快速搭建个性化的行业知识库。在此之前,合合信息已经开源了智能文档处理“百宝箱”系列产品,解决了文档解析精度低和效果评估难的问题,开发者可根据具体需求灵活搭配使用这些工具。

本文来源: 图灵汇 文章作者: 广电独家