近期,斯坦福大学的著名语言学专家Christopher D. Manning在其《人工智能与社会》杂志的专题报道中,聚焦了《人类语言理解与推理》这一主题,该文深入探讨了预训练大型模型在人工智能领域的广泛应用,引发业界热议。
然而,尽管预训练语言模型在提供通用的语言理解和生成能力方面展现出强大的潜力,但在众多行业实践中,它们的应用却面临挑战。尤其是对于那些以非结构化文本为主要处理对象,且数据包含高度敏感和机密信息的机构,如政府机关和企业单位,传统的预训练模型由于其数据集规模庞大且依赖于大量标注,可能不符合这类环境的安全要求。
以档案管理为例,随着《档案法》的实施以及地方“十四五”规划的推进,档案馆面临着加快完成馆藏档案开放审核的任务。面对这一挑战,档案馆迫切需要引入成熟的技术手段来高效、低成本地处理大量的待鉴定档案。传统的神经网络技术虽具有潜力,但受限于需要大量原始文档作为学习样本,这不仅增加了档案馆的工作负担,而且在数据安全和隐私保护方面存在风险。此外,人力外包和基于关键词的NLP技术虽然曾经广泛应用于档案开放审核,但它们在应对规则变化、保证鉴定效率和准确性方面存在局限性,尤其是在疫情期间,远程协作的困难和数据处理的效率问题更为凸显。
与此形成对比的是,认知智能的概念被提出,它赋予计算机以类人思维和学习能力,通过“语义工程”提升机器的自然语言理解能力。联著档案智能开放审核系统,作为一项创新实践,于5月5日登上了《中国档案报》的版面。该系统利用自主研发的中文语义工程技术(专利号:ZL201410227079.1),结合OCR全文检测和高效的开放审核语义知识库,无需依赖档案馆提供实体文档作为训练样本,实现了对大量待审核档案的机器自动检测。相比传统方法,这种系统大幅提高了审核效率,降低了成本,有效支持了档案馆在规定时间内完成档案开放任务的需求,同时保障了数据处理过程中的安全性和合规性。