在数字化转型的浪潮中,档案资源与人工智能技术的结合已成为推动档案管理现代化的重要途径。一方面,人工智能技术在档案的收集、整理、保护和利用等环节发挥着越来越重要的作用。实践中,档案部门积极运用人工智能等技术手段开展工作,提升了效率,增强了资源的可访问性和智能化服务水平。另一方面,档案资源也在人工智能模型的不断优化中扮演着重要角色。人工智能的训练需要大量高质量数据,文本、图像、声音等各类型数据经过处理后可成为模型训练和优化的重要资源,能够有效提高其识别准确率和处理能力。本文对国内外有关实践加以分析,提炼档案资源助力人工智能技术优化可行之策,以供参考。
一、档案资源助力人工智能技术优化有其天然优势 人工智能在全球范围内掀起热潮,应用广泛且影响巨大,在档案领域的应用也开展得如火如荼。但其发展过程仍有很长的一段路要走,成熟度与性能仍有待优化提高。举例来说,卢森堡国家图书馆与OpenAI公司签署合作协议,共同开发基于ChatGPT技术的机器人,提供智能问答服务,并于2023年10月宣布允许用户利用机器人检索数字化馆藏。但从应用效果看,还存在查全率与准确率不高、无法智能汇总分析信息并准确回答用户提问等问题,需进一步优化提升。 档案资源作为重要数据源在助力技术优化上有着得天独厚的优势,主要表现在数量和质量两个方面。 从数量上看,档案资源数量巨大。随着数字化技术飞速发展,全球范围内电子档案呈现出爆发式增长态势,这些资源不仅数量庞大,而且内容广泛,可成为训练生成式人工智能模型的重要“燃料”。2023年,美国苹果公司欲购买多家机构的新闻档案的内容使用权,用于训练生成式人工智能模型,体现出对档案资源的巨大需求。无独有偶,法国媒体机构《世界报》与OpenAI合作,训练生成式人工智能ChatGPT。英国广播公司也期望利用自身档案资源形成生成式人工智能以提升生产效率。 从质量上看,档案资源真实可靠。随着信息时代快速发展,数据激增,然而其很大一部分处于真实性未知、质量参差的状态,难以为人工智能技术开发与优化提供可靠支撑。档案作为记录人类社会实践活动的可靠载体,具有原始记录的本质属性,相较于普通的文本文献,更加真实可靠。且其内容丰富,既有个体生动记忆,也有集体共同记忆,涉及政治、经济、文化、科技等各领域。这种跨领域的数据资源,有助于人工技能技术在不同场景中的灵活应用。 二、档案资源助力人工智能技术优化的可行之策 首先,应认识到档案资源的多方面价值,进一步加强保管利用。业界通常更为关注人工智能对于档案资源开发的助力作用,未能充分认识到档案资源本身就是人工智能技术开发与优化的高质量、高价值资源。这种认知层面的不足甚至偏差,不仅限制了档案资源价值的充分发挥,也阻碍了人工智能技术在某些领域的深入应用。因此,首要一步就是确保档案收集齐全完整。梵蒂冈19世纪和20世纪历史音像档案丢失事件给档案工作者敲响警钟,必须以更加积极的态度和前瞻的眼光,保管好档案资源。实践中,也有许多正面案例。如,2023年利马《新闻报》搬迁,为保证其新闻档案完好无损,其将1950年至20世纪末的新闻剪报、照片及底片捐赠给博物馆。 其次,多方合作以发挥档案语料价值,推动双向共赢。档案语料作为自然语言处理领域的重要数据源,是人工智能技术不断进步、算法和性能提升的数据支撑。然而,充分发挥档案语料的潜在价值,单纯依靠传统的人工方法显然力不从心,必须借助先进的人工智能技术。因此,在这样可以实现双赢的局面下,档案部门可考虑同相关机构开展合作。前文提及的卢森堡国家图书馆与OpenAI公司的合作便是一例。 最后,重视安全与隐私保护,实现档案资源的安全开发和可持续利用。在利用档案资源进行人工智能技术开发与优化的过程中,安全与隐私保护不容忽视。必须清醒地认识到,安全与隐私保护问题如同悬在头顶的达摩克利斯之剑,时刻提醒着档案工作者不可忽视数据泄露、隐私侵犯等风险。据报道,2023年苹果公司与多家出版商谈判,希望获取其新闻档案的内容使用权,部分出版商对此持消极态度,认为将数据用于大模型开发可能导致数据控制、潜在敏感信息滥用等问题。可以看出,如何制定合乎伦理的人工智能使用方案,是当前尚待澄清的重要问题。但有一点应成为共识,那就是构建全方位、多层次的安全防护体系,确保信息安全与隐私保护。这要求相关部门加强顶层设计,制定和完善数据保护法规政策,加强监管力度,完善数据传输的数据加密和访问控制规定等。 原载于《中国档案报》2024年12月12日 总第4224期 第三版 作者:赵雅杰 朱韵姿 来源:中国档案报
|