在信息化时代如何运用数字化思维,借力新技术新手段,探寻档案开放审核工作新路径,有效解决快速增长的公众利用档案需求与档案开放不及时、不充分之间的矛盾,在确保档案信息安全的前提下最大限度发挥档案服务民生、服务社会的重要价值和作用,成为各级国家综合档案馆面临的重大课题。
2020年7月,广东省珠海市档案馆承担的“档案开放鉴定系统全程管理及应用实践研究”课题经国家档案局批准立项。2021年12月,课题通过验收。2023年1月,课题成果获国家档案局优秀科技成果三等奖。该课题围绕对档案事业具有基础性、普遍性和长远性的档案开放鉴定工作,强化制度建设,健全工作开展常态长效机制,基于全面国产化应用系统实现全流程线上鉴定和管理,运用人工智能技术促进鉴定工作提质增效,为推动新一代信息技术与档案开放鉴定工作深度融合提供实践路径和珠海经验,具有一定示范及借鉴意义。
课题内容
该课题立足珠海市档案馆档案开放审核系统的研发、运行和升级实践,以及历年来应用系统辅助审核所积淀的工作经验,对档案开放审核工作流程进行分解重组、优化再造,应用光学字符识别(OCR)、自然语言处理(NLP)、敏感词过滤算法(DFA)、隐马尔可夫模型(HMM)等,推动系统功能全面升级,精确、智能辅助人工审核。同时,课题组充分发挥馆藏海量档案数据和应用场景优势,积极开展算法优化、模型训练等适配工作,提升智能判定的科学性和准确性。
1.健全工作机制,引领标准化规范化建设
(1)完善工作标准
依据《中华人民共和国档案法》《中华人民共和国保守国家秘密法》《国家档案馆档案开放办法》等法律法规,制定完善《珠海市档案馆档案开放审核制度》《珠海市档案馆档案划分控制使用范围》,将档案开放期限由30年缩短为25年,明确审核范围、审核程序、过程材料归档、信息化辅助和安全保密等工作要求,建立初审、复审、会审(征求意见)和领导小组会议审批的“三审一会”工作机制,推动档案开放审核工作开展和系统建设有法可依、有章可循。
(2)强化安全追溯管理
以数字化、无纸化审核为基础,档案开放审核各工作环节基于应用系统进行,基本无需进入库房调取和翻阅档案,更好地保护了档案实体。同时,加强过程控制,系统对各环节的责任人、审核内容、审核数量、审核意见、审核时间等予保存备案,工作台账及时归档,实现全程留痕、可追溯安全管理。
(3)建立协同审核模式
档案馆成立档案开放审核工作领导小组,负责领导、组织、协调该馆档案开放审核工作、审批有关事项。通过组织业务培训、上门指导、征求意见等方式,与档案形成单位或移交单位通力协作,共同确定各单位延期向社会开放档案的具体标准和范围,合力对馆藏档案进行开放审核,协商一致确定审核结果,推动构建相互合作、协同审核的工作格局。
2.重塑系统功能,推动全流程精细化管理
(1)业务流程“一站式”闭环管控
系统基于J2EE的开放式架构,采用B/S多层体系结构、JAVA语言技术,按照PDCA(计划—执行—检查—完善)闭环管理模式,实现任务形成、数据准备、人工智能预审、初审、复审、划控依据设置调整等各项工作全链条闭环式管理。从计划制定到任务激活、从工作执行到进度跟踪,均以标准化流程进行动态感知、监督控制。
(2)智能化辅助分析决策
系统编制和设置敏感词库,通过全文识别、语义解析等,对档案目录和全文数据进行敏感词扫描筛查及涉密识别过滤。通过深度学习,持续优化算法,构建更稳健的模型,人工智能辅助分析判断,为工作人员决策提供参考。系统同时设置到期提醒,自动筛选形成满25年且符合条件的档案全文数据,确保应审核档案不遗漏。
(3)信息技术体系安全可控
系统基于国产化环境部署,以华为鲲鹏CPU芯片、银河麒麟系统、达梦数据库、金蝶中间件等自主可控软硬件为基础支撑,利用可信计算和网络安全技术,搭建具有开放性、稳定性、安全性、高性能且易维护的技术架构平台,具备应用集成和跨平台快速部署能力。
(4)档案数字资源分级管理
审核结果自动在数据库中进行分类标注。馆藏数字档案资源按开放级、不开放级、涉密级细化利用等级。如开放级的档案目录通过网站等平台公布,根据利用者的需求提供全文;不开放级为审核后确定为延期开放的档案,内容一般涉及国家安全或重大利益、产权纠纷或个人隐私等,此类档案一般需出具介绍信等控制利用;涉密级是涉及国家秘密尚未解密的档案,系统仅在题名处标注“此处不提供利用”,相关电子档案目录存储于馆涉密电脑,全文保管在档案库房,利用须严格按程序履行报批手续。
3.引入人工智能技术,赋能全要素智能化革新
(1)OCR技术实现档案信息有效提取
传统人工审核一般由工作人员对档案原文及附件进行逐页逐字检查,耗时长且效率低。OCR技术可将各种不同类型的档案转录成可挖掘的数据信息,加快档案全文检索、数据分析。系统基于数据化后的档案信息,自动比对敏感词库,智能分析档案的题名、责任者和全文等内容,标识敏感词所在位置。相较于传统的OCR技术,基于机器学习的OCR技术对于不同形状、颜色、大小的字体,或不同背景、光照变化、几何变形的图像等,其识别速度和精度也更高。经课题组测试,目前系统对印刷体汉字、人脸、音视频识别率达90%以上,手写体识别率达80%以上。
(2)NLP开展档案知识化处理
利用OCR技术推动档案信息资源向数据化转型后,运用NLP技术的中文分词、词性标注、关键词提取、命名实体识别、自动分类等功能,可将识别后档案信息拆分为一系列词语,实现人名、地名、机构名等关键信息的自动化抽取,快速进行档案形成单位或权属范围检测,提高个人隐私等信息检测的准确性,同时为挖掘档案价值、推动档案管理知识化提供基础支撑。
(3)DFA算法高效过滤敏感词
所谓DFA算法(确定有穷自动机),其核心是将所有敏感词构成多棵树,首字相同的敏感词处于同一棵树,进行敏感词匹配时只需检索以这个字开头的树,如果全文中包含从根节点到叶节点的完整路径,就说明含有敏感词。因此,可直接通过查找路径遍历敏感词,大幅减少匹配范围,提高检索效率。以10万量级的敏感词库为例,检测一段20字文本约需2分钟,若采用DFA敏感词全文比对技术,则仅需0.4秒。
(4)HMM模型提升结果预测准确性
HMM模型是时间序列的概率模型,常用于词性标注、语音识别、文本分析等领域。在智能辅助审核过程中,即使相同的敏感词,在不同的上下文和语境下判定的结果也将不同。如设置“任免”为敏感词,当涉及具体某个人的任免通知时,审核结果一般为延期开放;如对干部任免工作提出要求,审核结果则可能为开放。运用HMM模型,可选择“最优”的状态序列即概率更大的结果,提升智能预审质量。
创新成果
一是制定形成了一整套适应新时期国家各级综合档案馆需要的,规范化、标准化的档案开放审核工作流程和运行管理模式。强化顶层设计,健全规章制度,细化划控标准,规范工作流程,在实践应用中不断丰富和完善“三审一会”制、协同审核制、台账管理制、发布审批制等多种工作机制,推动档案开放审核成为档案馆的一项常态化工作,稳妥有序开展,实现档案“应开放尽开放”。
二是响应国家战略部署,基于全面国产化环境,研发档案开放审核全程管理系统,按照计划、组织、审核、确认、公布等程序,优化初审和复审等各工作环节,增加智能化辅助审核功能,实现全流程、标准化、精细化、安全化管理,减轻审核人员工作量,提高审核工作质量和效率。系统设计的各流程科学合理、具体实用、可操作性强,有力规范了实际业务工作的开展。
三是打造人工智能与档案开放审核业务融合新范式。将人工智能、机器学习等广泛运用于档案开放审核实践。通过OCR全文识别快速检索分析档案目录和原文内容,自然语言处理、DFA算法优化敏感词过滤和关键信息自动筛选,HMM模型提升计算机预审的准确性,高质量辅助人工审核。
四是抢抓自主可控和国产化替代机遇,强化基础支撑体系建设,筑牢档案在线审核安全基石。所采用的基础软硬件如服务器、操作系统、数据库、中间件等均实现国产化替换,信息和系统可管可控,为各级档案馆档案应用系统全面转向国产化建设和运行提供有益参考。
应用实践
珠海市档案馆自2014年开始,已连续8年使用应用系统辅助档案开放审核工作常态化、流程化开展,至2021年年底完成馆藏自形成之日起满30年文书档案的开放审核,并向社会公布开放档案目录。新修订的档案法实施后,为依法依规落实期满25年档案向社会开放的要求,珠海市档案馆充分利用课题研究成果,将档案开放审核全程管理系统与迭代升级后的珠海市数字档案馆系统进行集成,实现并轨管理和数据互联互通,通过计算机预审和智能化判定大幅提高审核工作效率。截至2022年年底,珠海市档案馆馆藏自形成时间满25年约52.7万件档案100%完成开放审核,累计向社会开放档案约6.4万件,开放率约12.2%,推动档案信息资源建设成果更多更好地惠及人民群众。
作者单位:广东省珠海市档案馆