摘要:文章分析OFD格式的技术特点,结合电子档案管理中的应用需求,提出OFD在电子档案移交接收中的技术实现思路,并分析实际应用情况。
关键词:OFD;版式文档;电子档案;管理;应用
OFD作为版式文档国家标准,在电子档案管理领域有着重要的应用价值。电子档案移交接收,是档案馆确保长期保存的电子档案来源可靠、程序规范、要素合规的重要工作环节。天津市档案馆从电子档案移交接收工作入手,探索OFD在电子档案管理中的应用实践,取得了阶段性的成果。
1电子档案版式格式要求与OFD的技术特点
1.1电子档案的版式格式要求
版式文档是版面呈现效果固定的电子文档格式。其具有电子文档呈现与设备无关,在各种设备上阅读、打印和印刷时,其版面的呈现结果都一致的格式特征。这一格式特征,非常适宜电子文件的交换、发布、存档。2009年《电子文件管理暂行办法》提出“应采用符合国家标准的文件存储格式,确保能够长期有效可读”;同年国家档案局颁布《版式电子文件长期保存格式需求》,将版式文件作为电子档案长期保存和利用的格式,并提出明确的技术需求;2016年10月国家标准化管理委员会发布国家标准《电子文件存储与交换格式版式文档》(GB/T33190—2016)。至此,我们有了自己的版式文档格式国家标准,这对于促进相关产业的发展、提升我国电子文件管理的安全性和自主性,具有重要意义。
1.2OFD格式的技术特点
OFD版式文档格式采用“容器+文档”的方式描述和存储数据。容器是一个虚拟存储系统,所有数据都存放其中,包括文档、页面、大纲等文档模型和图形、图像、字体等,容器提供访问接口和数据压缩方法,文档模型采用XML,附加的字体、图像、音频、视频等数字资源采用二进制格式,使用ZIP压缩算法进行整体压缩打包。OFD定义了基于XML和ZIP压缩的通用版式文档格式,适用于固定版式电子文件的存储与交换,在满足版式文档核心需求的同时,技术实现更加精简,扩展性和可控性更强,体现出以下几个方面的优势。第一,自主产权,安全可控。OFD具有完全自主知识产权,具备自主的核心技术,支持国产加密算法,国家对OFD标准具有完全自主的话语权,可以自主修订和扩展OFD标准。第二,长期可读,长久保存。OFD使用通用开放压缩标准,其内容和配置信息以XML保存,相比PDF、DOC等二进制存储格式更容易读取和理解,有助于文件的长期可读可用。第三,扩展性强,利于推广。OFD的技术框架具有很强的可扩展性,可以根据需要扩充所包含的资源,支持公文语义等特色的行业应用,有利于在各行业应用和推广。
1.3OFD在电子档案管理中相关技术的应用
OFD的技术特点使其在电子档案管理领域有着巨大的应用价值。作为国家标准版式文档格式,OFD对于电子档案管理尤为重要:提供了国内各行业各领域电子文件归档保存所需的统一的版式文档格式标准;OFD不依赖于特定厂商或技术平台,标准公开,有助于电子档案长期可读可用;OFD作为自主标准,支持国产加密算法,有助于实现自主可控;OFD的多文档、高压缩等特性为电子档案的存储和利用提供了技术支撑。OFD可以在电子档案管理中发挥如下作用。一是支持电子档案元数据采集和存储。OFD具有很强的元数据描述能力,可以在文件管理各个阶段利用OFD的CustomDatas或Extentions来自定义扩展文档元数据,在档案管理阶段可继承前面各阶段采集的元数据,并根据档案管理的需要对元数据进行扩展和补充。二是支持电子档案信息包封装和数据交换。在电子档案的数据交换中,为维护其完整性一般会采用信息包的方式。OFD作为电子文件存储和交换格式,采用ZIP压缩打包,支持以数字签名的方式对文档内容进行真实性校验,可有效支持电子档案信息包的封装和数据交换。三是支持电子档案的长期保存。OFD对于档案行业标准《版式电子文件长期保存格式需求》中的长期保存格式需求,如格式开放、不绑定软硬件、文件自包含、格式自描述、显示一致性、持续可解释、稳健、利于存储、支持技术认证机制、易于利用等要求具有较高的遵从性,是电子档案长期保存格式的较好选择。四是支持电子档案的利用。OFD采用的压缩打包技术,比同内容的DOC、PDF等格式文件体积更小,在线阅读时加载速度更快,支持客户端不留存副本等安全要求,可以灵活满足电子档案利用中的要求。
2OFD应用的相关技术路线
新修订档案法明确要求“电子档案应当来源可靠、程序规范、要素合规”。档案馆接收电子档案进馆,是电子档案管理中的一个重要环节。在接收环节,“程序规范”是确保接收进馆电子档案“来源可靠”和“要素合规”的关键。电子档案是否以及如何遵守规范的程序要求,可以通过详细的背景元数据和过程元数据来记录和审计。本着这一思路,档案馆工作人员和系统技术开发人员共同研究分析,基于OFD的技术特点形成相应解决方案。
2.1基于OFD实现信息封装
电子档案移交接收关系到档案管理权责的转移,为确保电子档案在移交接收中的完整性和安全性,通常会对电子档案的数据进行打包封装。OFD是一种采用ZIP压缩的容器型的文件格式,具有数据打包封装的能力。如果将OFD作为档案信息的封装格式,则可以充分利用OFD的数据打包封装能力,使电子档案的元数据和数字对象更紧密地结合,提升电子档案在移交接收或长期保存中的完整性和安全性;同时,也会存在OFD封装的档案信息包相对复杂,其访问和处理性能尚缺乏验证等问题。因此,可以针对不同的应用需求,尝试设计基于OFD的多种封装结构。第一种是电子档案OFD封装结构,以OFD来封装单个电子档案的元数据和数字对象,在“件”一级将电子档案的元数据和多个数字对象合并成一个电子档案OFD文件。第二种是接收过程记录表单的OFD结构,除了记录表单本身的内容外,还基于OFD的信息封装能力将接收的说明信息和校验信息作为附件嵌入OFD文件中。利用这两种OFD封装结构,确保电子档案在移交接收中的完整性和安全性。
2.2结合OFD实现电子档案真实性保障
依据《党政机关电子公文处理工作办法》《党政机关电子公文归档规范》等法规政策及标准规范的要求,电子公文在归档时“应当去除电子印章的数字签名信息,只保留印章图形”。这样,归档保存的电子公文中原有的基于电子印章的真实性验证技术机制将被去除,需要引入其他适合长期保存的真实性验证技术机制。档案馆在电子档案移交接收工作中,结合OFD对上述需求进行了技术实践验证。一方面,遵照法规政策和标准规范的要求,去除了电子档案的数字对象中的电子印章校验,使电子印章图像化。另一方面,系统对原始移交包中每份电子档案的内容文件等数字对象文件和XML格式的电子档案元数据文件生成校验码,并将校验码集中保存到校验文件中,将校验文件作为附件保存在移交接收记录表单的OFD文件中,并进一步封装进入最终形成的移交信息包,移交接收双方共同保存移交信息包,这样就为双方提供了移交接收过程的电子档案真实性保障机制。
2.3移交接收过程电子档案管理元数据的捕获和保存
电子档案移交接收过程中产生的元数据信息是电子档案元数据的重要组成部分,有必要予以捕获和进行记录。但是,如果直接将这些元数据保存到原始移交包的电子档案元数据XML文件中,则会因为XML文件的内容变动而导致该文件的校验信息失效,使电子档案的真实性产生瑕疵。可以有效利用OFD的封装能力,将移交接收过程产生的元数据保存在OFD格式的移交接收过程记录表单中,并进一步将该记录表单保存到移交信息包中。利用OFD的封装能力,将移交接收环节产生的元数据完整记录下来。这样可以在捕获和保存移交接收过程产生的元数据的同时,不会破坏原始移交包中原有电子档案元数据XML文件校验信息的有效性,从而移交单位提交的电子档案真实性校验也得以保留。
2.4结合OFD实现文本识别和全文检索
档案馆在电子档案移交接收实际工作中,除了从移交单位接收原生的电子文件之外,也会接收到传统载体纸质档案的数字化复制件。纸质档案的数字化复制件通常采用JPG、TIF等光栅图像格式,也有部分采用由图像直接生成的单层PDF文件格式。在这些文件格式之中,图像上的文字内容无法直接读取和检索。可以结合采用的专业级OFDConvertor转换引擎,在OFD转换功能中集成OCR文字识别功能,对图像进行OCR识别,将图像中的文字内容识别出来,然后将识别出的文字内容嵌入OFD文件中,形成识别文字+扫描图像的双层内容,再加上档案元数据所形成的元数据层内容,就形成了档案的三层OFD文件格式。采用三层OFD文件格式的档案,可以实现档案元数据和档案数字对象的紧密结合而有助于档案的完整保存,可以精确、直观地展示档案的视觉内容,有助于档案的可读可用,还可以结合全文检索引擎进一步实现对档案内容文字和档案元数据项的全文检索,有助于充分挖掘档案的信息利用价值。
3OFD在电子档案移交接收环节的实现
天津市档案馆主要通过移交数据包交换方式进行电子档案移交接收,先后制定了一系列相关标准规范,包括《天津市文书类电子文件元数据规范》《天津市文书类电子文件数据存储结构规范》《文书档案目录数据库结构与数据交换格式》等,对电子档案移交接收中的信息组织方式、存储结构及其基于XML数据体描述的规则和方法等进行了规定。针对OFD国家标准的应用,我们在国家相关标准规范的基础上,对移交接收流程进行了优化设计,充分利用OFD文档自身功能,实现OFD版式格式在电子档案移交接收流程中的应用。
3.1确定了原始移交信息包的组织单元、存储结构和内容组成
为简化整个移交接收流程,规定了原始移交包以年度为单位,以文件夹形式存储。原始移交包中要求包含目录文件的文档结构描述文件(schema-list.xsd),用于对原始移交包的目录文件(List.xml)进行校验,确保包中的档案目录数据合规;接收系统在原始移交包信息的基础上自动生成包说明文件(说明文件.txt),并对原始移交包中档案文件夹下的所有数字对象逐个生成校验信息,形成校验码文件(校验码.txt),存放到原始移交包内;由接收系统自动形成《电子档案移交接收登记表》。
3.2生成结构内容丰富的OFD文档
《电子档案移交接收登记表》转换成OFD版式文档的同时,将移交接收过程相关描述信息(主要是《电子档案移交接收登记表》中的信息)、“四性检测”结果信息,分别转换成XML文档,存储到“电子档案移交接收登记表.OFD”文档中。该文档可以达到不依赖特定系统对该批次电子档案移交接收过程进行自描述的效果。再由电子档案接收管理系统提供的OFD格式批量转换功能,对每份档案对应的文件夹目录下的所有数字对象,包括档案的办文单、修改稿、定稿、正文等,全部转换合并成一个OFD文件。同时将这份档案元数据的“文件元数据.XML”也封装到同一OFD文档中,并采用档号对此OFD文件命名,形成“档号.OFD”文件。这些数字对象,在“档号.OFD”文件里不再是独立的组成部分,而是成了OFD文件内Pages元素下的各个页面。在后续的电子档案移交接收工作实践中,上述OFD封装结构性能稳定,取得了预期的效果。
3.3形成移交接收双方认可的移交信息包
完成上述OFD格式转换、封装后,系统将“档号.OFD文件”、原始移交包的目录文件、说明文件、“其他”文件夹下的校验文件等打包,生成转换移交包。档案馆把原始移交包、转换移交包和包含移交过程信息的“电子档案移交接收登记表.OFD”打包,形成移交单位和档案馆双方认可的、包含移交数据和移交过程记录的完整移交信息包(SIP包)。SIP包返还给移交单位并要求保存5年以上。
4OFD后续研究及应用展望
当前,适用于长期保存的OFD/A标准正在制定之中,对于OFD在电子档案管理中的应用仍有许多地方需要进一步研究和探讨。下一步,我们和相关技术开发公司将密切关注OFD/A格式国家标准的制定和发布,结合OFD/A格式的特性,进一步探索OFD在电子档案管理中更多的应用场景和更深入的应用方式。如,基于OFD/A格式的部分签名和多版本元数据特性,实现电子档案移交接收、长期保存等管理过程元数据的多次写入,同时不影响前面阶段的数据真实性的验证。又如,基于OFD/A格式的自包含、自描述和校验能力,通过独立的OFD文件实现电子档案不依赖于特定应用系统的长期保存,满足电子档案的真实性、完整性、可用性和安全性要求。
参考文献:
[1]刘越男.新档案法中电子档案的法定要求[N].中国档案报,2020-08-06(1).
[2]高林,李海波,丛培勇,王寒冰.OFD版式文档国家标准解读[J].信息技术与标准化,2016(10):42-44.
作者:仇伟海 王靓 袁嘉新 单位:天津市档案馆 上海信联信息发展股份有限公司
返回电子论文列表