您现在的位置: 论文网 >> 管理学论文 >> 档案管理论文 >> 基于档案元数据内容的电子文件自动鉴定论文

基于档案元数据内容的电子文件自动鉴定

出处:论文网
时间:2015-06-18

基于档案元数据内容的电子文件自动鉴定

  1 电子文件鉴定研究综述

  随着电子文件的出现及其对传统纸质档案鉴定理论的冲击,国内外许多学者对电子文件的鉴定理论进行了研究。刘越南认为电子文件自动鉴定的方法是在系统中纳入并维护电子文件保管期限表。[1]于慧敏提出可以根据机关或部门的职能重要程度编写程序由系统自动鉴定,自动给文件保管期限。[2]谭?培和章丹指出要建立元数据系统与制定元数据标准,通过系统自动记录与手工记录获取档案元数据。[3]由于电子文件的迅速增长,关于电子文件鉴定的迫切性在业内已经达成了共识,而大家期盼的最理想的目标是对电子文件实行自动鉴定。从综述看现有的理论研究并未达成共识,没有形成电子文件自动鉴定相对成熟的理论体系,需要相关研究不断地总结与完善。目前的研究成果大都集中在电子文件鉴定内容、程序、方法、原则等宏观方面的研究,缺乏微观方面的研究。

  对电子文件的鉴定主要包括价值鉴定和保管期限的鉴定。价值鉴定十分复杂,需要考虑的内容很多,而且容易受鉴定者的主观影响,因此本文对价值鉴定不做过多的阐述。档案的鉴定同样可以通过保管期限来完成,在实际鉴定保管期限时,目前还是参照国家档案局出台的文书档案保管期限表进行判断,由于保管期限表条款划分过粗、加之人为的因素或者判断标准不统一的情况,使得电子文件的保管期限判断不够准确。笔者试图从电子文件的部分元数据内容入手来判断电子文件的保管期限。

  本文以元数据为切入点,主要采用在文献调查的基础上,通过统计方法构建元数据库,将元数据内容信息作为电子文件保管期限自动鉴定的依据。笔者通过选取文件标题、主题词这两个能反映文件全貌的元数据内容项目进行了实证分析,对自动鉴定结果进行了验证。

  2 电子文件元数据库的内容创建

  元数据是指描述文件背景、内容、结构及其整个管理过程的数据。档案元数据描述的内容有以下三方面:(1)内容信息:如标题、档号、分类号、主题词等;(2)结构信息:如段落层次、文体、发(收)文者等;(3)背景信息:如形成文件的机构及其职能、业务活动等。[4]通过观察,档案元数据描述的内容中除了文件标题和主题词能反映文件全貌,其他元数据项目难以用来判断一份文件的保管期限。因此本文只选用了文件标题和主题词这两个项目来判断一份电子文件的保管期限。适当的情况下,在判断保管期限时,还可以加入责任者项目。

  为了使电子文件自动鉴定具有可操作性,笔者根据国家档案局发布的第10号令《企业文件材料归档范围和档案保管期限规定》,将其中涉及的元数据内容抽取出来,该元数据库要嵌入档案管理系统自动鉴定模块中。部分元数据库如表1所示:

  表格说明:

  (1)一级标识限定了电子文件的内容方向,二、三、四级标识隶属于一级标识,只有同时满足一级标识、二级标识、三级标识或四级标识才能判断某份电子文件的保管期限。

  (2)由于政策的变化,长期、短期、永久划分没有绝对的标准,各单位依据自身具体情况,参照国家档案局出台的保管期限划分等相关规定进行区分,短期可能是3年、5年、10年或15年不等,长期可能是15年或30年不等。

  3 电子文件自动鉴定规则、流程与实例

  3.1 电子文件自动鉴定规则。要使电子文件实现自动鉴定,只有元数据库是不够的,还需要一些规则对其进行规约,笔者归纳出以下鉴定规则:

  3.1.1 元数据库中的元数据项目彼此之间存在从属或并列的关系,因此在设计数据库的时候,要把元数据项目之间的这种关系表达清楚,能提高自动鉴定的准确度。如下所示:

  1 党政企事业单位设立、变更、解散

  1.1 筹办申请、设立申请、批准设立 永久

  表中内容是永久元数据库中的项目,一级标识是代表党政企事业单位在设立、变更或解散过程中形成的文件材料;二级标识是代表在满足一级标题的情况下,如果涉及筹办申请、设立申请和批准设立的文件要永久保存。每一级标识里的元数据之间是并列的关系,而上一级标识和下一级标识之间是从属的关系。

  3.1.2 当判断一份归档文件的保管期限时,系统自动从档案著录系统中提取专业人员拟定的主题词、文件标题等元数据,然后与元数据库进行匹配,可以设置精确匹配、模糊匹配、前向匹配等多种匹配方法。

  3.1.3 当抽取的电子文件元数据与元数据库进行匹配时,匹配的内容之间可能存在同一关系、同涵关系、包含关系、参照关系。因此从电子文件中抽取元数据的时候要依据概念关联规则,寻求蕴含关系,力求匹配准确和全面。

  3.1.4 如果匹配记录为0的话,就需要相关档案专业人员结合国家档案局对电子文件保管期限的相关规定确定该元数据项目的保管期限,并参照表1及时将新增加的元数据添加到元数据库中。

  3.1.5 在档案管理系统中设定归档电子文件到期自动检测功能,根据电子文件归档时间和保管期限,将到期的电子文件筛选出来以方便档案人员对其鉴定。

  3.1.6 标题相同的两份文件,在添加和删除的时候,可以根据责任者、主题词、文件形成时间等其他元数据项目进行判断,以防重复添加或误删重要文件。

  3.1.7 通过对抽取出来的元数据进行分析,发现大部分元数据的词性均为动词或名词,因此在抽取词汇的时候,首先应当过滤掉名词与动词以外的词汇,以减少计算的复杂度。此外,考虑到抽取出来的元数据还有一少部分是副词词性,主要有重大、重要和一般三种。鉴于此,笔者认为需要编一个例外词库,将这三个副词分别标明代码为1,2,3。对于某些三级、四级标识中的一般、重要以及二级标识中重复的词可以放到例外词库中,减少重复判断的次数。将一、二、三级标识中不重复的名词和动词放入元数据词库中。当判断一份电子文件的保管期限时,将抽取出来的关键词与元数据词库和例外词库中的词进行匹配即可。   3.1.8 对于事先有保管期限的电子文件,当自动鉴定完成后,要将自动鉴定结果和原有的保管期限进行匹配。如果匹配结果不一致,系统将文件的保管期限修正为自动鉴定保管期限。

  3.1.9 规则说明:例如,表中15.2.10职工培训,一般的为短期保存,重要的为永久保存;15.5综合治理工作一般的为长期保存,重要的为永久保存。此外表中二级标识中多次出现通知、请示、批复、报告、总结、决议、决定等词语,可以将其放入例外词库中。

  3.2 电子文件自动鉴定流程。将表征电子文件内容的元数据项目抽取出来,如:文件题名、主题词、责任者等项目。然后判断鉴定模块中的元数据库中是否存在该元数据,若存在,则进行匹配;若不存在,则人工判断该元数据是否需要添加到元数据库中。流程如图1所示:

  3.3 电子文件自动鉴定实例。为了证明该方法的合理性和易操作性,笔者选取了部分电子文件,来验证该方法的可行性。笔者以建国后山西省×××局部分档案为例进行说明,如表2所示:

  由表2可以看出第5份和第7份文件保管期限的鉴定结果与原有的不符,究其原因可能是鉴定人员缺乏相应的专业理论知识、各组织单位为了丰富馆藏、领导对档案鉴定工作不重视,等等。对于新产生的电子文件,可通过将元数据库嵌入档案管理系统中一次完成保管期限的鉴定。总的来说,该方法具有很强的适用性和准确性。

  4 电子文件自动鉴定的实施

  笔者认为电子文件鉴定需要经过三个步骤:事前鉴定、事中鉴定和事后鉴定。

  4.1 事前鉴定。对原有的电子文件,首先由各职能部门档案人员对其进行初次鉴定;若是新产生的电子文件,直接转到第二步。

  4.2 事中鉴定。当电子文件由部门传输到内部档案室时,需要档案室人员对其进行二次鉴定。对于原有的电子文件,为了避免人为判断造成的影响,要使用档案管理系统中的元数据库对其进行自动鉴定,来修正保管期限。对新产生的电子文件直接使用自动鉴定模块来确定保管期限。此外,档案人员应对电子文件自动鉴定过程进行记录和实时监控,以防设备出现异常。

  4.3 事后鉴定。为了减轻档案管理系统的负荷量,当电子文件到期后,档案人员应该使用元数据库重新判断到期电子档案是否需要继续保管,如果需要,保管期限是什么。对于没有保存价值的到期档案,档案人员应该做好销毁记录,将需要销毁的电子档案导出到销毁清单中,经领导和各部门同意后方可进行销毁。

基于档案元数据内容的电子文件自动鉴定

论文搜索
关键字:数据 内容 文件 电子 鉴定 档案
最新档案管理论文
人事档案管理信息化建设创新路径研究
浅谈卫生职业院校教师素质的提升
卫生人力资源管理的探讨
钢铁企业档案管理的信息化建设探讨
浅谈新形势下事业单位档案管理的改革方向
浅析档案管理在医院管理中的作用及其策略
浅析新时期农业科研档案价值实现途径
大数据时代背景下档案管理工作的研究
新时期领导干部人事档案规范化建设研究
新时代信息数据化背景下企业档案管理创新思
热门档案管理论文
网络环境下的档案创新服务
如何做好档案管理工作
如何推行档案工作规范化标准化
浅议电子档案的整理与保护
试论档案工作中的保密
推动电子文件归档工作的思考
电子文件对档案工作的影响及对策
试论档案工作中的保密
档案信息自动化系统管理若干问题的思考
谈计算机技术在企业现行文件与档案管理中应