档案文献主题探测方法探讨

时间：2017-04-15

档案文献主题探测方法探讨

　　引言

　　随着目前科技文献资源的大量增长，档案类文献的资源也在突飞猛进的增长，但对于大量的文献资源，要能更精确的找到我们所需要的信息却变得难上加难。主题探测（Topic Detection，作为一项旨在帮助人们应对信息过载问题的研究，其研究目标是要实现按主题查找、组织和利用来自多种媒体的多语言信息[1]。

　　1.常用的文本分类方法

　　传统的科技文献分类方法都是基于文本分类的，这些方法是对给定的文本，根据其内容自动或手动地加上一个类别标签，通过给定的训练集，用某种方法构建文本特征与文本类别之间的关系模型，再利用这个关系模型对新的未知类别文本进行类别训练。

　　1.1基于简单向量距离的分类法

　　简单向量距离分类法的主要思想，是首先确定新文本的向量，然后根据尚未分类的文本向量与每个类别中心向量的距离来判断此文本属于哪个类别，确定新文本向量的前提是：先根据算术平均为每类文本集生成一个代表该类的中心向量[2]。

　　简单距离向量分类法实现简单，分类的复杂度也不高，其缺点也很明显：直接使用特征空间的特征分布，受训练文本中的噪声影响较大，同时对分布不规则的数据，能够取得的效果是很有限的。

　　1.2 K近邻法（K-Nearest Neighbor）

　　KNN最初由Cover和Hart于1968年提出，是一个理论上比较成熟的方法，其分类方式是通过查询已知类别文本的情况，来判断新文本与已知文本是否属于同一类。算法的基本思想是：首先给定新文本，然后在训练文本集中找出与新文本距离最近的文本，依据找出的最近距离文本的类别，来判定新文本所属的类别。

　　KNN方法相对简单，易于实现，用于基于统计的模式识别中非常有效，并且对于未知和非正态的分布能够取得比较高的分类准确率。但对于样本分布依赖性较大，当样本分布不均匀时，可能造成一定的偏向性。

　　1.3 贝叶斯分类法

　　贝叶斯分类方法在使误判率或风险最小的问题上是很有意义的。它是将研究对象的先验概率来作为辅助判断，这样做可以使结论更精确的得到分析。但由于贝叶斯分类器的前提是需要已知条件概率，而且它的决策面比较复杂，因此在计算和构造方面是相对困难的[26]。

　　贝叶斯分类的优点在于算法逻辑简单，易于实现，并且算法稳定。但其也有缺陷，就是在其独立性假设时，在许多实际中并不能够成立，这样会引起分类的误差。

　　1.4 支持向量机（SVM）

　　支持向量机（Support Vector Machine，SVM）是统计学概念上一个有监督的学习方法，在解决小样本、非线性及高维模式识别问题中表现出特有的优势。这种方法是针对线性可分情况进行分析，通过寻找最优线性分类面来减小对新文档的误分概率[3]。

　　2.常用的文本聚类方法

　　作为一种无监督的机器学习方法，文本聚类是在给定的某种相似性度量下，把对象集合进行分组，使得相似的对象能够分到同一个组内。其方法通常是利用向量空间模型，将文本转换成高维空间中的向量，然后对这些向量进行聚类。因此，影响文本聚类结果的因素除了文档聚类算法的选择外，还包括语义问题和降维问题。

　　2.1基于划分的方法

　　划分法（Partitioning Method）也称分裂法，其基本原理是：首先得到初始的k个划分，然后通过迭代，将文档从一个中间类转移到另一个类中，以改进聚类的质量。代表性算法有K-means算法、k-中心点、CLARA、CLARANS等。

　　2.2基于层次的方法

　　层次法（Hierarchical Methods）首先假设所有文档自成一类，然后将最相似的两类合并，重复此过程，直到最后将所有文档合并为一类，因而可以形成一颗聚类树。层次法分为凝聚层次聚类和划分层次聚类两种，而划分层次聚类用的比较少。

　　典型的层次聚类方法包括：CURE（Clustering Using REprisent-

　　atives）方法、ROCK方法、Chameleon、BIRCH（Balances Iterative Reducing and Clustering using Hierarchies）方法等。

　　2.3基于模型的方法

　　基于模型的方法（Model-based methods）是从文本集合中学习一个模型，每个模型代表一个文本类，并优化给定的数据和数学模型之间的适应性。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。典型的基于模型的方法有：统计方法COBWEB和CLASSIT。

　　2.4基于网格的方法

　　基于网格的算法（Grid-based methods）首先将数据空间划分成为有限个单元的网格结构（所有的处理都是以单个的单元为对象的），然后利用网格结构完成聚类。其优点是处理速度比较快，通常与目标数据库中记录的个数无关，只与将数据空间所分的单元数量有关。代表性算法有：STING（STatistical INformation Grid）算法、CLIQUE（Clustering In QUEst）算法、WAVE-CLUSTER算法。

　　2.5基于密度的方法

　　为了发现任意形状的聚类结果，提出了基于密度的方法（Density-based methods）。这类方法将簇看作是数据空间中被低密度区域分割开的高密度区域。只要一个区域中点的密度大于某个阀值，就将其加到与之相近的聚类中去。代表的算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等。

　　3.基于主题模型的档案文献主题探测研究方法

　　基于主题模型的档案文献主题探测，初步提出了将LDA主题模型运用到档案主题探测中。

　　使用LDA主题模型，旨在更好的获取文本的主题。主题模型采用了概率分析的方法，和以往其他模型的统计方法有着很大的不同。而LDA是服从于Dirichlet分布的概率模型，使得文本、主题、单词在模型超参数上有了不同的发生概率，LDA主题模型的提出，使文本不再局限于与主题一一对应，并且给出了文本在各个主题上的概率分布。

　　4.结束语

　　文本数据挖掘方法一直是数据挖掘工作人员不断探索的重要内容，而主题探测能够很好的帮助我们解决“信息过载”的现象。本文概述了文本挖掘的常用方法，并提出了最新主题模型LDA，将其运用到档案文献主题探测中，目前正对其方法做进一步的测试，将其与常用的文本分类或文本聚类方法做比较。

档案文献主题探测方法探讨

上一篇：事业单位档案管理工作优化途径解析
下一篇：高校人事档案管理中的学历学位认定及对待遇的影响

论文搜索: 关键字：探测文献档案方法主题

最新档案管理论文: 人事档案管理信息化建设创新路径研究; 浅谈卫生职业院校教师素质的提升; 卫生人力资源管理的探讨; 钢铁企业档案管理的信息化建设探讨; 浅谈新形势下事业单位档案管理的改革方向; 浅析档案管理在医院管理中的作用及其策略; 浅析新时期农业科研档案价值实现途径; 大数据时代背景下档案管理工作的研究; 新时期领导干部人事档案规范化建设研究; 新时代信息数据化背景下企业档案管理创新思

热门档案管理论文: 网络环境下的档案创新服务; 如何做好档案管理工作; 如何推行档案工作规范化标准化; 浅议电子档案的整理与保护; 试论档案工作中的保密; 推动电子文件归档工作的思考; 电子文件对档案工作的影响及对策; 试论档案工作中的保密; 档案信息自动化系统管理若干问题的思考; 谈计算机技术在企业现行文件与档案管理中应

档案文献主题探测方法探讨论文

档案文献主题探测方法探讨