您现在的位置: 论文网 >> 公共管理论文 >> 图书馆管理论文 >> 信息抽取在图书馆资源建设中的应用论文

信息抽取在图书馆资源建设中的应用

出处:论文网
时间:2016-04-13

信息抽取在图书馆资源建设中的应用

  现代网络技术的发展在带来信息爆炸的同时,也使得图书馆一类的文化单位逐步被边缘化。在此环境之下,由更广泛的角度出发,开发出新的服务产品迫在眉睫。鉴于现今大多数网络信息资源是免费提供的,图书馆如何将这些免费的资源提取出来,有效整合并提供给读者就成为了一项新的任务。

  1 信息抽取

  信息抽取涉及到为从文本中选择出的信息创建一个结构化的表示形式[1],Web 信息抽取则可引申为: 从网页文本中抽取出指定的一类信息,并将其形成结构化数据的过程。

  现有的web信息抽取技术主要有:基于自然语言处理方式的信息抽取,基于包装器归纳方式的信息抽取,基于Onlology方式的信息抽取,基于HTML结构的信息抽取,基于web查询的信息抽取。

  1.1 基于自然语言处理的信息抽取

  将文本分割成多个句子,对每个句子的成分进行标记,将语法结构依据事先定制的规则进行匹配,从而抽取所感兴趣的信息即为基于自然语言的信息抽取[2]。其中所用到的抽取规则指词或词类间的句法关系,此种抽取方法适用于对含有大量自由文本的网页信息的抽取。当然组成网页的这些文本须为完整且适合语法分析的句子。该种方法需要进行大量的样本学习,处理速度较慢,只适用于有针对性的个别网页信息的抽取。

  1.2 基于包装器归纳方式的信息抽取

  基于包装器归纳的信息抽取与前者的差别在于其文本匹配规则是利用归纳学习的方法生成的。首先由用户标记样本实例,然后应用机器学习方式对样本使用归纳算法生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义项上下文的描述,即根据语义项的左右边界来定位语义项。[3]该种方法较少依赖于全面的句子语法分析和分词等复杂的自然语言处理技术,更注重于文本结构和表现格式的分析。它充分利用了web文档独特于普通文本的层次特性。由于避免了使用复杂的语言学习知识,基于包装器归纳方法的信息抽取方法获得了更快的处理速度。但是这种方法中由于包装器对网页结构的依赖导致它的可重用性比较差。

  1.3 基于HTML的信息抽取

  基于HTML的信息抽取需通过对网页结构进行解析来获取信息。首先根据HTML代码的标识码进行结构定位,通过自动或半自动的方式产生抽取规则并进行信息抽取。该系统可对不同的区域类型采用不同抽取规则,提高了系统的灵活性和效率。但由于系统中对结构的划分主要取决于网页结构代码,所以这类系统适用于有明显区域结构的网页。

  1.4 基于web查询的信息抽取

  基于web查询的信息抽取通过使用标准的web查询语言对web文档进行查询。常用的有搜索引擎技术和web查询语言技术。搜索引擎技术应用非常广泛,但在信息搜集中要花费较多人力,且难以实现自动地对信息持续性的抽取。

  2 信息抽取在图书馆资源建设中的应用

  2.1 数据挖掘

  图书馆资源建设过程中,可利用对自然语言文本进行模式识别和匹配的方法从数字文献及各种数据库中抽取信息。

  通过这种方法自动建立在线数字文献的引文数据库,包括引用作者、引用作者的地址、引用论文的标题、关键字等等。其次,通过对元数据的标引可以生成文献代理帮助用户获取信息。[4]

  通过数据挖掘的方法可以获取更多的网络资源,将这些资源分类组织以后就可以形成图书馆的专题库,从而可以更有针对性地为读者服务。

  2.2 对开放存取期刊网站的信息抽取

  近年来为了在有限经费的基础上为读者提供尽可能全面的文献资源服务,图书馆越来越重视对开放存取资源的利用。例如我馆于2012年就建立云南农业大学开放获取期刊平台,包含了44种中文期刊和630余种外文期刊以及其它网络开放获取资源。对开放获取资源的利用也是图书馆发展的趋势。

  在对开放存取资源的利用中信息抽取可以在很大程度上帮助我们找到资源、组织资源。首先可以通过信息抽取的方法在网络中发掘更多的开放存取资源。其次,对于相对稳定的开放存取期刊的获取网站而言可以利用信息抽取的方法定期地从期刊网站中获取每期的期刊论文。在固定的期刊网站中抽取信息时适合于采用基于HTML和基于包装器的信息抽取方式。

  2.3 对数据库信息的抽取

  由于数据库的组织结构稳定性比较强,所以在对各种数据库进行数据抓取的过程中采用信息抽取技术也可以取得较好的效果。在各种信息抽取方式中宜采用基于包装器的方式。因为抽取对象结构变动小,包装器一旦形成可以长期使用。

  3 信息抽取的应用系统

  信息抽取在资源建设中更多的是和数据库系统一起使用。这样的系统不仅可以自动抓取数据建立数据库,还能对数据建立索引、统计管理机制,利用数据库全文检索、数据分析、数据存储和管理功能,把复杂、海量的数据根据用户需求进行有效地组合,为用户提供优质、全面的数字资源。[5]

  处理终端从Inter网上抓取信息以后按一定需求和规则进行数据处理,然后将处理完的数据存入数据库中提供给用户使用。服务器主要负责对数据处理终端进行管理。

  利用信息抽取技术可以为图书馆数字信息的抓取提供很大的便利。也只有利用这样一些现代化的技术才能及时有效地抓取信息,为用户提供服务。

信息抽取在图书馆资源建设中的应用

论文搜索
关键字:资源建设 抽取 图书馆 应用 建设 图书
最新图书馆管理论文
图书馆图书资料信息化管理研讨
试论如何加强图书馆人力资源管理与创新
试论高校图书馆动态化管理建设
物联网技术在图书馆管理中的运用探讨
高校图书馆管理人员素质提升影响因素探讨
知识管理与高校图书馆服务创新的构想
新媒体时代公共图书馆信息化发展存在的问题
试论数字环境中图书馆管理创新策略
高校图书馆书库管理与读者借阅服务探讨
论乡村文化振兴视域下乡镇图书馆的建设
热门图书馆管理论文
浅谈数字图书馆建设
走向公共管理的治理理论
知识经济时代的图书馆人力资源管理创新
网络环境下我国图书馆服务模式的演变
创新:迈进新世纪的图书馆管理
地方高校图书馆数字化建设若干问题的探析
新公共管理:当代西方公共行政的新趋势
高校图书馆如何为高等函授教育服务
信息资源:特点·价值·机制
浅析高校图书馆的管理创新