您现在的位置: 论文网 >> 教育论文 >> 高等教育论文 >> 基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究*论文

基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究*

出处:论文网
时间:2015-02-12

基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究*

  中图分类号:TP309.2 文献标志码:A 文章编号:1006-8228(2014)11-19-03

  Research of public opinion monitoring system in campus network based on

  Nutch and meta search engine technology

  Nie Yan

  (College of Science and Technology, Ningbo University, Ningbo, Zhejiang 315202, China)

  Abstract: Aiming at the insufficient public opinion monitoring work, combined with transmission characteristics of public opinion information in colleges, the whole scheme of constructing public opinion monitoring system is presented. Information retrieval technology based on Nutch searching engine is applied to campus network. Information collection technology based on Meta search engine is used on the Internet. The keywords feature library matching is used for automatic experiment monitoring and the public opinion information is found timely and accurately. In addition, the dealing methods such as monitoring, analysis, guide and feedback are discussed to form perfect coping mechanisms.

  Key words: public opinion; Lucene; Nutch; meta search engine; information retrieval

  0 引言

  高校师生是网络利用率极高的一个群体,也是网络舆情的主要生成力量和影响对象。高校网络舆情的形成原因主要有三方面:一是由于国内外相关热点问题的触发,二是校内外突发事件的网上讨论,三是与高校师生利益密切相关事情的网上诉求。近年来,由于社会上网络舆情导致政府信任危机的事件不断发生,高校也逐渐重视了网络舆情突发事件的应对机制研究。同时,随着公安部对网络信息安全工作的逐步加强,高校利用自身技术优势,自主构建舆情监测系统并建立一套完善的应对机制正逐渐成为高校网络信息安全工作的重点。因此,在新形势下,遭遇突发事件,高校如何能以最快的速度收集网络上相关信息,跟踪事态发展, 及时向有关部门通报,防范网络不良舆情的快速扩散和演化,并建立相应的响应机制,实现对网络舆情的有效管理与控制,使健康的网络舆情成为维护高校稳定,推动社会文明发展的动力,已经成为当前亟需解决的重要课题。

  高校的网络舆情信息主要来自两部分,一是内部独立的校园网络,二是外部开放的互联网络。随着高校校园信息化建设的深入发展,校园网中网站、论坛、博客等平台上信息资源数量呈指数级增长,仅依靠人工检索和信息发布审核的方式无法有效实现对网络舆情信息的监测,急需利用技术手段实现对海量网络信息的挖掘与分析,快速汇总成舆情信息;互联网上信息量十分巨大,通过垂直搜索引擎方式所获取的与高校相关的信息往往存在查全率不高的缺陷。高校网络舆情的监测,既要考虑信息采集的深度和广度,又要提高系统的精度与准度;同时对于发现的舆情信息,要能够做到快速定位,有效控制。本系统针对上述高校网络舆情监测工作的不足,并结合网络舆情传播特点,提出了构建高校网络舆情监测系统的整体方案,并探讨高校面对网络舆情在监测、分析、引导和反馈等环节的处理方法,从而形成完善的应对机制。

  1 系统体系结构

  高校网络舆情监测系统主要包括三个功能模块,分别是:校园网舆情信息采集模块、互联网舆情信息采集模块、网络舆情分析与预警模块,体系结构如图1所示。

  

  图1 高校网络舆情检测系统体系结构

  由于高校对校园网络具有较大的控制权限,一部分信息数据可利用各种信息发布系统的管理平台与数据库的访问权限来获取;另一部分可利用网络爬虫从网页数据中获取,系统基于Nutch搜索引擎技术对校园网内数据进行信息采集,采集的深度与广度都达到了较好的效果。对于互联网上的海量网络信息,如果采用垂直搜索引擎进行数据采集,所获取的数据质量不高,为此系统采用元搜索引擎技术来获取互联网信息,既提高了信息采集的针对性又扩大了采集范围。此外,对于某些特定的互联网网站,可以采取以上两种方式相结合的监测方式,同时采用网络爬虫与元搜索引擎技术,来提高系统的监测精度。   网络舆情分析与预警模块采用关键词特征库匹配方式和机器学习算法自动进行网络舆情监测,实现对舆情信息及时准确的发现,并与短信预警等系统接口实现对接,实现舆情信息的实时发送。

  2 系统主要功能模块

  2.1 Nutch搜索引擎与校园网信息检索

  Nutch是一个开源的Java实现的Web搜索引擎,其在Lucene基础上添加了网页数据抓取功能,提供了构建搜索引擎所需的基本工具模块,包括网络爬虫、文本分析、分词工具、建立索引、搜索功能和结果过滤等。Lucene是一个高性能、可伸缩的信息搜索库,可为Nutch提供了文本索引和搜索的API,也可为应用程序添加索引和搜索功能,通过Lucene的数据库接口直接从数据库中取出数据,用API 建立索引并提供搜索接口。利用Nutch搜索引擎作为校园网舆情信息采集工具,不但可以缩短开发周期,提高开发效率,而且通过其内部的接口和插件机制可以实现对校园网数据的高质量采集。网络爬虫模块用来实现对校园网内网页文件的信息采集;Lucene接口实现与各种异构数据库的连接;利用Nutch的插件机制,采用POI插件和PDFBox插件来实现对Word、Excel、PDF等文档的读取。通过上述三种方式可以实现对校园网内多种异构数据源的信息采集。

  2.2 元搜索引擎与互联网信息采集

  元搜索引擎是建立在独立搜索引擎之上的搜索引擎。元搜索引擎没有自己的爬虫系统和索引系统,数据全部来自于不同的成员搜索引擎(例如 Baidu, Google, Bing等),元搜索引擎将用户的搜索请求转发给多个成员搜索引擎,对成员搜索引擎的查询结果进行筛选与去重操作后返回给用户。将元搜索引擎应用于系统可有效提高互联网范围内舆情信息采集的广度、精度和速度。各独立搜索引擎查询接口的格式和编码并不相同,首先要将元搜索引擎中的检索条件转换为各独立成员搜索引擎能够接受的格式,并通过各自的查询接口提交,然后对获得的HTML源文件格式的检索结果进行分析、处理,如百度搜索引擎返回结果中所包含的em、href标签,通过对上述标签信息的解析与提取,可以获得与之相对应的链接地址、网页标题以及部分说明文字,将上述信息处理为结构化数据后存放到相应的数据库中。再通过对不同独立成员搜索引擎所获取的舆情信息的链接地址和网页标题等信息的对比和有效性检测来实现结果的筛选和去重,然后将最终结果提交给Nutch的文档分析与分词模块,建立索引。

  2.3 文档分析与中文分词

  信息检索的基础是文档分析,而文档分析在很大程度上依赖于分词模块对语言的处理。文档分析是信息采集完成后的首要任务,Nutch中的文本分析模块能够完成对各异构文件中结构化标记语言的处理,得到纯文本文件。Nutch自带的CJK分词模块在中文分词的效率和准确度上不能满足实际需要。为此,在对比了JE分词、Paoding分词和ICTCLAS分词等多款中文分词模块后,Paoding分词由于其开源性和良好的分词效果被本系统采用,并通过Nutch的插件机制集成到系统当中。其原理是Nutch中的抽象类Analyzer类实现了配置和插入中文分词模块的接口,该抽象类中定义了一个公有的抽象方法tokenStream(String fieldname,Reader reader)返回的类型是TokenStream。Paoding分词的分词类返回类型也是TokenStream,故只需将参数fieldName和reader作为Paoding分词的输入参数并将其结果返回给Analyzer类即可。

  2.4 信息索引与检索

  系统为校园网和互联网内的多个异构数据源分别建立了各自的索引文件,为有效整合索引文件,并将其作为统一的索引库提供给舆情分析与预警模块,需要对索引文件进行优化。索引优化其实是将多个索引文件合并成单个文件的过程,目的是减少索引文件的数量,并且能在搜索时减少读取索引文件的时间。Nutch中的IndexWrite类提供了optimize方法实现该优化操作。索引优化完成后,利用Nutch中的MultiSearcher类可实现对优化后索引的统一检索功能,检索结果会以一种指定的顺序合并起来。针对高校网络舆情信息的特点,综合考虑信息相关度,时效性和访问量等因素后,系统采用了自定义的排序机制,Lucene的文本相关度公式作为信息检索的主要排序依据,辅助以信息发布时间和访问次数作为重要的排序因子,系统通过Lucene的激励因子boost值来改变文档得分,从而调整文档的出现顺序。

  2.5 信息预警

  系统采用关键词特征库匹配与机器学习算法相结合的方式对舆情信息进行预警。在对特征库内的关键词进行组合后,对舆情信息索引库进行检索,获取与之相关的信息,再通过与数据库中历史记录的比对得到最新发现的舆情信息。对新发现的舆情信息通过聚类算法对信息进行分类,从而获得舆情信息的分析结果;系统提供了良好的人机交互接口与信息展示界面,预警信息通过短信接口发送给网络舆情监测人员,做到舆情信息的及时发现、快速预警。

  3 应对机制研究

  高校网络舆情除了要依靠技术手段进行防范与监测外,还要构建合理的网络舆情应急响应组织的架构。网络舆情突发性强、传播速度快,因此高校必须整合各部门资源,成立专门的网络舆情应急响应小组,其组织结构图如图2所示,由校领导直接担任组长,以党委宣传部为核心,校办、学工部和网络中心为重要组成成员,其他部门密切配合,建立起一支高效的网络舆情应急响应队伍。网络舆情事件一旦发生,应立即启动应急预案,预案应包括信息收集、分析应对、部门联动和引导反馈四个环节。各部门由网络舆情应急响应小组统一领导,预案中的各环节可同时启动,要实现技术手段与思想教育工作并重,防止事态扩大,力争快速及时的化解舆情危机。

     图2 网络舆情应急响应小组组织结构图

  4 结束语

  通过对高校网络舆情监测系统的研究,实现了基于Nutch与元搜索引擎技术的高校网络舆情监测系统,解决了多数据源、异构信息检索的难点;引入元搜索引擎技术,完成与源搜索引擎的对接,达到了较高的查全率;采用关键词、敏感词特征库匹配与机器学习算法相结合的方式对采集信息进行分析处理,提高了系统的准确率,最终实现了高校网络舆情信息的早发现,早预警,从而弥补了高校网络舆情监测技术手段上的不足;通过对网络舆情的自动采集、分析与预警替代了人工操作,提高了工作效率,并且能够对舆情信息进行快速、准确的发现。目前该系统依靠关键词匹配的方式进行舆情信息发现,并用聚类算法对发现的舆情信息进行分类,该方法对已知关键词的舆情信息能够取得较好的效果,但对未知关键词的信息还无法实现有效监测,今后将进一步加强对这方面的研究。通过高校网络舆情监测系统的部署和应对机制的构建,高校能够从整体上实现对网络舆情隐患的及早发现、快速响应、应急控制、主动疏导和反馈调整,促进了高校的稳定与和谐发展。

基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究*

论文搜索
关键字:搜索 技术 高校 舆情 监测 系统
最新高等教育论文
新文科建设背景下管理类应用型本科人才培养
浅谈高职院校创新型动画人才培养现状及优化
混合式教学模式在高职院校中的实践探索
大学生创新创业能力现状及提升措施研究
大学生思想政治教育的公信力研究
应用型本科工商管理类专业实践体系构建
我国传统文化对大学生责任感的培育及意义
如何在新时代引领大学生正确追赶时代潮流
高校大创经费报销系统的设计与实现
大数据背景下的高校计算机专业培养模式探讨
热门高等教育论文
知识经济时代的大学生素质教育
社会实践的加强与大学生社会化进程的推进
应对危机 树立科学的高等教育发展观
英语教学如何适应职业技术教育
高等学校“专业”内涵研究
大学生道德教育的挑战与对策
网络时代加强大学生思想政治教育的思考
“三个代表”思想与高校的改革和发展
中国的研究生教育:学生利益如何维护
综合性学院发展师范教育的潜在优势与挑战