您现在的位置: 论文网 >> 教育论文 >> 教育理论论文 >> 网络信息采集技术在教育领域的应用研究论文

网络信息采集技术在教育领域的应用研究

出处:论文网
时间:2015-09-19

网络信息采集技术在教育领域的应用研究

  中图分类号:G642 文献标识码:A 文章编号:1674-098X(2014)08(a)-0114-02

  信息技术的迅速发展,使得网络上的信息日益增多,从日常生活到科学研究,人们越来越习惯于从网络上获取知识、信息,网络成为人们获取信息、知识的首要途径。但是,人们在面对如此繁杂巨量、形式不一的信息时往往感到无所适从。笔者在从事相关研究中就遇到这样问题,需要从某些教育技术资源网站中采集满足特定条件的信息。该文就针对这一问题进行了相关的研究。

  在本研究中,需要从教育技术相关网站(中央电大开放教育教学资源查询系统、教育技术资源网、中国教育技术研究网等)中采集特定主题的,符合一定规律和格式的信息,因此信息采集的过程中,需要对网站进行分门别类,针对这些不同类型的信息,编写相应的代码和公式。同时,由于要采集信息量比较大,要实现对网络站点的自动填充和自动点击功能,在此基础上完成对网页的解析和信息抽取工作,其中要对采集的页面是否重复采集进行判断,最后实现对数据的精加工。本研究提出并实现满足上述需求的网络信息采集系统,并实现了在教育领域的应用

  1 网络信息采集技术系统结构

  1.1 系统设计思路

  该研究中设计的网络信息采集系统基于Windows平台开发,以Microsoft visio studio 2008作为开发工具,采用C#语言编写,数据采用XML存储格式,并实现与Oracle 10 g数据库连接。系统主要实现对相关目标网站信息的采集,采用单线程、固定模式、制定框架采集,针对不同网站制定不同框架模式,采集方式灵活。

  1.2 系统基本架构

  根据上述系统设计思路的简单介绍,网络信息采集系统的基本框架如下所示[1]:

  (1)保存种子URL和待抓取URL的数据结构。

  (2)保存已经抓取过的URL的数据结构,防止重复抓取。

  (3)页面获取模块。

  (4)对已经获取的页面内容的各个部分进行抽取。

  (5)对抽取内容进行精加工处理。

  (6)数据的存储。

  系统所对应的机构图如图1所示。

  系统运行的流程如下:

  (1)确定要采集主题信息所在网站,并制定所要采集信息主题。

  (2)将要采集信息主题导入系统中,由系统模拟点击搜索按钮,搜索本网站所包含与采集信息主题相关的信息。这里起始页面的URL为网站首页,将其放入采集器Web Spider中,通过相应设置,如:页面采集深度等,让采集器Web Spider对其进行爬取,搜索其中包含的URL信息,然后通过URL地址查新,分析其中是否含有新的、符合要求的URL,如有则将未抓取的URL加入到采集器Web Spider,继续循环采集信息页面,直至再无新的URL。

  (3)采集器按照相应规则采集信息,调整页面结构,对页面实施规范化,并按照规则自动实现聚集,生成初步采集信息。

  (4)采集过的信息经过信息提取,主要通过Xpath表达式提取,经过相应处理、格式转换等生成处理完毕的信息,并生成相应的索引,到此,信息采集就已完毕。

  (5)将采集完的信息存储到XML文件格式中,按照需要,决定是否要存储到关系数据库中。

  (6)信息展示。

  2 核心技术

  在本系统中,用到的支撑技术主要有URL地址查新技术、基于HtmlAgi lityPack和Xpath的数据提取技术、模拟填充和自动点击功能,数据精加工技术。

  2.1 URL地址查新技术

  URL的地址查新是通过布隆过滤器来判断一个经过Hash函数散列的URL是否已经被访问过,从而避免重复采集同一URL数据以及程序陷入死循环。

  2.2 基于HtmlAgilityPack+Xpath的数据提取技术

  HtmlAgilityPack是一个开源的项目,为网页提供了标准的DOM API和Xpath导航。在整个系统中,HTML页面解析,文本抽取,遍历等都要用到这个包,而Xpath作为一种路径表达式工具,可以很好的“深入”WEB页面代码中的最小单位,精准定位到目标数据所在的代码行。通过将两者结合,可以有效地对经过解析的页面进行目标数据采集。

  2.3 模拟填充和自动点击功能

  模拟填充和自动点击主要针对例如百度这样具有搜索功能的网页。而大多数网站都具有站内搜索功能,WEB信息数据挖掘系统就可以利用这一功能实现信息抓取。对于我们要采集的目标网站而言,站内检索页面往往提供了普通搜索和高级搜索两种不同的搜索方式。普通搜索往往只提供了一个可供用户输入的文本框,而高级搜索则提供了除文本框外其他辅助选项(包括下拉列表框、互斥选项集等)。本系统采用Web Broswer控件来模拟用户的一次检索行为,包括填充文本框、选择下拉列表项和点击按钮等操作[2]。

  同时对于JSP和ASPX、PHP等动态网页,如果没有明确的URL指向爬虫运行的下一页,则需要模拟点击页面中的“下一页”按钮或者点击下一页页标对应的超链接来实现(一般诸如[1],[2],[3]…等形式)[3]。

  2.4 数据精加工

  以上几步之后,得到的数据只是比较粗糙的“原始数据”,我们需要进一步进行精加工才能得到我们想要的数据。数据精加工分以下几种情况[4]:   (1)“原始数据”中经常出现诸如“ ”、“&”等HTML文本,我们需要将这些占位符去除。

  (2)对于零散的原始信息,需要将其加工成规范格式,(例如新闻等信息,就要把标题,作者,发布日期等信息统一为诸如:某单位.关于召开XXX技术应用区域推进研讨会的通知[图].2009-5-5.http://jyjs.e21.cn/e21web/content.php?acticle_id=489)

  (3)某些信息(比如作者信息,发布日期等)存在于一大段文字中的括号引号之内,或者在某些标点符号(逗号,冒号)之后,需要用正则表达式定位目标信息并将其进一步抽取出来。此项涉及到自然语言处理等[5]。

  (4)对于图片,PDF文档,RAR压缩包等文件,需要得到下载URL,然后导入下载程序进行下载。

  3 系统实现

  为了验证上述所提方法的有效性,这里通过实现一个简单案例来证明。数据提取内容为教育技术资源网(http://www.chinaret.com)下教育资讯栏目的信息。获取的信息内容主要是信息标题和信息URL链接地址。

  首先加载WEB页面,通过XX Encoding.GetBytes("gbk")设置编码信息,然后定位目标数据所在位置,这里用到了Xpath表达式XX.GetElementbyId("content"),实际获得的值为http://www.chinaret.com/column.aspx?id=241/*[@id="content"],意思为获取这个页面下所有ID为"content"中的信息,接着通过SelectNodes()来判断相应代码下是否包含要提取的信息,如本例中要提取的是链接信息,相应的代码就应该表示为SelectNodes("//a"),最后将Xpath表达是定位在要提取的数据节点上,提取节点信息,代码为GetAttributeValue()。

  通过上述实验证明,采用本文所提出的技术能够很好的来实现对WEB页面信息的采集,可以应用到教育技术领域,为教育信息采集服务。

  4 其他信息采集方法

  在本研究中,除了上述介绍的C#语言编写的,采用HtmlAgilityPack+Xpath的采集方式外。还尝试了其他两种采用JAVA语音编写的网络信息采集方法。

  其中VietSpider HtmlParser是一个纯JAVA的HTML DOM解析器,是一种开源的网络数据采集器。它提供一个图形化界面方便用户使用,可以用于特定主题、目的的网络信息搜索、采集和分类。其最大特色在于提供的图形化界面,使得数据采集简单化,正如其口号所说:Getting Web Data={Clicks}[6]。其主要特色如下:采用web3.0爬虫技术,提出网站模板解析概念,网络爬虫可以为每一个站点提供代理和多线程配置;VietSpider服务器可以在Linux/Windows系统下运行,管理员可以通过VietSpider的远程客户端进行管理;支持多种数据库系统,如:MySQL、MS SQL、ORACLE、Postgres、H2等;VietSpider提供了内置浏览器功能,支持JavaScript解析;支持多种数据输出格式,如MS Excel、CSV、XML等,支持数据除杂和改造。VietSpider的应用非常简单,所需专业知识较少,方便使用。

  另外一种方法是采用Heritrix + HtmlParser组合系统方法。Heritrix是一个纯由JAVA开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。Heritrix出色之处在于它的扩展性,使用者可以扩展它的各个组件,来实现自己的抓取逻辑。HtmlParser是一个用来解析HTML文件的JAVA包,主要用于转化、抽取两个方面。利用HtmlParser,可以实现文本抽取、链接抽取、资源抽取、链接检查、站点检查、URL重写、广告清除和将HTML页面转化为XML页面[7]。

  从作者运行效果来看,三种方法各有优势。总的而言,从便捷性和提取速率来看,VietSpider较HtmlAgilityPack+Xpath和Heritrix + HtmlParser有较大优势;从存储格式上看,HtmlAgilityPack+Xpath的存储类型多样,并更容易与数据库结合;从灵活性而言,HtmlAgilityPack+Xpath和Heritrix+HtmlParser又较VietSpider简单,扩展性较强;从采集方式而言,Heritrix+HtmlParser需要分为两步,而VietSpider和HtmlAgilityPack+Xpath采用的是在线采集方式,一步到位。因此,结合以上分析,作者最后采用HtmlAgilityPack+Xpath方式来实现WEB数据的在线采集。

  5 结语

  网络信息采集技术属于数据挖掘领域,是WEB数据挖掘研究的热点。本研究中通过对网络信息采集过程中URL地址查新技术、基于HtmlAgilityPack和Xpath的数据提取技术、模拟填充和自动点击功能,数据精加工等关键技术的介绍,为读者提供了一种实用工具和研究思路。通过在教育技术资源网信息采集中的应用,实现了在教育领域对信息采集技术的尝试。同时通过对笔者在研究过程中尝试的几种方法的介绍和对比,方便读者在以后的研究和工作,研究者可以采用适合自己的工具进行相应研究。

网络信息采集技术在教育领域的应用研究

论文搜索
关键字:信息 技术 应用 教育 研究 采集
最新教育理论论文
高等职业院校理论与实践教学研究
试论教育实践变革与教育理论创新研究
粮食工程专业导论课程的构建与实践
以学生党建促进学生就业实现路径研究
初中体育课程中渗透德育教育的优势与方法初
浅谈学困生知识落实的方法策略
精选策略,游刃有余
“爱”须大于“管”
霍桑效应在学困生帮扶中的应用
温暖斑马线 礼让应当先
热门教育理论论文
小学德育教育论文
城市农民工子女教育问题研究
论秦始皇的“法治主义”
小学德育论文范文
独生子女家庭教育问题研究
浅议实践教学在教学中的作用
现代教育技术与素质教育
当代青少年的思想特点与教育方法
对和谐教育的理论思考
Discovering Techniques of Vocabulary Tea