您现在的位置: 论文网 >> 计算机论文 >> 计算机应用论文 >> 古籍文献数据库存在的问题与突破的方向-试论计算机技术在古典文献研究中的若干问题论文

古籍文献数据库存在的问题与突破的方向-试论计算机技术在古典文献研究中的若干问题

作者:汤勤福
出处:论文网
时间:2006-11-15

三、如何解决古典文献数据库存在的问题

  古典文献数据库存在的问题是十分明显的,那么如何解决这些问题,以利学术研究(当然包括文献研究)的迅速发展?笔者以为现在应该设计和开发出新一代文献数据库的软件。按照笔者设想,这代软件应该以建立能自由升级的公共古典文献数据库为目的,是一种以提供强大功能为主、彻底解决版权问题的数据库,实际上是建立一个规模巨大的功能相对完善的学术研究资源库。所谓公共古典文献数据库是综合性数据库,只能由国家有关部门作为主要规划者,它应该尽可能地包罗我国传世古典文献、碑刻资料和出土文献等。在此基础上允许建立适应每个研究者研究范围的个性化的文献检索服务系统。个性化的文献检索服务系统是指每个具体研究者所拥有的安装在各自计算机上的文献检索服务系统,它拥有一定数量的适合自己研究的范围的古典文献文本。其实,各个研究者并不需要一个“包罗万象”的规模极其巨大的数据库,即使象占据6至7个G硬盘的《四库全书》,具体到一个研究者真正需要的内容并不是全部,而是其中一部分内容。
  问题的关键在于公共古典文献数据库与个性化文献检索服务系统两者之间的技术“契合”,即两者互相兼容的程度。公共古典文献数据库应该与个性化文献检索服务系统有所区别,公共古典文献数据库应该侧重于文献数量的完善、完备,而个性化文献检索服务系统则应该考虑其功能强大。因此,从本质上说,公共古典文献数据库应该是一个统一的设计比较周密、与其它个性化数据库在技术上能实现良好兼容的的数据库;而个性化文献检索服务系统应该是“百花齐放”式的但必须能与公共古典文献数据库兼容而非各自为政的小型数据库。两者关系是源与流的关系。鉴于此,笔者以为目前应该从两个层次上来解决问题,一是尽快建立公共古典文献数据库;一是继续开发个性化文献检索服务系统。
根据笔者近几年的实践,感到要解决这些问题并非不可能的。其实只要认真对目前计算机技术在古典文献整理与研究中存在的问题作一分析与梳理,重点突破一些瓶颈问题,应该说是能解决上述这些问题的。那么怎么才能突破上述这些瓶颈呢?笔者以为以下几个方面是值得考虑的。
  其一,加强总体规划,建立公共古典文献数据库。作为一个具体单位来说,谁也没有可能建立一个包罗万象的古典文献数据库,因此,这只能由国家有关部门组织人力物力来完成。其实,就目前来说,国家投入资金并不少,但由于制度原因,只是向某些重点院校或科研单位、向重点项目投入巨资,而这些单位建立起各自为政的古典文献数据库、期刊数据库,虽然也为学术研究作了一些贡献,但不可否认的是,由于各自设计思路不同,相互之间不能兼容,已经妨碍到数据库进一步发展了。以笔者愚见,国家有关部门应该主动负起责来,加强领导,重新考虑古典文献数据库的立项问题,组织力量、投入资金,真正建立起一个规模巨大、能为绝大多数研究者利用的公共古典文献数据库。同时也应该考虑所立项的古典文献数据库与其它数据库(如现代文献数据库、当代文献数据库、期刊数据库等)之间的兼容关系,只有这样,或许若干年之后就能建立起一个价值极大的能真正为学术服务的公共古典文献数据库,乃至包罗一切文献的数据库。当然,就公共古典文献数据库来说,可以进行适量收费服务,但主要仍应该定位在“公益”上,不以“利”为主,这样才能真正建立一个有价值的公共古典文献数据库来。
其二,数据库内容与文献检索服务系统分离。这个问题与上述问题是紧密关联在一起的,如果不能真正做到数据库内容与文献检索服务系统分离,那么目前“列国纷争”的面貌是不可能真正解决的。
  我们知道,一个古典文献数据库实际上是两大部分组成的,一是古典文献数据库内容,即数据库所包括的文献文本,二是对这些数据进行管理的文献检索服务系统。其实目前所见有关古典文献数据库都是“两者合一”,即既包含一些文献数据内容,又有具体的操作服务系统。事实上,这些古典文献数据库在功能上明显存在缺陷的。就目前古典文献数据库管理形式来说,一是网络管理,一是个人管理。前者是网络数据库,一般是单位所拥有的数据库,即我们所说的网络版,后者是安装在个人电脑中的个人版。就功能来说,网络版没有必要具有卡片、文本修订、书签等个性化的功能,个人版应该具有做卡片、文本修订、书签、文献管理等个性化的功能。就文献数量来说,网络版自然力求文献内容丰富,尽可能包罗文献文本,而个人版实际所需要的文献数量是根据各自研究需要而定的,因而强行“规定”使用所有文献内容并不值得肯定。就文献内容来说,网络版与个人版都应该允许不断地增加其数据库文献内容,但不同的是,网络版应该是只增不减,而个人版应该允许用户根据研究需要自由增减文献内容。
在笔者看来,应该从单纯的文本内容竞争的思维中解脱出来,进入以文献检索服务系统竞争为主,文本竟争为辅的体系,或许是解决古籍文献数据库的出路。也就是说,擅长计算机技术的开发者(开发商)应该注重文献检索服务功能的开发与完善,而具体文本的整理可由研究学术的专业人士来完成。这样,开发者就可能开发出比较成功的文献检索服务系统,而数据库中的文本也由于专业人士的加入而能大大提高文本的准确率,然后合成为一个规模较大的公共古典文献数据库。当然,输入和整理古典文献文本可以采用投标(或以申报项目形式)来确定,规定统一格式,要求保证文本的正确率达到一定比例,完成后再分别导入这一公共古典文献数据库中;经过若干年努力,最终能形成一个规模巨大、适应于学术研究的公共古典文献数据库。我想,采取这种措施不但节省了大量重复投资,真正做到人尽其才,物尽其用,而且一旦建立起这个规模巨大的公共古典文献数据库,可以解决了目前数据库泛滥、文本错误太多、重复劳动等弊病,而且真正能做到广大学者对古典资源“共享共有”。
  在此基础上,各个开发商可以力求开发学者们个性化的文献检索服务系统,它无须考虑文献文本内容,但必须功能强大、操作方便,并与公共古典文献数据库完全兼容,学者们通过“购买”文本或其它方式来方便地组建自己的数据库,这样或许会给学术研究带来真正的方便。
  还须补充的是,我国的古典文献中有大量表格与图片,而由于技术原因,目前所有古典文献数据库都没有导入原著的表格与图片,极个别数据库有少量图片也是不能检索,这是目前众多古典文献数据库的重大失误之一。其实只要真正化力气去探索,这个问题是不难解决的。因为笔者曾作过设计并反复试验,只要设计合理,图片与表格不但可以导入数据库,而且都是可以在数据库中进行检索。
  其三,加速确定字库方案,以利数据库健康发展。当然,要真正解决公共古典文献数据库问题,还必须解决字库问题。目前,国家虽然组织专家在论证有关字库问题,然而由于进程不快,远远落后于当今计算机技术发展的需要。按照笔者的看法,应该建立一个以Unicode字库为基础的、适应汉语古籍需要的、并与国际接轨的真正有中国特色的字库。这就需要抓紧工作,迅速落实扩展字库B的内码。同时根据我国汉字的具体特点,对自定义区域的6400字的内码配置也应该有所规范,这样才能使汉语字库统一问题落实到实处。如果真能做到如此,那么就能真正解决目前古典文献数据库之间字库互不兼容问题。
  与字库相关联的是字体问题。古典文献数据库应该考虑到古代文献对文字的特殊需要,笔者以为凡是古代文献数据库中的文本应该保留繁体字,以防繁简不分而导致文义偏差。就目前计算机技术来说,解决这一问题是毫无困难的。其实用繁体字输入文本早已不是问题,而扫描古籍文本再转换成文字的技术也十分成熟,如北京书同文公司的“数码翰林”OCR识别系统,应该说是极有价值的识别软件,对绝大多数繁体文字能够正确识别。如果能再进一步加以改进,使扩充字库数量并与Unicode字库兼容,那么古代文献的文字识别问题是可以得到解决的。应该强调的是,古代文献以繁体字导入数据库,但应该允许在数据库中自由进行繁简转换,换句话说,若需要使用繁体字时,文本可以保留繁体字,而需要简体时,可以十分方便地转换成简体,这样就适应用户对繁简体的不同需要了。
  其四,彻底解决古典文献版权问题。这是困挠计算机古典文献数据库建设的重要难题之一。自然,这一问题要真正得到落实确实存在相当困难的,因为版权保护工作任重道远!不过,即使困难再大,古籍文献数据化的发展的潮流是不可能停止的。笔者以为,有关出版社在维护自身法定的版权权益的前提下,应该从大局出发,在收取一定数量的报酬前提下,允许制作有关古典文献的数据库,以利学术研究的发展。至于报酬多少可以也应该实事求是地酌情商定,国家有关部门应该主动与那些出版社协调,亦可将目前大量分散投入到各课题中的资金中抽出部分来补偿有关出版社,双赢互利,以求突破版权瓶颈,早日解决这一棘手的问题。
  与此相关的是古典文献电子文本的版权问题,这也是个极难处理的问题。因为用户若贪图小利,版权意识不强,不愿化费代价使用电子文本,就容易产生“盗版”问题,如此就使得制作古典文献电子文本者的正当利益大受损失。按笔者设想,如果真正能够由国家有关部门主管古典文献数据库建设工作,那么就可以设想建立公共古典文献数据库规定导入数据库的文献文本都给予一个“统一编号”,没有统一编号的文献就不能直接导入公共古典文献数据库和个人使用的文献检索服务系统中,也就是说,个人使用古典文献电子文献必须化费一定的代价才能取得使用权,这样就可以保证制作古典文献电子文本者的一定收益,防止版权意识不强者侵权使用。同时由于古典文献电子文本都有了统一编号,那么也就可以防止某一具体文献文本重复录入的问题。即使有部分重复,古典文献电子文本也可以在用户选择过程中优胜劣汰。
  其五,建立公平的交易平台。建立庞大的公共古典文献数据库当然需要投入巨大的资金,而这种古典文献数据库自然不是每一个普通研究者购买得起的。在笔者看来,大专院校、科研机构应该在经济允许的前提下购买有关数据库,以供教学、研究之需。当然也应该允许个人在交纳一定数量的经费后,自由上网使用这一数据库,并允许购买(下载)一定数量的古典文献文本,自行导入各自的文献检索服务系统,以利建立个性化的有实用价值的数据库。如果真能做到这样的话,那么就将会促进学术研究的迅速发展。
  鉴于此,笔者以为就有必要建立一个公平的交易交流平台,既不是“就此一家,别无分店”的垄断式的高价出售,又不是无论你需要不需要而进行的“一揽子交易”式的硬性搭售。在笔者看来,应该允许研究者自己输入的文本在交易平台上自由交易或交换。当然,学者将自行输入文本无偿赠送给同行应该予以鼓励,事实上,在网上已经可以看到一些学者将自己输入的文本无偿提供的例证。学术是公器,没有必要象守财奴那样守住这一私产。笔者不反对从网上下载一些有价值的文献文本或其它资料作为自己研究所用,但反对下载文献文本或资料后,通过各种方式去“变钱”,成为牟利的手段。
  其六,发展新兴学科,培养专业人才。就目前来说,数据库开发主要由计算机专业的人才来进行,由于专业的局限,对文献数据库尤其是古典文献数据库的建设肯定有相当的隔阂,作为统筹解决这一问题,应该考虑在有条件的学校中打破原有招生专业,设计一个文理交叉学科:古典文献与计算机技术(古典文献现代化)专业。这个专业以培养古典文献素养较好,计算机技术出色的社会急需的专门人才为目的。其实培养这样的人才并非是很难的事。在现有的国内一些招古典文献学本科专业中增加有关计算机技术课程,化上一两年时间让学生专门学习计算机技术,就可以培养出一些有用之才来。当然,还可以以历史文献或古典文献专业与计算机专业联合招收硕士研究生,以应急需。我想,这种适应于现代社会需要的新型专业人才是肯定会受到社会欢迎的。

上一页 [1] [2]

论文搜索
关键字:计算机 技术 古典文献
最新计算机应用论文
基于网络信息安全技术管理的计算机应用研究
浅析人工智能体系建设
抖音短视频平台视频推荐模式研究
应用电子技术中可编程控制器的应用探讨
用友NC信息系统的实施应用实践研究
基于校园一卡通数据系统的学生行为分析研究
云环境下基于蚁群算法的动态容错技术研究
自拍图像中的记忆痕迹
抖音短视频用户使用动机研究
基于创新扩散理论的Vlog传播
热门计算机应用论文
学生成绩管理系统的设计与实现
浅析计算机病毒及防范的措施
学籍管理系统软件
对计算科学与计算机发展的思考
计算机应用型人才的培养模式研究
物资管理信息系统开发
计算机信息管理在第三方物流中的应用
嵌入式系统数字图像采集接口电路设计
基于B/S体系结构开发应用系统
项目管理在软件中的应用