基于聚类算法的图书馆利利用情况分析

时间：2019-02-23

基于聚类算法的图书馆利利用情况分析

　　中图分类号：G251.4 文献标识码：A 文章编号：1003-9082（2016）08-0036-03

　　前言

　　从建国到至今这65年，我国的教育事业有了长足的进展，在基础教育教育普及率不断提高的情况下，高等教育事业也呈现出蓬勃发展的态势。特别是恢复高考制度以来，高校在校生人数从1978年的80多万人突增至现在的2000多万。近年来，高校每年为社会输送数百万人才。

　　高校图书馆，是高校的文献情报中心，与教学、行政组成高校的三大支柱。在大学扮演着十分重要的角色，是大学生信息素养教育的重要基地[1]，是师生们获取情报、做学术研究和交流的重要场所。近年来，高校图书馆在发展的同时，也在带来了一些问题，比如说因为学校发展定位、专业设置对相关图书需求而要求高校图书馆在一个时间内大力采购某一类图书，而忽视藏书结构的合理性问题；也存在图书馆在高校发展的某一年或几年因为工作重心倾斜而被缩减拨款的现象。所以，高校图书馆在藏书数量骤增的同时存在诸如经费紧缺、藏书结构亟待完善、采购方案不够科学等问题，造成了高校学生不能借到想要的图书，而图书馆的藏书利用率很低，亦即高校图书馆在很大程度上造成人力、物力、财力的严重浪费。所以，有必要在大学生借阅倾向等方面进行分析，对图书的利用情况作一个科学的分析，进而支持采购方案、完善图书馆的藏书结构、为读者提供更好质量的服务，让我们的工作更有效益。

　　一直以来，国内图书馆（包括高校图书馆）图书利用率极低，只有25%[2][3]到30%[4]。由于藏书利用率低，造成文献资源大量浪费、积压和闲置。因此，加大提高图书有效利用方面的研究，是图书馆相关领域的主要工作，也是保山学院图书馆亟待解决的问题。

　　一、聚类算法简述

　　1.聚类分析

　　又称为群分析，是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计方法。它区别于分类分析，后者是有监督的学习。通过聚类分析，可以在没有任何模式可供参考或依循，即在没有先验知识的情况下，将大量数据样本按各自的特性来进行合理的分类。在自然科学和社会科学众多领域都存在大量的分类问题，因此，聚类分析是数据挖掘领域最常用的技术之一。

　　所谓聚类就是把整个数据集分成不同的“簇”，使得簇与簇之间的区别尽可能的大，而簇内的数据的相似度尽可能的高，相似或不相似的度量是基于数据对象描述属性的聚类值来确定的，通常就是利用各个聚类间的距离来进行描述的。

　　在聚类分析中，对象之间的相似程度可以通过计算相应两个对象之间距离来确定。最常用的距离计算公式就是欧氏距离（Euclidean distance），具体计算公式如下：

　　d（I，j）= 公式1.1

　　d越小，说明两个对象相似度越高；反之，则说明两个对象相似度很低。

　　2.k-means算法介绍

　　k-means算法最早是Mac Queen在1967年提出的[5]，它是一种迭代的聚类算法，迭代过程中不断地移动簇集中的成员直至得到理想的簇集为止，具有简单、快速的优点。自算法提出至今已有很长的历史，但仍然是当前研究的热点课题。

　　k-means算法是一个著名并且最常用的基于划分的聚类算法，它以k为参数（在算法运行前确定），把N个数据对象划分为k个簇，使簇内数据对象具有就较高的相似度，而簇间的相似度较低，相似度基于簇内数据对象的平均值计算。首先随机从数据对象中选取 K个点作为初始聚类中心，然后计算各个样本到聚类中心的距离，把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心，如果相邻两次的聚类中心没有任何变化，说明样本调整结束，聚类准则函数已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确，就要调整，在全部样本调整完后，再修改聚类中心，进入下一次迭代。如果在一次迭代算法中，所有的样本被正确分类，则不会有调整，聚类中心也不会有任何变化，这标志着已经收敛，因此算法结束。

　　k-means算法基本步骤为：

　　2.1从给定数据对象中选择k个样本为初始聚类中心。

　　2.2将样本按照欧氏距离最短原则分配给与其最近的簇生成一个新簇。

　　2.3重新计算簇的中心。

　　2.4重复步骤2和3直到求出准则函数的最优解（或直到类的成员稳定）。

　　二、基于聚类算法的图书馆利用情况分析

　　在图书收藏和借阅流通活动当中，图书馆积累了很多可供研究的数据。一般高校图书馆，每年新增收藏图书几万册，每天都接待成百成千的读者，每天借还书几百册甚至几千册，经过长时间的积累，手工记录和计算机管理系统得以保存下来数百万条各式各样的数据，比如说读者类别、数量；馆藏各类图书的种数、册数；读者总借阅量，各类读者借阅量；各类图书借阅量和图书预约量；各类读者到馆次数、到馆时间和超期违约金等等。

　　在使用计算机软件对图书馆馆藏、流通等工作进行管理之前，工作人员对数据的积累都是手工操作，对上述这些数据的统计很繁琐，也不够精确，图书馆员要对这些错综复杂的数据作完全分析几无可能。现在，大多数高校图书馆都实现了自动化管理，所以能更快捷、准确地获取上述这些统计数据。但是到目前为止这些数据并没有被很好的利用，例如有些馆对数据的深层次分析没有足够的重视、图书馆工作人员面对图书管理系统的统计数据时只是简单的凭经验说话，而没有进行科学的分析处理等等。因此，图书馆员需要选择一些具有重要研究意义的数据进行分析，并做出相关决策和建议。图书借阅量就是经常被用来分析研究的数据，很多研究人员之所以选择图书借阅量来做分析研究，是因为它是读者使用图书馆的最好证据，图书馆员可以从中发现、掌握读者兴趣并积极满足读者的个人信息需求；同时它也是评价图书馆藏书结构和藏书质量的重要指标，图书馆员可以根据借阅量分析馆藏结构是否存在不合理之处、图书馆的采购策略是否需要调整。可以说，图书借阅量在研究、提高图书馆资源利用方面具有较高的参考价值。　　针对上述情况，本文将采用聚类算法对2007-2015这9年中保山学院图书馆流通数据（仅从中图法22个大类作分析）进行聚类分析，提高数据分析结果的可靠性和科学性，提高数据处理的效率，将数据进行深层次挖掘分析之后转化为可以为决策、预测、预报和估计提供参考的信息。

　　1.用k-means算法对2007年-2015年的图书借阅量分别作聚类，结果如表1所示。表中1、2、3分别代表图书借阅量小、大、适中三种聚类结果。

　　从表1中，我们可看出2007年-2010年的聚类结果没有变化，说明在这四年里保山学院师生对各类图书的需求变化不明显，因而借阅量分布基本保持不变；2011年、2012年两年哲学类图书从低借阅量的聚类结果中脱离出来，进入到借阅量适中的聚类结果中，说明这两年哲学类图书的借阅量有了明显的提高；2013年继哲学类图书借阅量提高之后，数理化类图书也跃上借阅量适中的行列，说在这一年里数理化类图书的需求有了质的变化；2014年工业技术类图书上升到借阅量适中的队伍，而此前7年一直都在借阅量适中的文科教体类图书则降到借阅量低的一类图书中，说明在2014年读者对工业技术类图书的需求较以前增大，而降低了对文科教体类图书的需求。

　　2.表1中，文学类图书始终是单独一类，是因为其借阅量太大，不足以影响其他各类图书的聚类情况，特剔除文学类图书以后，再用k-means算法进行逐年聚类分析后结果如表2所示。1、2、3分别代表借阅量小、适中、大三种聚类结果。

　　从表2中，我们可以看到哲学类、数理化类图书2007-2013年的借阅量都没发生较大变化，在2014年同时出现需求的增大；艺术类、历史地理类图书在2011-2013年出现需求变小的情况，在2014年又同时回归大需求量行列；政治法律、经济类图书也是同时出现需求量从小变大，在2011年同时出现低谷，又同时增长；社科总类类图书也呈一个低需求――增长――降低――增长的趋势；文科教体类图书基本呈现需求量从降低的趋势。

　　3.在2007-2015年图书借阅数据中剔除借阅量最大的文学类图书以及借阅量极小的交通运输、航空航天2类类图书以后，用k-means算法进行逐年聚类分析后结果如表3所示。1、2、3分别代表借阅量小、适中、大三种聚类结果。

　　以表3与表2相比，仅有的区别是2008年里当剔除文学类图书进行聚类时的社科总论图书的需求为中等需求，而当剔除三类图书聚类之时社科总论图书的需求为低需求。

　　从表1、2、3近9年的逐年聚类分析中，我们发现随着时间的推移，哲学类图书、数理化类图书、工业技术类图书和文科教体类图书的需求在发生着变化，前三类图书近几年的需求大致呈上升趋势，而文科教体类图书则下降趋势较为明显，这可能与保山学院学生结构的变化有关。自2009年开始招收第一批本科学生开始，到2015年本专科学生比例已经超过1.8∶1，更多的本科生对自己的专业书本需求、人文素养书本需求更高；而师范生人数锐减使得学生对于中小学教育相关的文科教体类图书的需求大大降低。

　　以文科教体类图书为例：2007年-2012年6年期间，该类图书借阅量占当年借阅图书总量的9%-10%，2013年虽然还在借阅量适中的聚类结果中，但是较2012年的10494册锐减到6332册，所占比例也降低到7.3%；2015年借阅量只有4588册，所占比例已经不到6.2%。说明表1、2、3的聚类结果的变化趋势很好的反映了文科教体类图书有学生感兴趣的书籍变成冷门图书。同样的办法可以看到哲学类图书、数理化类图书、工业技术类图书逐步成为热门图书。

　　基于此，我们可以作如下预测：待2016年图书馆所购买新书上架之后，正在成为热门图书的哲学类图书、数理化类图书、工业技术类图书的被借阅可能性大于已经变成冷门图书的文科教体类。因此，对保山学院图书馆2016年的图书采购工作和图书宣传工作作以下几点建议：

　　第一、降低对文科教体类图书的采购金额。在师范生人数不断下降的情况下，要大幅度缩减对中小学教材、教法类图书，以免造成同类图书堆积。

　　第二、增加对借阅量聚类结果中从借阅量低升格到中的几类图书的采购金额，特别是计算机类图书。现在计算机已经不再作为一种专业技能，而是一种普及的工具，为了掌握这门工具，很多学生争相学习。因此，图书馆应增加采购经费比例来完成对此类图书最新版本的更新。

　　第三、继续做好图书推荐工作。2016年要在总结前几年经验的基础上，根据近9年借阅量聚类结果的变化趋势进行图书利用率的预估，并加强图书馆的读者培训（包括日常的读者教育和新生入馆培训）、参考咨询工作、加大宣传力度，尽可能的让学生到图书看书、借书。

　　第四、加强图书剔旧工作。按时对藏书当中重复率比较高的这一部分图书进行剔旧，把老版本、借阅量极低（等于0）的剔出来。比如说文科教体类中的中小学教材、语言类的字典和词典这些都是重复率较高的，随着知识不断在更新发展，这几类图书低版本淘汰较快。

基于聚类算法的图书馆利利用情况分析

上一篇：广西公共图书馆人才队伍建设研究探析
下一篇：提升图书馆服务品质的几点思考

论文搜索: 关键字：算法图书馆基于情况分析图书

最新图书馆管理论文: 图书馆图书资料信息化管理研讨; 试论如何加强图书馆人力资源管理与创新; 试论高校图书馆动态化管理建设; 物联网技术在图书馆管理中的运用探讨; 高校图书馆管理人员素质提升影响因素探讨; 知识管理与高校图书馆服务创新的构想; 新媒体时代公共图书馆信息化发展存在的问题; 试论数字环境中图书馆管理创新策略; 高校图书馆书库管理与读者借阅服务探讨; 论乡村文化振兴视域下乡镇图书馆的建设

热门图书馆管理论文: 浅谈数字图书馆建设; 走向公共管理的治理理论; 知识经济时代的图书馆人力资源管理创新; 网络环境下我国图书馆服务模式的演变; 创新：迈进新世纪的图书馆管理; 地方高校图书馆数字化建设若干问题的探析; 新公共管理：当代西方公共行政的新趋势; 高校图书馆如何为高等函授教育服务; 信息资源：特点·价值·机制; 浅析高校图书馆的管理创新

基于聚类算法的图书馆利利用情况分析论文

基于聚类算法的图书馆利利用情况分析