您现在的位置: 论文网 >> 社会学论文 >> 社会其它论文 >> 集成社会化标签和用户背景信息的协同过滤推荐方法论文

集成社会化标签和用户背景信息的协同过滤推荐方法

出处:论文网
时间:2015-01-26

集成社会化标签和用户背景信息的协同过滤推荐方法

  中图分类号: TP391; TP18

  文献标志码:A

  Abstract: To address the difficulty of data sparsity and lower recommendation precision in the traditional Collaborative Filtering (CF) recommendation algorithm, a new CF recommendation method of integrating social tags and users background information was proposed in this paper. Firstly, the similarities of different social tags and different users background information were calculated respectively. Secondly, the similarities of different users ratings were calculated. Finally, these three similarities were integrated to generate the integrated similarity between users and undertook the recommendations about items for target users. The experimental results show that, compared with the traditional CF recommendation algorithm, the Mean Absolute Error (MAE) of the proposed algorithm respectively reduces by 16% and 22.6% in the normal dataset and coldstart dataset. The new method can not only improve the accuracy of recommendation algorithm, but also solve the problems of data sparsity and coldstart.

  Key words: data sparsity; coldstart; users background information; social tag; Collaborative Filtering (CF) recommendation

  0引言

  伴随着电子商务成为人们生活中不可缺少的一部分,信息过载已成为人们面对的一个巨大挑战[1]。协同过滤推荐技术是解决信息过载问题的一种有效方法[2],但仍然存在一些困难,如冷启动、数据稀疏、推荐精度等。

  针对传统协同过滤(Collaborative Filtering, CF)推荐算法[3]存在的上述问题,人们引入了社交网络技术。文献[4]利用了社会网络分析技术分析用户间的关系,将其量化为信任度以填充用户项矩阵,并将信任度融入到用户相似性计算中;文献[5]提出了一种为用户推荐潜在兴趣方向相近的资源的方法;文献[6]由用户社交关系提取用户相关性以提升预测精度;文献[7]提出了一种新的基于用户偏好自动分类的社会媒体数据共享和推荐方法;文献[8]提出了一种基于社会化标注的博客标签推荐方法;文献[9]提出了一种基于双重邻居选取策略的推荐算法来改善传统推荐算法推荐精度低和抗攻击能力差的缺陷。事实上,顾客的购买兴趣往往与其背景信息密切相关,顾客背景不同其兴趣可能差异很大。文献[10]提出一种考虑用户背景信息的协同过滤推荐算法,实现了更准确的推荐效果。

  上述文献虽然考虑了社交网络中社交用户间的关系,但较少考虑其他的社交行为信息(如社会化标注)对推荐质量的影响。更为重要的是,人类的社交行为往往与其背景密切相关,相同背景的人往往具有相似的社交行为。对此,结合社会化标签和用户背景信息,本文提出一种集成的社会化标签和用户背景信息的协同过滤推荐方法。

  首先,该方法基于社会化标签计算用户间的相似度;然后,计算用户背景信息的相似度和用户评分的相似度;最后,综合集成上述相似度并找出目标用户的可信最近邻居集实施推荐。

  该方法基于社会化标签计算用户间的相似性,然后计算用户背景信息的相似度,最后综合集成上述相似性并找出目标用户的可信最近邻居集实施推荐。

  1基于社会化标签和用户背景信息相似度计算

  1.1基于社会化标签的用户相似性计算

  社会化标签(Tag)是一种准确、灵活、开放的分类方式,是由用户为自己的文章、日志、帖子、图片、音频、视频等一系列文件所定义的一个或多个描述。Tag体现了群体的力量,使得内容之间的相关性和用户之间的交互性大大增强。网络用户可以通过添加多个Tag为网络资源分类,也可通过搜索某一个或几个Tag发现其他用户具有相同标签的资源,例如:手机控、90后、微博达人等。在社会化标签系统中,用户、资源和标签组成了社会化标签系统的3个基本的元素[11]。   1)计算单个标签的权重。

  本文采用TFIUF(Terms FrequencyInverse User Frequency这个是TF-IDF,还是TF-IUF?请明确。另外,请补充其英文缩写的英文全称。)方法来计算单个标签的权重,其基本思想是:如果一个词汇被一个用户使用的频率很高,但是被其他用户使用的频率却很低,则说明该词汇对该用户的兴趣区分比其他词汇具有更高的价值,故其在用户兴趣区分中占的权重应越大。

  根据上述算法描述,假设用户数为m,项目数为n,用户标签数为l,目标用户为u,则步骤1~2系统初始化阶段根据两个用户评分矩阵R1、R2计算所有用户之间的相似度因子,计算任意用户之间的相似度的时间复杂度为O(n),因此该过程的时间复杂度为O(m2n);步骤3计算待测用户标签与其他用户之间的相似度,所以复杂度为O(m2l);步骤4计算带预测用户的背景信息与其他用户之间的相似度,因此复杂度为O(m2);步骤5~7整体的时间复杂度为系统推荐阶段即查找目标用户的最近邻居集并预测项目评分最后选取TopN个数据返回,时间消耗主要在数据的排序上,该过程的时间复杂度为O(m×n)。虽然随着后续的推荐计算量会随着总评分数据和标签数据的增加而有所增加,但是相比传统的协同过滤算法,本文方法在缩短了推荐时间的前提下也保证了推荐的精确度。

  4实验结果与分析

  4.1数据集

  实验采用的数据集是MovieLens站点(http://movielens.umn.edu)提供的1MBM是表示10的几次方,请明确。或者请明确1M到底是多少数值?请明确。同时,后面的10M,又是指代多少数值?的公开数据集(2000年加入MovieLens 6040 MovieLens用户所做的数据集)和10MB的公开数据(包括10000054评级和95580标签通过71567用户的在线电影推荐服务MovieLens应用到10681电影)。该数据集由美国Minnesota大学的GroupLens研究小组创建并维护,数据中,用户对自己看过的电影进行评价,评分范围为1~5:“1”表示“不喜欢”,“2”表示“不太喜欢”,“3”表示“一般喜欢”,“4”表示“比较喜欢”2~4的描述不用交代了吗?请明确。,“5”表示“非常喜欢”,其中注册用户必须至少对它所拥有的电影中的20部进行评价。

  在1MB数据集中包含了用户背景信息、用户项目评分数据、电影类别,其包含了18(0~17)类不同电影的类别,每一部电影至少属于一个类别且可同时属于多个类别。10MB的数据集中包含了用户项目评分数据、电影类别和用户对电影的标签数据,在实验的过程中首先根据用户评分之间的相似性,得出相似用户类,将1MB数据中的用户背景信息整合到10MB数据集中,即可以得到一个全新的数据集(包含用户项目评分数据、电影类别、用户背景信息和标签数据)。

  4.2评价指标

  对推荐结果的评估,本文采用平均绝对误差(Mean Absolute Error,MAE)作为评测的指标。MAE是目前使用最为广泛的评价推荐系统精确度的评价标准,主要是计算测试集中用户实际评分和利用推荐算法预测出来的评分之间的绝对值,MAE的值越小,系统的推荐精度越高;反之,其值越大,其推荐精度越差。

  5结语

  随着协同过滤算法在电子商务中的广泛应用,如何提高其推荐精度已成为非常重要的研究问题。本文提出的结合用户背景信息和社会化标签的协同过滤算法,能够有效地提高算法的推荐精度和数据稀疏及冷启动问题。由于电子商务平台与社交网络平台是独立运行的,本文验证未能使用综合电子商务和社交网络的标准数据集,而是先计算两个数据集用户评分之间的相似性得出一个用户相似类,再将两个数据集整合成本文需要的数据集来进行验证,存在一定的不足。未来工作是集成电商和社交网络平台数据,对本文的工作给予进一步的验证。

集成社会化标签和用户背景信息的协同过滤推荐方法

论文搜索
关键字:社会化 社会 信息 协同 推荐 方法
最新社会其它论文
大学生对余额宝使用情况的调查与分析
浅议幼儿教学引入游戏化课程对幼儿社会性交
回归与延展
校园网贷乱象治理的探索
过度劳动理论与实践
中国老年人临终生活质量研究
社交媒体用户人际互动与社会资本提升路径研
社会热点事件在“两微”平台的传播机制研究
试论《诗经·小雅·十月之交》的社会背景
运用体育心理学提高女生适应现代社会需要的
热门社会其它论文
食品安全论文
坚持以人为本,推进和谐社会建设
当代青年如何培养正确的幸福观-兼评《道德生
关于“网络社会”的道德思考
建立绿色化学
网络信任危机:电子商务的伦理陷阱
美德是不可或缺的
论自私(上)
“伦理化”的汉语基督教与基督教的伦理意义
医学伦理学与生命伦理学的关系