摘要摘 要:针对用户浏览的Web页面内容进行用户兴趣挖掘,并采用多元线性回归分析法进行用户浏览行为分析,得到用户兴趣特征矩阵,隐式地创建了用户兴趣描述文件,最后通过基于有效指数的KMeans聚类算法得到了改进的用户兴趣模型。实际应用表明,该模型能有效地表达用户的兴趣偏好,提高了个性化服务质量。
关键词关键词:Web挖掘;浏览内容;浏览行为;线性回归;聚类算法
DOIDOI:10.11907/rjdk.143043
中图分类号:TP391
文献标识码:A 文章编号文章编号:16727800(2014)009014103
0 引言
随着Internet的快速发展和广泛普及,传统“人找信息”的服务模式已经越来越难以适应快速增长的Internet信息资源,用户急切需要一种能够根据自己的个性特征自动组织和调整信息的服务——个性化服务,它是Internet信息“爆炸式”增长的必然结果[1]。而作为个性化服务的基础——用户兴趣模型,其质量优劣直接影响到个性化服务的好坏。由此可见,用户兴趣模型在个性化服务中起着核心作用,它能真实地表现用户的偏好,在很大程度上决定着个性化服务的效果。
为了能准确地描述用户兴趣,可以使用用户描述文件来表示用户特征与用户之间的关系。按照用户是否参与可将创建用户描述文件分为显示和隐式两种类型。本文通过有效挖掘用户浏览Web页面集的内容和行为信息来隐式地创建用户兴趣描述文件,这样减少了由于用户直接参与的显示创建方式带来的系统噪音,从而保证了后阶段所创建的用户兴趣模型的准确性,有效保障了个性化服务效果。
1 基于浏览内容的用户兴趣分析
用户浏览Web页面的内容信息在一定程度上体现了用户的兴趣爱好。因此,基于用户浏览的内容来建立用户兴趣模型是所需资源之一[2]。
1.1 浏览页面结构化表示
为了准确地表示用户所浏览的页面内容,需要对文本信息进行预处理,提取其特征并用结构化的形式保存。目前,常用的文本表示形式有布尔逻辑型、向量空间型、概率型等。根据实际情况,本文采用向量空间模型来表示Web文档,并用词频来体现某个词在文本中的作用程度。词频有绝对词频和相对词频两种,其中绝对词频为词在文本中出现的频率,相对词频为归一化的词频,其计算方法主要应用TF-IDF公式,本文采用如下一种改进的TF-IDF公式[3]:
从表1可以看出,为用户推荐新闻数目的准确度随推荐新闻数目的变化而变化,当新闻数目在40条左右时,基于用户模型的新闻推荐系统准确度达到最佳(98.4%),而基于内容的新闻推荐准确度达到最佳(96.1%),需要推荐新闻数目为50条左右。由此可见,基于用户兴趣模型的新闻推荐准确度高于基于内容的新闻推荐,个性化新闻服务质量在一定程度上也有所提高。
4 结语
本文通过挖掘用户浏览页面的内容信息及相关行为信息,并采用基于有效指数的KMeans聚类算法进行聚类,最终得到了比较稳定的用户兴趣模型。将该用户兴趣模型应用于个性化新闻推荐系统中,使得该新闻推荐系统具有较高的精准度、较好的推荐能力和服务质量,为后续进一步研究个性化服务系统奠定了基础。
参考文献参考文献:
[1] 蒲国林,杨清平,王刚,等.基于语义的个性化用户兴趣模型[J].计算机科学,2008(5): 181184.
[2] 张老模,马颖,王国栋.基于数据挖掘的个性化智能推荐系统应用研究[J].现代电子技术,2011(8): 3134.
[3] 罗欣,夏得麟,晏蒲柳.基于词频差异的特征选取及改进的TFIDF公式[J].计算机应用, 2005(9):20312033.
.计算机工程, 2005(12):9394.
[5] 段小斌,陈基漓,张沫,等.个性化推荐服务中用户兴趣模型研究[J].计算机与信息技术, 2006(12):13.
[6] 高利军,王辉,张望.个性化服务中自适应聚类算法的研究[J].微电子学与计算机,2007(8):8991.
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。 返回通信学论文列表