设为首页
加入收藏
联系我们
公告:欢迎光临范文论文吧、如果您喜欢本站,请您多多向您的朋友推荐,相信有您的支持我们会做得更好! 今天是
您当前位置: 范文论文吧 >> 免费论文 >> 计算机论文 >> 当前信息
站内搜索

栏目导航
计算机论文 电子商务论文
法律论文 经济论文
会计论文 金融论文
教育论文 工商管理论文
行政管理论文 企业管理论文
酒店管理论文 工程造价论文
桥梁建筑论文 国际贸易论文
商场营销论文 医学论文
药学论文 经济学论文
质量管理论文 物流管理论文
成本管理论文 工资管理论文
薪酬管理论文 德育论文
师德论文 英语论文
物理论文 化学论文
语文论文 数学论文
政治论文 地理论文
历史论文 科技论文
毕业论文写作 毕业论文范文
毕业论文格式 教学论文
相关文章
热门文章

Web挖掘个性化模型研究

作者:计算机应用论文_计算机论文_工学论文  来源:范文论文吧  发布时间:2008-5-8 7:40:36  发布人:admin

减小字体增大字体

摘  要  本文对个性化建模技术进行了研究,提出一个基于用户兴趣挖掘的个性化模型,并将其用于个性化元搜索引擎中,为个性化分析提供依据。该模型基于客户端,将用户的访问页面作为挖掘对象,不需要用户过多的参与,自动从用户的隐式反馈中推导出用户的兴趣。模型中将用户的兴趣分时分段,分层分类的进行记录、管理,并仿照人类记忆的遗忘规律对用户兴趣进行有选择、非平等的遗忘,通过不断的更新与优化模型,使模型能准确反映用户的兴趣特征。
关键词  个性化;用户兴趣挖掘
 

1        引言

随着互联网内容指数级的增长,如何满足各种用户不同的个性化需求等,是新的信息服务系统面临的挑战性课题。个性化服务是Internet信息增长的必然结果。一个好的个性化服务系统,要能自动判断哪些信息是用户感兴趣的,哪些是用户不感兴趣的,对于用户不感兴趣的信息则阻止反馈给用户。作鲂曰竦幕『秃诵模没P偷闹柿恐苯庸叵档礁鲂曰竦闹柿俊?lt;/FONT>
 

2        相关技术研究

2.1       用户兴趣挖掘技术

       在Web挖掘系统中对用户兴趣的挖掘所采取的途径主要有下面三种:
⑴从表达用户个性化的文件中获取用户的兴趣。该文件可包括两种信息:一种是用户主动填写的需求信息;另一种是用户提交的背景信息、注册信息等。
⑵监视用户的信息搜索与浏览过程,分析用户的兴趣爱好,然后根据用户的兴趣爱好进行信息推荐(如letizia[1] 、WebWatch[2]等)。
⑶从用户的浏览行为中推断出用户的兴趣,主要采用Web使用挖掘技术,通过感知用户的反应,分析用户行为的意图,获取用户感兴趣的相关信息及其感兴趣的感性程度。

2.2       用户建模技术

根据建模过程中用户的参与程度,用户建模技术可以分为:用户手工定制建模、示例建模和自动用户建模[3]。
⑴ 用户手工定制建模
用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模参考模型将各个页面归类。兴趣生成模块负责统计各个兴趣类中的页面特征词信息,综合生成用户兴趣向量。更新与优化模块是模拟人类记忆的遗忘规律,对兴趣类特征词的权值、各个兴趣类的兴趣度进行调整、更新,并有选择地将一些短期兴趣转化成长期兴趣,逐步优化模型。各个模块的功能具体介绍如下:

⑴ 页面预处理模块
该模块主要完成两部分工作:一、对WWW缓冲区中的数据进行净化,清除与用户兴趣挖掘无关的文件;二、对保留的内容页面进行格式转换,切分出页面中所有的特征词,滤除词条中判断能力较差的停用词、超高频词和超低频词,然后根据词在页面中出现的位置,分别乘以不同的加权系数,得到最终的权值,构成页面特征向量。
⑵ 页面分类模块
得到页面特征向量后,可通过计算页面与主题概念类之间的相似度来判断页面属于哪一类。计算相似度时,我们综合考虑了个性化模型中的用户兴趣向量和分类参考模型中的主题兴趣类向量,将页面与这两者的相似度和的平均值作为页面与主题概念类的相似度,然后将页面归类到相似度值最大的主题类。
⑶ 兴趣生成模块
所有页面处理完以后,参考兴趣分类模型与分类词表,逐类统计页面信息与特征词信息,并根据TF-IDF方法计算出各个特征词的权值,生成用户兴趣类向量,进而将用户的兴趣特征由关键词抽象成概念主题,同时引入时间机制,突出用户兴趣的时效性。
⑷ 更新与优化模块
更新与优化模块是对兴趣类特征词和兴趣类信息进行有选择的遗忘,调整用户对各个兴趣类的爱好程度,并周期性地将用户短期兴趣中的重要信息转移到长期兴趣中。通过不断的更新与优化,个性化模型能及时体现用户兴趣的变化,准确反内容的兴趣表示方式中,用户的兴趣大多采用加权关键词向量表示,并没有将用户的兴趣归类分析,兴趣更新的目前对用户兴趣的分析大都是基于关键词,由于词在语义上的多义性,一定程度上影响了用户模型的准确度,所以,我们采取关键词和主题概念相结合的方法来表示用户的兴趣特征,通过挖掘蕴含在文档中的概念,建立加权概念层次的兴趣模型,描述和捕捉用户的兴趣偏好。
人类记忆遵循自然遗忘的规律,我们假设用户兴趣的遗忘也遵循这个规律,即用户的兴趣也随着时间的流逝逐渐减弱。用户最近多次访问的词条往往最能代表用户最近的兴趣,而长时间没有更新的词条,不再代表用户的当前兴趣,可以通过让其不断“衰老”达到过滤的目的。
 
模型的更新过程分三步实现:
⑴ 短期兴趣的更新,包括加入用户的最新兴趣和对旧兴趣的遗忘。
⑵ 短期兴趣向长期兴趣的转化,将短期兴趣中相对比较重要的特征词及兴趣度超过一定阈值的兴趣类转成长期兴趣。
⑶ 长期兴趣的更新,随着时间的推移,也需对用户的长期兴趣逐渐遗忘,逐渐淘汰用户不感兴趣的主题,重点突出用户的主要兴趣爱好。
这样,个性化模型就能根据用户浏览的信息,动态地感知用户兴趣需求的变化,并通过不断更新来逐步明确用户的兴趣需求。
 

5        结论及将来的工作

本文详细描述了用户模型的建立及更新过程。首先,根据用户首次使用系统时的定制信息生成用户长期兴趣树,利用第一次挖掘的用户兴趣生成初始的短期兴趣树;然后,分析、比较了两种更新用户兴趣的方法和基于时间窗机制的遗忘方法,模拟人类记忆的遗忘规律,提出一种新的遗忘机制;最后,利用这种遗忘机制,不断的更新、优化模型,
目前,关于个性化服务方面的相关研究还有很多,本文只是关于个性化服务方面研究的一种方法。我们相信,随着个性化服务模式的发展,个性化建模技术将得到进一步的快速发展,并能得到广泛应用。

 
 
参考文献
 
[1] Pazzani M, Muramatsu J. and Billsus D. Syskill&Webert: Identifying Interesting Web Sites. Proceeding of the 13th National Conference on Artificial Intelligence, 1996:54-61.
[2] Joachims T., Freitag D.and Mitchell T. WebWatcher: A Tour Guide for the World Wide Web. Proceeding of 15th International Joint Conference on Artificial Intelligence, August, 1997.
[3] 应晓敏,窦文华. 个性化服务. 计算机世界, 2003年6月16日, 第22期.
[4] Mladenic D. Personal WebWatcher: Design and Implementation. Technical Report IJS-DP-7472, Dept of Intelligent Systems, J. Stefan Institute.
[5] 马琳. Web搜索引擎中个性化信息服务关键技术研究. 南京大学硕士学位论文, 2002.
[6] 蒋萍, 崔志明. 智能搜索引擎中用户兴趣模型分析与研究. 微电子学与计算机, 2004.21(11):24-26.
转贴于 范文论文吧 http://www.fwlw8.com
         
∷相关范文评论∷    (评论内容只代表网友观点,与本站立场无关!) [更多评论...]
搜索关键词:范文、论文、小说、手机、总结、报告、演讲稿、发言稿、试题、试卷、高考、英语、大学英语三级成绩查询、大学英语四级成绩查询、大学英语六级成绩查询、计算机等级考试、计算机3级成绩查询、计算机4级成绩查询、大学招生、研究生招生、招生信息、招生政策、创业贷款、情书范文、祝福短信、搞笑短信、自我介绍、自我评价等!
免责声明
1、本站部分内容是转载自其它站点或其它媒体,其版权归原文作者、版权声明者、或原文存放站点所有,如果需要转载或引用,请注明原文出处及连接。
2、本站的所有内容不得用于商业目的,使用者应对其行为承担一切后果,本站不负任何责任。
3、如果本站有涉及您版权的内容请点此[告知我们], 我们会尽快作出相处理。

Copyright © 2006- 范文论文吧 All Rights Reserved
本站部分资源出自其他站点或媒体、版权归原创作者所有、本站仅作学习参考、如有涉及您版权的内容请[来信告知]
营业证号: 黔ICP备06004583号