用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模参考模型将各个页面归类。兴趣生成模块负责统计各个兴趣类中的页面特征词信息,综合生成用户兴趣向量。更新与优化模块是模拟人类记忆的遗忘规律,对兴趣类特征词的权值、各个兴趣类的兴趣度进行调整、更新,并有选择地将一些短期兴趣转化成长期兴趣,逐步优化模型。各个模块的功能具体介绍如下:⑴ 页面预处理模块
该模块主要完成两部分工作:一、对WWW缓冲区中的数据进行净化,清除与用户兴趣挖掘无关的文件;二、对保留的内容页面进行格式转换,切分出页面中所有的特征词,滤除词条中判断能力较差的停用词、超高频词和超低频词,然后根据词在页面中出现的位置,分别乘以不同的加权系数,得到最终的权值,构成页面特征向量。
⑵ 页面分类模块
得到页面特征向量后,可通过计算页面与主题概念类之间的相似度来判断页面属于哪一类。计算相似度时,我们综合考虑了个性化模型中的用户兴趣向量和分类参考模型中的主题兴趣类向量,将页面与这两者的相似度和的平均值作为页面与主题概念类的相似度,然后将页面归类到相似度值最大的主题类。
⑶ 兴趣生成模块
所有页面处理完以后,参考兴趣分类模型与分类词表,逐类统计页面信息与特征词信息,并根据TF-IDF方法计算出各个特征词的权值,生成用户兴趣类向量,进而将用户的兴趣特征由关键词抽象成概念主题,同时引入时间机制,突出用户兴趣的时效性。
⑷ 更新与优化模块
更新与优化模块是对兴趣类特征词和兴趣类信息进行有选择的遗忘,调整用户对各个兴趣类的爱好程度,并周期性地将用户短期兴趣中的重要信息转移到长期兴趣中。通过不断的更新与优化,个性化模型能及时体现用户兴趣的变化,准确反内容的兴趣表示方式中,用户的兴趣大多采用加权关键词向量表示,并没有将用户的兴趣归类分析,兴趣更新的目前对用户兴趣的分析大都是基于关键词,由于词在语义上的多义性,一定程度上影响了用户模型的准确度,所以,我们采取关键词和主题概念相结合的方法来表示用户的兴趣特征,通过挖掘蕴含在文档中的概念,建立加权概念层次的兴趣模型,描述和捕捉用户的兴趣偏好。
人类记忆遵循自然遗忘的规律,我们假设用户兴趣的遗忘也遵循这个规律,即用户的兴趣也随着时间的流逝逐渐减弱。用户最近多次访问的词条往往最能代表用户最近的兴趣,而长时间没有更新的词条,不再代表用户的当前兴趣,可以通过让其不断“衰老”达到过滤的目的。
模型的更新过程分三步实现:
⑴ 短期兴趣的更新,包括加入用户的最新兴趣和对旧兴趣的遗忘。
⑵ 短期兴趣向长期兴趣的转化,将短期兴趣中相对比较重要的特征词及兴趣度超过一定阈值的兴趣类转成长期兴趣。
⑶ 长期兴趣的更新,随着时间的推移,也需对用户的长期兴趣逐渐遗忘,逐渐淘汰用户不感兴趣的主题,重点突出用户的主要兴趣爱好。
这样,个性化模型就能根据用户浏览的信息,动态地感知用户兴趣需求的变化,并通过不断更新来逐步明确用户的兴趣需求。
5 结论及将来的工作
本文详细描述了用户模型的建立及更新过程。首先,根据用户首次使用系统时的定制信息生成用户长期兴趣树,利用第一次挖掘的用户兴趣生成初始的短期兴趣树;然后,分析、比较了两种更新用户兴趣的方法和基于时间窗机制的遗忘方法,模拟人类记忆的遗忘规律,提出一种新的遗忘机制;最后,利用这种遗忘机制,不断的更新、优化模型,
目前,关于个性化服务方面的相关研究还有很多,本文只是关于个性化服务方面研究的一种方法。我们相信,随着个性化服务模式的发展,个性化建模技术将得到进一步的快速发展,并能得到广泛应用。
参考文献
[1] Pazzani M, Muramatsu J. and Billsus D. Syskill&Webert: Identifying Interesting Web Sites. Proceeding of the 13th National Conference on Artificial Intelligence, 1996:54-61.
[2] Joachims T., Freitag D.and Mitchell T. WebWatcher: A Tour Guide for the World Wide Web. Proceeding of 15th International Joint Conference on Artificial Intelligence, August, 1997.
[3] 应晓敏,窦文华. 个性化服务. 计算机世界, 2003年6月16日, 第22期.
[4] Mladenic D. Personal WebWatcher: Design and Implementation. Technical Report IJS-DP-7472, Dept of Intelligent Systems, J. Stefan Institute.
[5] 马琳. Web搜索引擎中个性化信息服务关键技术研究. 南京大学硕士学位论文, 2002.
[6] 蒋萍, 崔志明. 智能搜索引擎中用户兴趣模型分析与研究. 微电子学与计算机, 2004.21(11):24-26.
转贴于 范文论文吧 http://www.fwlw8.com