基于内容过滤的个性化农业信息推荐模型研究

张启宇１，郭承坤２，宋瑶２，陈英义２，王磊３

（１．中国农业大学烟台研究院，山东烟台２６４０００；２．中国农业大学信息与电气工程学院，北京１０００８３；

３．山东省农业科学院科技信息研究所，济南２５０１００）

摘要：针对农业信息化综合服务平台信息过载问题，构建了个性化农业信息推荐模型，重点研究了用户类别兴趣向量、用户特征词喜好向量和文档特征向量，建立了农业专业词典和中英文停用词典；采用遗忘函数按时间对特征词的权重进行更新，并对用户类别兴趣进行更新，实现用户模型的更新；采用余弦相似度进行推荐度计算，提出了个性化服务推荐算法；通过对推荐信息的ＵＲＬ参数统计获知推荐效果，进一步对个性化推荐模型进行修正。结果表明，该模型可根据用户兴趣制定推荐，为用户提供有价值的信息，满足用户个性化需求。

教育期刊网 http://www.jyqkw.com
关键词：内容过滤；个性化服务；农业信息；信息推荐

中图分类号：Ｓ１２６；ＴＰ３９１．３文献标识码：A 文章编号：0439－８114（２０15）16－4052-05

DOI:10.14088/j.cnki.issn0439-8114.2015.16.057

收稿日期：２０１４－０９－２９

基金项目：山东省自主创新专项（２０１２ＣＸ９０２０４）

作者简介：张启宇（１９７８－），男，山东荣成人，讲师，硕士，主要从事农业信息化技术研究，（电话）１５０６３８０１２０４（电子信箱）ｒｃｒａｉｎｇｏ＠１６３．ｃｏｍ；

通信作者，王磊（１９７３－），男，主要从事农业信息化技术研究，（电子信箱）ｎｋｙｗｌ＠１２６．ｃｏｍ。

随着互联网和农业信息化的迅速发展，农业网站建设进入了快速发展期。大量的农业技术、供求信息、市场信息、政策法规和农业新闻等信息资源分布在农业网站中，然而由于互联网信息资源具有信息异质、异构、分散、重复现象严重的特点，缺少统一的形式化表达，形成各种各样的“信息孤岛”，很难对农业信息资源进行整合和利用［１］。对农民而言，不会使用搜索引擎，不知道使用什么教育期刊网 http://www.jyqkw.com
关键词进行搜索。为此，打造了农业信息化综合服务平台，农业信息化综合服务平台包括农业服务信息搜索引擎系统（针对涉农科技信息、市场行情、市场供求等信息进行定时、定向地自动获取、清洗和分类）、信息展示系统（搜索引擎获取的信息分类显示）、农业专家系统、农业论坛系统（用户提出各种农业问题，由农业专家或其他用户回答，支持短信智能问答）、个性化服务系统（根据用户的兴趣爱好进行信息主动推荐）等。随着信息的不断增长，用户很容易被淹没在信息海洋当中［２］，因此个性化服务系统是农业信息化综合服务平台的重要组成部分，可以提取及分析用户个性信息，根据用户兴趣制定推荐，为用户提供有价值的信息，满足用户个性化需求［３］。

个性化服务系统根据其所采用的推荐技术可分为基于规则的系统和信息过滤系统。信息过滤系统又可分为基于内容过滤的系统和协作过滤系统［４］。目前对于基于内容过滤的个性化服务推荐模型的研究主要在搜索引擎［５］、数字图书馆［６－８］、虚拟研究环境［９］、博物馆［１０］等领域，对农业领域的研究很少。本研究对基于内容过滤的个性化服务推荐模型进行了研究，提出了适合农业信息化综合服务平台的可更新的个性化服务推荐模型。

１用户兴趣模型

１．１用户兴趣的获取

个性化服务推荐模型建立的第一步是建立用户兴趣模型。建立用户兴趣模型首先要获取用户兴趣，用户模型中兴趣的获取主要有用户显式反馈和用户隐式反馈两种［４］。用户显式反馈是指用户回答系统提出的问题，直接参与建模过程，一般通过填表的方式来完成，其优点是获取的信息比较具体、全面、客观，可靠性较高，缺点是灵活性差，浪费用户的时间；用户隐式反馈是指系统在观察用户行为的基础上通过推理来获取用户兴趣知识，可以减少用户不必要的负担。

根据农业信息化综合服务平台的特点，用户兴趣获取的信息包括用户注册时的兴趣爱好、浏览的信息页面、信息查询的教育期刊网 http://www.jyqkw.com
关键词、论坛中发布及回复的帖子、短信提问的问题。

１．２用户兴趣模型的表示

杨艳等［５］提出的将兴趣粒度表示法和向量空间模型表示法结合起来的显隐式结合用户模型，在用户兴趣爱好固定的情况下取得了比较好的效果。但用户的兴趣爱好不是一成不变的，本研究借鉴了该模型的思想，根据农业信息化综合服务平台的特点，构造可更新用户兴趣类别的用户兴趣模型。

农业信息化综合服务平台中的信息是分类显示的，因此把用户的兴趣爱好表现在信息的类别上。把用户的每一个感兴趣的类别和对该类别感兴趣的程度用一个向量表示，称为类别兴趣向量，定义为ＣＩ=＜（C1，W1），（C2，W2），…，（Cm，Wm）＞其中ｍ为用户感兴趣的类别个数，Cj为第ｊ个类别，Wj为

２用户兴趣模型的实现

目前，在信息处理方向上，文本的表示主要采用向量空间模型［１１］。用空间向量模型表示文本，首先要对文本进行分词，进行特征选择和权重计算，最后形成一个Ｎ维空间向量［１２］。

２．１特征词权重的计算

权重的计算有多种方法，主要有布尔函数、频度函数、开根号函数、对数函数、熵函数及ＴＦ*ＩＤＦ函数等，ＴＦ*ＩＤＦ函数因其算法相对简单、有较高的准确率和召回率，一直受到相关研究人员和众多应用领域的青睐［１３］。Ｓａｌｔｏｎ在１９７３年提出的ＴＦ*ＩＤＦ启发式权重算法计算公式［１４］为：

Ｗ（ｆｉ，ｄ）＝ＴＦ（ｆｉ，ｄ）×ＤＩＦ（ｆｉ）＝Ｎ（ｆｉｄ）×ｌｏｇ（Ｎ（ｆｉ）／Ｎ）（１）

其中，Ｗ（ｆｉ，ｄ）是特征词ｆｉ在文本ｄ中的权重，Ｎ（ｆｉ）是出现特征词ｆｉ的文本数，Ｎ是总文本数，Ｎ（ｆｉｄ）是文本ｄ中出现ｆｉ的次数。

施聪莺等［１２］对“考虑类间类内差异的ＴＦ*ＩＤＦ”、“ＴＦ*ＩＷＦ*ＩＷＦ”、“引入方差的ＴＦ*ＩＷＦ*ＩＷＦ”及“ＴＦ*ＩＤＦ频率”算法进行测试，“引入方差的ＴＦ*ＩＷＦ*ＩＷＦ”无论是在开放测试还是在封闭测试中，Ｆ１测试值都非常高，反映了方差在抑制干扰方面的作用。本研究采用陈克利等［１３］提出的“引入方差的ＴＦ*ＩＷＦ*ＩＷＦ”权重算法进行计算。

特征词在类别中的权重计算公式：

心理学研究认为，人的记忆会随着时间的延续而逐渐遗忘，当环境或场合的改变使得记忆中的某些信息长期不被利用时，这些信息会逐渐被遗忘。根据心理学的记忆遗忘理论，可以认为用户兴趣的改变就是一种记忆遗忘现象［１６］。目前对遗忘机制的研究是把时间对兴趣的影响通过遗忘函数或遗忘因子来表示出来，并更新用户的兴趣。遗忘函数或遗忘因子有着不同的公式表示，有指数函数［１６－２１］、线性函数［２２－２６］、菲波拉契数列［２７］、幂函数［２８］、对数函数［２９］、分段函数［３０］、非线性函数［３１－３３］等。于洪等［２８］用ＺＧｒａｐｈｅｒ工具对艾宾浩斯遗忘曲线进行拟合，得到符合遗忘曲线的数学函数：

百度百科的“遗忘曲线”词条［３４］给出了艾宾浩斯记忆遗忘一般规律，得出初次记忆后经过了Ｘ小时，记忆率Ｙ近似地满足：

对公式（６）～（８）进行运算，公式（７）最符合艾宾浩斯遗忘曲线，但公式（７）缺少３１ｄ以后的表示。３１ｄ以后的记忆趋于稳定，所以把３１ｄ以后设置为固定值０．２１１，修改后的公式为公式（９）：

其中，ｔ为正整数。

采用公式（１０）对特征词在类别和文档中的权重进行动态更新。特征词的权重按照公式（２）和（３）进行特征词加权修订后和公式（１０）之乘积进行计算。文档中的权重也要计算，因为文档越新，对用户的价值越大，公式（１０）对类别和文档进行计算时，ｔ可以取不同的值。

２．２特征向量的构造

特征向量的构造过程如下：

１）分析服务器日志，去掉与日志无关的信息，如请求失败信息、页面图片请求等等，把用户有效的访问信息保存到数据库中［４］。

２）获取用户浏览的新闻资讯页面、论坛中发布及回复的帖子、便民服务的教育期刊网 http://www.jyqkw.com
关键词、短信提问的问题，进行中文分词，去除停用词。对于中文分词采用ＩＫＡｎａｌｙｚｅｒ２０１２。ＩＫＡｎａｌｙｚｅｒ是一个开源的、基于Ｊａｖａ语言开发的轻量级中文分词工具包。在２０１２版本中，支持通过配置ＩＫＡｎａｌｙｚｅｒ．ｃｆｇ．ｘｍｌ文件来扩充专有词典和停止词典，词典的格式为无ＢＯＭ的ＵＴＦ－８编码的中文文本文件［３５］。农业专业词典可以借助网络上的词库构建，搜狗输入法［３６］、百度输入法［３７］、ＱＱ输入法［３８］等输入法提供了众多的词库供用户下载使用。从“农林牧渔”类挑选词库，整理农业专业词典。停止词典在文献［３９］和［４０］的基础上构建。

３）对每一个类别计算特征词在类别和文档中的权重，构造用户特征词喜好向量Ｔｋ和文档特征向量Ｄｈ。Ｔｋ=（w1k,w2k,…，wnk），ｋ∈［１，ｍ］，ｍ为用户感兴趣的类别个数，ｎ为类别中特征词的个数；Ｄｈ=（w1h,w2h,…，wsh），ｈ∈［１，ｂ］，ｂ为该类别下的文档个数，ｓ为文档中特征词的个数。

特征向量的构造如图１所示。

２．３用户类别喜好向量的更新

当用户访问系统一段时间后，用户兴趣发生变化时，再使用用户注册时的初始用户类别喜好向量进行计算就会出现偏差，因此要进行用户类别喜好向量更新。更新策略为：统计用户点击不同类别文档的点击次数，按照公式（８）进行衰减，计算出最终的点击值。利用不同类别的点击值，重新构造喜好向量ｉ＝（ｉ１，ｉ２，…，ｉｍ），ｍ为现在用户感兴趣的类别个数。对向量进行规范化处理：

，得到新的类别喜好权重。

２．４相似度的计算

用户特征词喜好和文档特征表示采用向量方式，因此可以把资源对用户的推荐度计算转换为向量间的余弦相似度的计算［１０］。由于余弦相似度的计算要求两个向量维数相同，因此向量Tk和Ｄｈ要进行维数的统一，即存在于Tk而不存在于Ｄｈ的特征词补充到Ｄｈ中，其权重为０；存在于Ｄｈ而不存在于Tk的特征词补充到Tk中，其权重为０。即Tk=（w1k，w2k，…，wSk），Ｄｈ=（w1h,w2h,…，wSh），Ｓ为维数统一后的特征词个数，满足ｍａｘ（ｎ，ｓ）Ｓｍ＋ｎ。余弦相似度计算公式为：

３个性化服务推荐算法及反馈

３．１个性化服务推荐算法

个性化服务推荐算法流程图如图２所示。

３．２反馈

为了判断用户是否浏览推荐的信息，对推荐信息的ＵＲＬ添加一个参数，设置为用户注册的用户名。当用户点击推荐的信息，服务器会进行统计。通过统计信息，可以获知每一次推荐的效果。

４小结

对基于内容过滤的个性化服务模型进行了研究，针对农业信息化综合服务平台的目的与意义，提出了农业信息个性化推荐模型，采用用户显式反馈和用户隐式反馈两种方法相结合获得用户兴趣。利用特征词权重和构造特征向量将文本分词，为了让个性化推荐更准确，采用遗忘函数按时间对特征词的权重进行更新，并对用户类别兴趣进行更新。通过对推荐信息的ＵＲＬ参数统计获知推荐效果，进一步对个性化推荐模型进行修正，为用户提供更好的个性化服务。但这个反馈需要对大量统计数据进行挖掘分析，是一项长期的工作。

教育期刊网 http://www.jyqkw.com
参考文献：

［１］胡宜敏．农业垂直搜索引擎语义化若干问题的研究与实现［Ｄ］．合肥：中国科学技术大学，２０１２．

［２］潘拓宇，朱珍民．一种改进的基于协同过滤的个性化推荐算法［Ｊ］．微计算机信息（管控一体化），２０１０，２６（１２－３）：２２８－２２９，１２１．

［３］李宁，王子磊，吴刚，等．个性化影片推荐系统中用户模型研究［Ｊ］．计算机应用与软件，２０１０，２７（１２）：５１－５４．

［４］曾春，邢春晓，周立柱．个性化服务技术综述［Ｊ］．软件学报，２００２，１３（１０）：１９５２－１９６１．

［５］杨艳，邱艳丽．新的基于日志分析的用户个性化模型［Ｊ］．计算机科学与探索，２０１２，６（４）：３３３－３４２．

［６］余侠，朱林．根据用户反馈建立和更新数字图书馆用户兴趣模型［Ｊ］．情报杂志，２００４（１１）：２１－２２．

［７］张帆，杨炳儒．基于文本过滤的数字图书馆个性化服务技术［Ｊ］．计算机工程与应用，２００６（３１）：２０６－２０８．

［８］赵银春，付关友，朱征宇．基于Ｗｅｂ浏览内容和行为相结合的用户兴趣挖掘［Ｊ］．计算机工程，２００５，３１（１２）：９３－９４，１９８．

［９］李永，徐德智，张勇，等．ＶＲＥ中基于内容过滤的论文推荐算法［Ｊ］．计算机应用研究，２００７，２４（９）：５８－６０，８９．

［１０］周珊丹，周兴社，王海鹏，等．智能博物馆环境下的个性化推荐算法［Ｊ］．计算机工程与应用，２０１０，４６（１９）：２２４－２２６．

［１１］赵丰年，刘林，商建云．基于概念的文本过滤模型［Ｊ］．计算机工程与应用，２００６，４２（４）：１８６－１８８．

［１２］施聪莺，徐朝军，杨晓江．ＴＦＩＤＦ算法研究综述［Ｊ］．计算机应用，２００９，２９（６）：１６７－１７０，１８０．

［１３］陈克利，宗成庆，王霞．基于大规模真实文本的平衡语料分析与文本分类方法［Ａ］．孙茂松，陈群秀．语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集［Ｃ］．北京：清华大学出版社，２００３．

［１４］刘华，张普．面向词典编纂的词汇聚类研究［Ａ］．２００４年辞书与数字化研讨会论文集［Ｃ］．上海：上海辞书出版社，２００４．

［１５］颜端武．面向知识服务的智能推荐系统研究［Ｄ］．南京：南京理工大学，２００７．

［１６］蒋萍，崔志明．智能搜索引擎中用户兴趣模型分析与研究［Ｊ］．微电子学与计算机，２００４，２１（１１）：２４－２６．

［１７］ＺＨＡＮＧＹＣ，ＬＩＵＹＺ．Ａ cｏｌｌａｂｏｒａｔｉｖｅ fｉｌｔｅｒｉｎｇ aｌｇｏｒｉｔｈｍ bａｓｅｄｏｎ tｉｍｅ pｅｒｉｏｄ pａｒｔｉｔｉｏｎ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｏｆｔｈｅ３ｒｄ iｎｔｅｒｎａｔｉｏｎａｌ sｙｍｐｏｓｉｕｍｏｎ iｎｔｅｌｌｉｇｅｎｔ iｎｆｏｒｍａｔｉｏｎ tｅｃｈｎｏｌｏｇｙａｎｄ sｅｃｕｒｉｔｙ iｎｆｏｒｍａｔｉｃｓ［Ｃ］．ＵＳＡ：ＩＥＥＥ，２０１０．

［１８］张红卫．基于科技文献的时序主题链构建方法研究［Ｄ］．辽宁大连：大连理工大学，２０１３．

［１９］邓娟，陈西曲．基于用户兴趣变化的协同过滤推荐算法［Ｊ］．武汉工业学院学报，２０１３，３２（４）：４８－５１．

［２０］邓攀，钟将．基于推荐的抗攻击电子商务信任模型［Ｊ］．计算机应用，２０１３，３３（１２）：３４９０－３４９３，３５０２．

［２１］李克潮，梁正友．适应用户兴趣变化的指数遗忘协同过滤算法［Ｊ］．计算机工程与应用，２０１１，４７（１３）：１５４－１５６.

［２２］石晶，龚震宇，裘杭萍，等．基于用户兴趣模型的智能信息检索系统技术与实现［Ｊ］．情报学报，２００３，２２（３）：２８２－２８６．

［２３］宋丽哲，牛振东，余正涛，等．一种基于混合模型的用户兴趣漂移方法［Ｊ］．计算机工程，２００６，３２（１）：４－６，８９．

［２４］李宁，王子磊，吴刚，等．个性化影片推荐系统中用户模型研究［Ｊ］．计算机应用与软件，２０１０，２７（１２）：５１－５３．

［２５］邢春晓，高凤荣，战思南，等．适应用户兴趣变化的协同过滤推荐算法［Ｊ］．计算机研究与发展，２００７，４４（２）：２９６－３０１．

［２６］郑充林．协同过滤的服装推荐算法的改进研究［Ｄ］．上海：东华大学，２０１３．

［２７］张守志，许彦．一个个性化服务系统的设计与实现［Ｊ］．小型微型计算机系统，２００３，２４（１２）：２１５５－２１５８．

［２８］于洪，李转运．基于遗忘曲线的协同过滤推荐算法［Ｊ］．南京大学学报（自然科学），２０１０，４６（５）：５２０－５２７．

［２９］朱祎，和莉，王小军．基于关联反馈技术的用户兴趣模型的建立与自适应更新［Ｊ］．金陵科技学院学报，２０１１，２７（４）：３５－３９．

［３０］南智敏．基于网页兴趣度的用户兴趣模型体系研究［Ｄ］．上海：复旦大学，２０１２．

［３１］申倩倩．基于本体和情境感知的信息个性化服务关键技术研究［Ｄ］．西安：西安工程大学，２０１１．

［３２］李志浩，聂文汇，成鹏，等．基于分页缓存模型的用户兴趣跟踪方法［Ｊ］．计算机工程与科学，２０１２，３４（１０）：３２－３７．

［３３］郑先荣，汤泽滢，曹先彬．适应用户兴趣变化的非线性逐步遗忘协同过滤算法［Ｊ］．计算机辅助工程，２００７，１６（２）：６９－７３．

［３４］遗忘曲线［ＥＢ／ＯＬ］．ｈｔｔｐ：//ｂａｉｋｅ．ｂａｉｄｕ．ｃｏｍ／ｌｉｎｋ？ｕｒｌ＝Ｖ３ＦＫＨ３Ｕｈｙ

ｙＡ＿Ｉ４ｑＫ７－ｃｇＹｕｏｙ７－Ｒｓｙ＿ｙ１ＰｗＥ１＿ＣＸＦＬＦｅＢｃＡｒＪ３ＳｔＢＥｇＳｈ９Ｅｚｇ

Ｂｑｒ９，２０１４－０３－０４／２０１４－０４－２０．

［３５］ＩＫＡｎａｌｙｚｅｒ中文分词器Ｖ２０１２使用手册［ＥＢ／ＯＬ］．ｈｔｔｐ：//ｃｏｄｅ．ｇｏｏｇｌｅ．ｃｏｍ/ｐ/ｉｋ－ａｎａｌｙｚｅｒ/ｄｏｗｎｌｏａｄｓ／ｄｅｔａｉｌｎａｍｅＡＤ％Ｅ６％９６％８７％Ｅ５％８８％８６％Ｅ８％ＡＦ％８Ｄ％Ｅ５％９９％Ａ８Ｖ２０１２％Ｅ４％ＢＤ％ＢＦ％Ｅ７％９４％Ａ８％Ｅ６％８９％８Ｂ％Ｅ５％８６％８Ｃ．ｐｄｆ＆ｃａｎ＝２＆ｑ＝，２０１２－０３－０７/２０１４－０４－２０．

［３６］搜狗细胞词库＿词库下载＿词典＿输入法字典［ＥＢ/ＯＬ］．ｈｔｔｐ：//ｐｉｎｙｉｎ．ｓｏｇｏｕ．ｃｏｍ/ｄｉｃｔ/．

［３７］百度输入法－词库首页［ＥＢ/ＯＬ］．ｈｔｔｐ：//ｓｈｕｒｕｆａ．ｂａｉｄｕ．ｃｏｍ/ｄｉｃｔ－ｌｉｓｔ．ｈｔｍｌ．

［３８］ＱＱ输入法分类词库［ＥＢ/ＯＬ］．ｈｔｔｐ：//ｄｉｃｔ．ｐｙ．ｑｑ．ｃｏｍ/．

［３９］张启宇．基于贝叶斯算法的垃圾邮件过滤系统的研究与设计［Ｄ］．山东曲阜：曲阜师范大学，２００６．

［４０］应晓敏．面向Ｉｎｔｅｒｎｅｔ个性化服务的用户建模技术研究［Ｄ］．长沙：国防科学技术大学，２００３．