基于文献计量的我国搜索引擎研究现状和热点分析

  • 投稿
  • 更新时间2018-04-14
  • 阅读量79次
  • 评分0
  • 0
  • 0

  摘要:运用文献计量的方法对我国搜索引擎领域的相关文献进行多角度的定量和定性分析,明晰搜索引擎研究领域的主要研究机构、核心作者和核心期刊,并通过论文关链词和主题分析,发现目前的研究热点主要集中于4个方面:(1)搜索引擎的基本原理和关键技术;(2)元、垂直、个性和智能等4种搜索引擎研究;(3)搜索引擎的应用及商业盈利;(4)搜索引擎相关的知识产权等法律问题4个方面。


  关键词:搜索引擎;文献计量;研究现状;热点


  中图分类号:G250.25文献标识码:A文章编号:1008-0821(2012)07-0068-06


  近年来,由于网络和信息技术的快速发展,互联网上的信息成爆炸式的增长,网络成为了人们发布和获取信息的重要渠道,然而网络信息过于分散和无序的分布使得用户获取信息遇到很大困难。在这种背景下,搜索引擎提供的信息服务方式也越来越重要。搜索引擎是一种用于帮助因特网用户在互联网上查询信息的搜索工具,它以一定的策略在因特网中发现、搜集信息,并对搜集的信息进行加工整理和组织存贮,为用户提供检索服务,从而起到信息导航的作用。搜索引擎产生于20世纪90年代。产生的时间虽不长,但已经在学术界、商业界以及人们的日常生活中发挥了巨大的作用,根据中国互联网信息中心2010年7月发布的《中国互联网络发展状况统计报告》第26次调查统计报告显示搜索引擎用户规模已达3.2亿人在各类网络应用使用率中的排名位居第三,这使得网络搜索引擎的研究成为当前国内外研究的热点。为了解我国近年来在该领域的研究现状、热点以及分析其发展趋势,笔者拟用文献计量的方法对我国搜索引擎领域的相关文献进行以定量分析。希冀得出一些有益的结论,为该领域的研究提供借鉴。


  1、数据来源和研究思路


  1.1数据来源


  采用清华同方的中国知识资源总库(CNKI)中的数据库之一“中国学术期刊网出版总库”作为数据来源,文献发表时间截止到2011年底,检索时间为2012年1月,以“题名”为检索途径,以“搜索引擎”为检索词进行检索,得到检索结果为3814条数据。除去20条为各类研讨会征稿通知,剩余3794条为和搜索引擎相关的文献数据。


  1.2研究思路


  本文首先采用文献计量方法对相关文献的数量、著者分布、期刊分布、主要研究机构进行分析以揭示研究现状,然后对数据进行抽样,选取发表时间为近五年即2007-2011年的核心期刊论文,对其所研究的主题内容进行分析从而揭示出该领域的研究热点及发展趋势。主要利用CNKI自带的检索结果分组和Excel进行数据统计。


  2、文献调研与分析结果


  2.1文献信息量统计


  发表文献的数量在一定程度上代表了某个领域的研究水平与发展趋势。图1所示的是1996-2011年16年间的文献量,其中2011年的数据可能还有部分文献没有上传到网上,估计全部数据应比2010年数据相差不多。从图中可以看出从1996-2004年是搜索引擎相关的论文的迅猛增期,在这个数据库中从1996年才出现的搜索引擎相关文献,到2004.年已经迅猛发展到300多篇,此后发文量进入稳步发展期,从2007年有一个发展高峰,2008-2009年达到顶峰,从2010年略有下降。应该是进入又一稳定发展时期。考查文献内容可知,搜索引擎的发展已经从诞生、迅猛发展、平稳发展,进入专门化深入化研究。这也表明对搜索引擎这一领域研究的逐步成熟。据此可以预见在未来一段时间内,搜索引擎研究仍将是我国学者关注的热点之一。


  2.2论文著者统计分析


  对于作者发文量的统计分析可以识别某研究领域的高产作者。本文选取发文量5篇以上的作者作为高产作者,共31人,共发文211篇如表1所示。


  对高产作者发文量的统计中发现很多作者是合著者,我们知道第一作者是论文的主要责任人和撰写人,选取以第一作者身份发表论文的作者统计如表2所示。


  对论文被引频次的统计可反映其及学术影响力。截止检索日被引次数前十的高被引作者如表3所示。


  被引频次排在第一的是来自华东理工大学的陈树年教授,他是我国著名情报检索语言专家,长期从事检索语言的研究、教学和实践工作,在分类法、主题法以及网络信息组织研究领域有较高的造诣。从表2和表3我们也可以看出高产作者和高被引作者基本不一致,这说明虽然近年来对搜索引擎的研究比较热门投入到这一领域的专家也非常多,但专注于此的人并不多。高产并且高影响力的专家还显缺乏。其中只有张卫丰教授是既高产又高被引的作者,他主要从事Web应用技术、模式分类、搜索引擎技术、人工智能、机器学习、数据挖掘以及信息获取等方面的研究,是年轻一代的专家。


  2.3高产机构分析


  发表论文在20篇以上的高产机构如表4所示:


  从论文数量上看,武汉大学以80篇的数量排在第一位。排在第二的是北京大学,其他排名比较靠前的还有中山大学、清华大学、南京大学等。该领域的高产机构主要是我国发达地区的重点高校,其中武汉大学、北京大学、南京大学和中山大学皆是在图书情报领域研究比较突出的研究机构,清华大学是计算机学科领域领先的机构。表明高校的图书情报学院对搜索引擎的研究做出了贡献。也有少数综合实力不是很强的高校在搜索引擎研究比较突出,如佳木斯大学排名14,共产出22篇论文。


  2.4载文的期刊分布


  载文量在14篇以上的期刊有57种,所载论文总数为1947篇,占所有论文的49%。载文在34篇以上的期刊有20种,所载论文总数为1168篇,占所有论文的31%,如表5所示。其中lO种期刊属于计算机软件与应用领域,8种期刊属于图书情报领域,还有2种是综合性期刊。表明对搜索引擎的研究主要来自以上两个领域的专业工作者。


  2.5高频关键词分析


  关键词所占篇幅虽小,却是文章的核心和精髓,是作者对文章主题的精炼,具有很强的代表性,因此高频的关键词往往被用来考查一个领域的研究热点。表6列出的是出现频次排在前二十的关键词:


  排在第一的关键词是搜索引擎,这是本文的检索词,也是本研究的基础所在。第二类较靠前的的关键词包括信息检索、互联网、因特网、Internet、检索、网络,都是与主题很相关的词,是很多其他研究的基础。其中互联网、因特网和Internet意思一致,在很多场合不明显区分的。搜索引擎处理的是因特网上的信息,因特网的迅速发展与普及也带动了搜索引擎的发展。因特网上的信息具有的庞大性、动态性、异构性和半结构化等特点对搜索引擎来说是个挑战,这势必引起很多专家学者来对此进行研究。因此,这是该领域的热点之一。第三类排名靠前的关键词是元搜索引擎、个性化、垂直搜索引擎、智能搜索引擎。目前。网上综合性的传统搜索引擎发展日益成熟,能够较好地满足广大用户的检索需求。但网络技术发展与网络信息增长迅速,网络信息的用户也越来越多,综合搜索引擎在信息查准率低、有用信息含量低等方面也问题突出。因此,应开发搜索质量更准确、相关性更复杂的搜索引擎,以追求有最佳的检索效率及效果,各种元搜索引擎、垂直搜索引擎、个性化搜索引擎、智能搜索引擎等随之产生。成为当前搜索引擎研究的热点也是搜索引擎发展的趋势。第四类比较靠前的关键词是Lucene、中文分词、网络蜘蛛和数字挖掘,这些是搜索引擎的关键技术和搜索引擎工作的基础。很大程度上决定了搜索引擎的质量。Google出作为作为全球最大的搜索引擎也同时受到国内学者的关注。


  2.6论文主题分布


  关于搜索引擎研究的论文所涉及的主题内容非常广泛。对于研究的深度也是层次不一,相对而言发表在核心期刊的论文研究层次更深一些也有更高的影响力,为了更准确分析当前搜索引擎研究的热点和发展趋势,对以上检索结果数据进行抽样,选取发表时间为近五年即2007-2011年的且发表在核心期刊的搜索引擎论文,共检出346篇,除去其中学术会议征稿通知14篇新闻报道等与主题无关的5篇剩下327篇,通过对这些论文的关键词、摘要及部分全文进行阅读,并参考张小娣等著的《基于科学知识图谱的搜索引擎前沿分析》一文,将搜索引擎研究的论文主题可分为10大类,如表7所示。


  根据以上表格对搜索引擎论文主题的热点分析如下:


  (1)关于搜索引擎原理剖析与设计的论文有54篇,占所有论文的16.51%。搜索引擎的基本原理是搜索引擎技术继续发展的基础,基于Lucene技术的搜索引擎设计受到关注,Lucene是一个高性能、易扩展的基于Java技术的全文信息检索工具包,它能非常方便地为各种应用程序加入全文索引和搜索功能。在上面的高频关键词排序中Lucene排名第六,可见其受关注程度很高。


  (2)关于搜索引擎类型与功能的有101篇,占所有论文的30.89%,搜索引擎的功能决定搜索引擎能在多大程度上满足用户的需求,在搜索引擎研究中有着非常重要的地位。其中元搜索引擎和垂直搜索引擎(专业搜索引擎)是研究的一大热点。这两个主题的论文就有镐篇,信息膨胀速度远远超过了搜索引擎检索范围,一个搜索引擎通常不能找到用户所需的全部信息,用户在进行检索时需要在多个搜索引擎间进行切换,在这种情况下,元搜索引擎出现了,它有效解决了独立搜索引擎信息覆盖率不足和查准率不高的问题。元搜索引擎是一种基于搜索引擎的搜索引擎。亦称“搜索引擎之母”。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将各独立搜索引擎返回的所有查询结果集中处理后再返回给用户。这种方式增加了检索的范围,检索结果覆盖率显著增加,起到了整合网络资源的功能。近年来对搜索引擎的新的探索如面向跨领域海量信息资源的元搜索引擎研究,采用多领域本体、语义Web和Web2.0技术,较好地解决了元搜索引擎的协助用户准确表达搜索意图、消除检索词的“一词多义”和“多词一义”现象、设计自动调整检索范围的机制以及发挥用户价值4个关键问题。垂直搜索引擎是应用于搜索某一学科领域或某一类信息(如图像、影像)的专业搜索引擎,又称为专题搜索引擎、专门搜索引擎,是搜索引擎的细分和延伸。是专为查询某一学科或主题的信息而产生的查询工具,是相对综合搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式。目前热点主要集中于各类垂直搜索引擎的设计,如混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计,基于Nutch的垂直搜索引擎的设计等。智能搜索引擎和个性化搜索引擎也是研究的热点,此外还有学术搜索引擎、农业搜索引擎、博客搜索引擎、人肉搜索引擎、少儿搜索引擎、军事搜索引擎等,这些功能各异的搜索引擎是垂直搜索引擎的具体体现。


  (3)关于搜索引擎应用的有62篇,搜索引擎在各领域都有广泛的应用,如在科技查新中的应用,在图书馆个性化信息服务、数字图书馆中的应用,在教学课程设计中的应用等,其中突出的是搜索引擎在商业领域的应用,由于巨大的商业价值及应用前景使得搜索引擎优化(SEO)和搜索引擎营销(SEM)成为当前搜索引擎研究的一大热点。仅二者的论文就有35篇,占所有论文的10.61%。该领域热点集中于搜索引擎营销的效果、模式、策略分析,如姜旭平等人关于影响搜索引擎营销效果的关键因素分析,文涛关于搜索引擎营销模式及其安全性分析,方英等人关于旅游业搜索引擎营销策略研究等。


  (4)有关搜索引擎的算法有23篇,所论及的搜索引擎结果排序、聚类、融合等算法都是提高搜索引擎质量的重要技术。其中基于链接分析的页面排序算法一直是一个热点,是搜索引擎要解决的关键问题之一。Google之所以成为世界最大搜索引擎和它采用的页面排序算PageR-ank算法是分不开的。国内的学者也一直在探索希望在这一方面有所突破。郝伟等人提出了一种基于PageRank算法的改进搜索结果融合算法。孔德镛等人提出一种基于遗传算法的网页排序算法,李建廷提出基于模糊积分的元搜索引擎结果排序算法,秦杰等人提出基于本体的元搜索引擎4级结果处理算法,吴文昭提出搜索引擎页面排序融合算法等。


  (5)关于搜索引擎用户行为、兴趣分析的有11篇。随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石。对用户行为进行分析和研究主要基于网络用户行为日志,用户查询主题、用户浏览时间和页面点击等用户行为特征,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。文献给出一种基于Ha-doop的海量日志数据处理模型,对Sogou索引擎用户搜索行为进行分析。文献通过问卷调查的方法,对高校学生使用搜索引擎的行为进行实证研究。文献对7.56亿条真实网络用户行为日志进行分析和研究,考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。


  (6)关于搜索引擎所涉及的法律、伦理问题的有14篇。随着越来越多的商家利用搜索引擎关键词来宣传其网站、推广其商品或服务,与之相关的法律、伦理问题也开始引起人们的重视。主要集中在和搜索引擎相关的知识产权侵权、知识产权管理、对竞价排名的论证等。文献[29]通过比较和分析中国法院与欧盟法院在因搜索引擎关键词而引发的商标权侵权案件作出判决的差异。提出对于搜索引擎服务商的监控义务以及混淆原则应用问题的看法。文献通过构建了企业知识产权管理指标体系,对于Google、Baidu、Yahoo、Live、Sogou、Soso、XinhuaandYoudm等搜索引擎企业的知识产权管理绩效进行了测评。文献通过分析竞价排名的运作模式和辨析新媒体环境下的“广告”概念,论证竞价排名的广告属性,并提出当务之急规范竞价排名的主要法律措施。同时信息伦理与搜索引擎的关系也受到关注文献从信息伦理学的角度,对搜索引擎的社会责任与商业利益问题、检索结果相关性与算法透明度问题、个性化服务与用户的隐私保护问题以及信息获取自由与信息审查过滤问题进行了详细的分析。


  (7)关于搜索引擎评价及存在问题的有22篇。全面、客观、公正地评价搜索引擎系统,不仅为用户选择搜索引擎提供科学依据,而且可以促进搜索引擎技术的提高,近年来国内学者对这一领域的研究如:朱庆华等人利用基于指数标度的层次分析法确定各项指标的权重,从而构建搜索引擎评价指标体系。张国海等人构建出基于熵权的搜索引擎评价指标体系。苏君华从内容、技术、界面、用户、服务、环境等6个方面系统地梳理了搜索引擎的评价研究。


  (8)关于搜索引擎综述、现状、发展趋势的有14篇,随着人工智能技术的发展,搜索引擎最新的研究逐渐走向智能化、个性化、专题化、集成化。吴晓晖等人通过对国内外几个具有代表性的搜索引擎的对比分析,得出当前搜索引擎研究热点是自然语言处理、语义理解、实时搜索、交互式引导系统。多网页信息分布融合搜索将会成为以后搜索引擎研究趋势之一。刘阳等人通过国内搜索引擎学术论文的知识图谱研究指出搜索引擎关键技术的研究仍将是近一段时间研究的重点和热点。智能化的搜索引擎必将成为将来学术界关注的重点。邱均平等人运用知识图谱方法对国际网络搜索引擎领域1999-2010年的相关文献进行多角度的定量定性分析,指出当前研究热点为搜索引擎的基本理论研究、检索效率研究、用户行为研究、语义网研究、医学引擎研究等。


  (9)其它和搜索引擎相关的研究主要有不同搜索引擎之间以及搜索引擎对其它领域的影响等。讨论搜索引擎比较的有16篇。比较类的文献内容跨度大,有不同种类搜索引擎的比较,也有同一种类不同搜索引擎的比较。还有中外搜索引擎的比较等。通过比较发现差距、优势,将有利于搜索引擎的进一步完善。关于搜索引擎对其它领域的影响的有10篇。搜索引擎对很多其它领域发展都有影响,最主要的是对传统媒体、图书情报和商业营销领域的影响。


  3、结论与展望


  根据以上对搜索引擎论文的定量定性分析,可以看出搜索引擎的基本原理和关键技术,元搜索引擎、垂直(专业)搜索引擎、个性化和智能化搜索引擎研究,搜索引擎的应用及商业价值,搜索引擎相关的知识产权等法律问题等是目前搜索引擎研究的热点。搜索引擎的目标开始由发现信息转变为帮助用户解决问题,搜索引擎的服务对象也正从针对所有人转为特定人群,所以改变搜索引擎查准率不高以及对检索结果排序不合理的现状,从而以满足各类互联网用户的需求必然是未来的搜索的目的,这决定了搜索引擎的发展趋势必然是朝着更直观、精准、智能化、人性化的发展方向。各类具有独特功能的搜索引擎如学术搜索引擎、农业搜索引擎、博客搜索引擎等,就是这个趋势的具体体现。同时搜索引擎的商业价值以及与之相关的各类法律、伦理问题也更加受到学者们的重视,在搜索引擎的未来发展中,必然会在这一方面进行完善,那些为用户提供良好服务,同时不为了盈利而损害用户利益的搜索引擎才能得到很好的发展。


  作者:王燕平