近10年SCI收录生物医学领域文本挖掘研究文献计量学分析

  • 投稿掌蘑
  • 更新时间2018-03-28
  • 阅读量741次
  • 评分4
  • 85
  • 0

  摘要:本研究以美国科技信息研究所出版的《科学引文索引》(sci)为数据源检索2004~2013年生物医学领域文本挖掘文献,并从年度变化、国家/地区分布、作者等方面进行文献计量学分析。结果显示:全球生物医学文本挖掘文献总量呈上升趋势。而对其进一步的研究,必将促进文本挖掘技术的进步和成熟,从而也为生物医学领域的发展注入新的活力。


  关键词:文本挖掘;生物医学;发展动态;文献计量学;SCI


  文本挖掘(Textmining)是数据挖掘的一个方向,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘[1]。1988年,Swanson教授在MEDLINE的生物医学文献中发现了诸如镁缺失与偏头痛的医学关系[2]并获得了实验的验证。至此之后,强有力的文本挖掘工具在现代生物医学研究中扮演着越来越重要的角色。本研究采用文献计量学的方法,对SCI数据库收录的2004~2013年间生物医学领域的文本挖掘相关文献从年度变化、国家/地区分布、作者等方面进行文献计量学分析,旨在了解该领域的研究现状和发展趋势,以期为后续的研究提供参考


  1方法


  笔者所统计的文献数据全部来源于美国ISI的SCI网络版(SCIofWeb),以与文本挖掘相关的自由词textmining,Literaturemining,Knowledgediscoveryintext,Textdatamining和以生物医学相关的自由词Biomedicine,Systemsbiology,Medicine,Genomics,Proteomics,Metabolomics,Bioinformatics,Biology,TraditionalChineseMedicine对上述数据库进行主题词搜索。然后对下载的所有文献进行数据的筛选和清理后,最终选择纳入文献797篇。检索完成时间为2014年3月20日。


  2结果


  2.1年度发表量我们整理出来的2004~2013年生物医学领域文本挖掘文献总共有797篇,每年的发文数量从2004年的43篇到2013年的124篇,总体呈现增长趋势。


  2.2国家/地区经统计,在所有797篇文章中总共有53个国家参与了文章的发表,遍及全世界五个大洲,但各个大洲的对该领域的研究极不平衡。虽然欧洲有着最高的发文总量,但是北美洲的美国却以最高发文量(289篇)位居全球国家排名的第一位,紧随其后的是英国(125)和中国(82).


  2.3高被引论文根据普赖斯定律[3]可以算出在纳入统计的文献中被引频次≥42的为高被引文献(注:Mp=42.21,Npmax=3177)。797篇文献中被引频次≥42的论文共79篇。高被引论文排名前3位的文章为。《SystematicandintegrativeanalysisoflargegenelistsusingDAVIDbioinformaticsresources》(被引3177次),《TheGeneOntologyAnnotation(GOA)Database:sharingknowledgeinUniprotwithGeneOntology》(366次)和《RegulonDB(version6.0):generegulationmodelofEscherichiacoliK-12beyondtranscription,active(experimental)annotatedpromotersandTextpressonavigation》(274次)


  2.4核心作者分析在生物医学领域文本挖掘研究的797篇文献中,共有2565位作者(包含所有合著者),根据普赖斯定律,核心作者最低发文数m的值为:。其中指发文最多的作者发表的论文数。本次研究中为23,故m取整数为4。作者论文4篇以上为80人,其发表的论文为468篇,占总论文量58.7%,高于总论文数的50%,说明在生物医学领域的文本挖掘研究已经形成了较为稳定的研究群体。


  3结论


  2004~2013年以来发文数量总体呈现增长趋势。全球大约有60%左右的文章都是通过国家间合作完成的,美国是发表文章最多的国家,其次是英国和中国。目前文本挖掘技术在生物医学中的应用还处于不断的研究和发展阶段,但国际上对该领域的认识正不断提高,初步形成了一批在该领域的核心研究地区、核心作者和核心研究领域。


  致谢:衷心感谢北京市“青年英才计划”基金(YETP0821)的支持。


  作者:郭凤英等