我国电子信息领域的技术监测研究

  • 投稿Fan
  • 更新时间2015-09-16
  • 阅读量941次
  • 评分4
  • 97
  • 0

杨虎 YANG Hu

(甘肃工业职业技术学院,天水 741025)

(Gansu Industry Polytechnic College,Tianshui 741025,China)

摘要: 本文通过对电子信息领域技术监测的概述,以信息文献中“主题”的建模为切入点,构建“文档-特征词-主题”三层拓扑结构的主题模型,并且设计并构建基于开源平台的科技监测原型系统。

Abstract: Through the overview of the technology monitoring in electronic information field, this paper takes the modeling of "theme" in information documentation as the pointcut to build the three layer topological structure theme model of "document - key word- theme" and design the monitoring prototype system of science and technology with the open source platform.

教育期刊网 http://www.jyqkw.com
关键词 : 电子信息;技术监测;主题模型

Key words: electronic information;technology monitoring;topic model

中图分类号:TN015 文献标识码:A

文章编号:1006-4311(2015)06-0241-02

0 引言

电子信息产业对促进国民经济发展具有重要的作用,随着电子信息技术的不断发展,加强对电子信息领域的技术监测是对解决电子信息产业发展中的一些问题具有一定的指导意义,同时还可以为相关企业提供比较可靠的定量分析依据,因此研究电子信息领域的技术监测具有重要的意义。为更加清晰具体的分析电子信息领域的技术监测,本文选择科技信息监测技术为例进行分析。

1 技术监测的概述

1.1 技术监测的概念 技术监测是对过去、现在以及未来科学、技术、经济以及社会的系统研究,是以科学技术信息、数据为基础,通过电子信息技术手段,结合相关智力方方面的专家,对科学活动进行的监视、测量以及分析的方法。技术监测的目的就是通过对技术管理活动的监测提供相关的动态信息,从而提高人们应用电子信息技术的水平。

1.2 技术监测的特点 ①科学性。技术监测是对各种数据库、科技文献以及互联网络的信息资源进行数据挖掘,从而为社会的决策提供广泛的数据支持,因此技术监测必要要具有科学性,不能随意的对相关数据进行分析与定性;②经济性。技术监测可以通过对小范围的数据库等进行发现,就可以获得我们所需要的科学数据,从而避免了传统信息评估过程中高成本运作;③独立性。技术监测就是从大量的科技资源数据中发现显性以及隐性的信息资源的过程,这一过程不受任何方面的限制,因此其具有严格意义上的独立性。

2 基于LDA主题模型的科技检测体系

如何在众多的科技文献中发现与抽取文献中具有隐形的语义结构,是当前信息领域监测所主要面对的问题,而LDA主题模型文档建模就是以“主题”为研究对象,通过构建拓扑结构文档表示空间,以此研究科技文献中如何进行主题挖掘的监测问题。

2.1 主题的定义 主题在广义上属于对整个文献的概述与汇总,是对文献思想的升华。在确定“主题”前需要认清教育期刊网 http://www.jyqkw.com
关键词 、主题词、主题之间的关系,根据文献的思想观点,主题的内涵形式化表达方式多样,根据具体的文献资料,文献内容特征表示深度排序为:主题>主题词>教育期刊网 http://www.jyqkw.com
关键词 。在主题建模表示中,文档的内容一般包括若干个主题,而文档中的特定词汇则可以表现为建模的特定主题,比如我们在分析一篇“文本挖掘”,一半内容属于自然语言处理、五分之二属于概率统计,五分之一属于计算机,另外五分之一表示其它主题:自然语言处理容易出现的词汇包括:文本处理、语法、句法分析以及数据预处理;概率统计容易出现的词汇:概率、模型、召回率以及准确率;计算机容易出现的词汇:系统、时间复杂度、空间复杂度。

2.2 基于主题模型的科技监测体系结构

2.2.1 相关问题分析 基于主题模型的科技监测体系结构主要解决以下问题:如何从大规模的领域文本中发现挖掘隐含的主题?如何对主题的强度进行度量?如何分析主题演化?如何结合科技监测服务内容以扩展基于主题模型的衍生应用?

2.2.2 科技监测体系结构 首先将收集的领域文档集合进行时间片划分和文档与处理工作;其次依照LDA主题建模方法对已处理的文档集合后形成的特征词进行主题建模,从而挖掘隐含的主题;最后进一步挖掘主题模型在科技监测中的深层次应用。

3 基于主题模型的电子信息技术检测原型系统设计

3.1 信息技术监测原理系统设计 信息技术监测就是对我国的信息资源进行相关的信息处理预计分析,实现对我国电子信息活动的评估与监测,根据主题模型信息监测系统总体分为三层结构模式,即数据层、逻辑层以及服务层。具体设计如下:

3.1.1 数据层 数据层主要是从相关信息的来源角度分析,监测的数据源主要是来源于我国各大文献数据库:电子信息期刊、电子报告以及电子产品文献等,因此这些资源载体是构成数据层的主要数据库,数据需求库是储存电子信息文献结构化数据,并且通过数据访问接口与逻辑层进行交互。

3.1.2 逻辑层 逻辑层是整个信息监测系统的核心,也是数据层实现分析建模的过程,逻辑层设计为三层结构的多元化监测模型,第一层为文献计量学层;第二层为社会网络层,它是运用社会网络技术方法从网络拓扑结构实现对中心度测量的监测指标;第三层是主体建模层,它主要是通过建模的方法对潜在的语义进行自动化的分析,从而找出主题。

3.1.3 服务层 服务层主要分为基础监测服务和衍生监测服务。基础检测服务就是基于主题模型的方法对主题监测识别和追踪,是该该系统进行演示的主要部分。衍生检测服务主要是基于主题模型的拓展应用考虑。

3.2 实验数据准备

3.2.1 实验数据载体 对科技信息的监测主要是建立在科技文献的载体形式上,通过对科技文献载体的数据分析获得实验数据,本文选择科技报告作为实验数据载体形式。在对科技报告进行建模前要对科技报告的特征进行准确的分析,以便能够准确的反应科技信息监测技术。科技报告文献具有以下特征:①蕴含明确的学术主题。可以说每篇科技文献都具有清晰的研究主题,而且基于科技研究对象的严谨性,每篇文献的构成词也具有科学严谨的特征,因此可以直接用文献中的构成词来表示主题;②科技报告都具有较高质量的文本内容和文档结构。整个科技报告的内容都比较完整,噪声存在的可能性非常少,而且企业拥有清晰的文档结构,可以根据不同的研究对文档进行分割;③科技报告的题名等能够准确的反映全文的内容特征。

3.2.2 数据加工 本文研究的实证数据来源于国家科技图书文献信息中心数据库,选择“微博放大器”和“功率放大器”领域,检索的条件为题名、教育期刊网 http://www.jyqkw.com
关键词 以及文摘,检索时间截止到2013年12月30日,经过相关筛选得出446篇科技报告文学。但是由于我国科技报告的数据库功能相对还有许多不完善的地方,因此无法直接实现已经分割的特征元数据,需要人工将下载的文档数据进行数据转换、数据预处理以及数据格式化。数据转换我们都知道就是讲下载的文档转化为模板的数字形式;数据预处理主要包括:特殊符号的归一化处理,比如将文档中的一些符号进行删除处理,实现字符的统一性,比如对阿拉伯数字进行删除保证相关数据被系统认可、对文档中的一些停用词进行抽取,而对于抽取的词汇则用分隔符“;”代替、根据科技报告的数据将其按照年份进行划分,一般以10年为一跨度的原则进行划分。

3.3 实现工具平台 到目前为止,针对LDA主题模型有了很多版本的软件,本文主要采取Gildable开源工具进行主题建模,实现原型系统。Gildable是一种基于Java的版本,其主要采取Gibbs采样技术进行参数估计与推理。

4 结束语

总之,通过对电子信息领域内技术进行检测可以及时掌握最新的电子信息技术,从而为电子信息技术的发展提供具体的发展细节,为电子科技人员提供我国以及世界上先进的电子技术科研成果,提高电子信息技术相关文献的利用价值,是对电子信息领域监测的主要任务与使命,通过对电子信息领域的建模监测技术可以促进我国电子信息技术的不断发展。

教育期刊网 http://www.jyqkw.com
参考文献

[1]任志安,王一刚.《电子信息领域“十二五”技术标准体系建设方案》解读[J].信息技术与标准化,2014(10).

[2]李树涛.浅谈电子信息技术的应用特点[J].电子世界,2014(07).

[3]李丹.我国电子信息技术发展中的问题及趋势研究[J].电子制作,2013(07).

[4]张金松,陈燕,刘晓钟.基于主题模型的文献引用贡献分析[J].图书情报工作,2013(02).