基于中间释义库的数据集成方法研究

池斌 CHI Bin；李军生 LI Jun-sheng；邸凯 DI Kai；王海涛 WANG Hai-tao

（长春市长沈路9599号，长春 130103）

（Changchun Changshen Road No.9599，Changchun 130103，China）

摘要：现有的数据集成方法，多是面向英文语言，对于中文管理系统，很多方法并不适用。本文提出一种嵌有中间释义库的数据集成系统，利用本体语言具有通用性的特点，解决中文语义变化造成的集成困难，并在设备信息管理系统做了简单验证。

Abstract： Normal data integration method usually directed towards English, but to the Chinese MIS, it couldn´t work. So this paper puts forward the data integration system with a mid meaning explanation warehouse, utilizes the ontology language to deal with the problem of meaning change in the integration, and validates it in the equipment information manage system.

教育期刊网 http://www.jyqkw.com
关键词：中间释义库；数据集成；本体论

Key words： mid meaning explanation warehouse；data integration；ontology theory

中图分类号：TP311.1 文献标识码：A 文章编号：1006-4311（2014）34-0211-03

作者简介：池斌（1982-），男，黑龙江富裕人，助理工程师，硕士。

0 引言

随着信息技术在各个领域的广泛应用，信息量呈爆炸式增长，然而由于这些信息的存储环境、采集系统以及软硬件实施平台的差异，造成数据难以在各个平台间交流共享，给数据的有效利用造成很大的障碍，信息系统中因数据格式差异造成数据使用困难的问题被称为异构问题。[3]现有情况是人们常常抱怨“数据丰富、信息贫乏”，究其原因，一方面是数据分析技术不足，另一方面是信息系统运行中出现了“脏数据（Dirty Data）”，其主要表现为拼写错误、数据值缺失、格式不一致、不规范简写、定义重复、噪声数据等，含有脏数据的数据集不能直接用来决策，必须经过一定的清洗、集成处理才能使用。

数据集成方法的研究在国外开展较早，形成的工具较多，如匹配算法中的Smith Water man 算法、Consine相似函数法等，[2-4]但是很多方法并不适合中文信息的集成处理。

因此，本文提出一种基于中间释义库的数据集成系统，通过中间释义库的转换作用来实现中文问题的数据集成。

1 数据集成存在问题

1.1 中文信息集成存在主要问题 ①中文语义变化较大。中文词语的语义在不同环境下变化较大，如设备信息管理系统中的“单位”字段，本意是指计量单位，而录入人员却填上了工作单位，由于表达习惯的不同所造成的差别则更加明显。②元数据缺少。多数中文管理信息系统开发只是在小范围内使用，且很多各自为战，致使缺少可共享的元数据，造成数据集成处理非常困难。

1.2 本体论方法本体原是哲学上的概念，原意是指世界各类具体事务具有的一般规定、一般本质、一般规律，是普遍存在于各种各类具体事务之中不可被感知但是可被人知道的相对抽象事物。[5]在信息科学领域，本体被广泛接受的定义为“本体（Ontology）是共享概念模型的明确的形式化规范说明”，[6]其定义包含四层含义：共享（Share）是指本体体现共同的知识基础，即使对不同的参考者其表述也不会产生误解歧义；概念模型（Conceptualization）是指通过抽象出客观世界中一些现象的相关概念而得到的模型；明确（Explicit）是指所使用的概念及使用这些概念的约束都有明确的定义；形式化（Formal）是指本体的语言是计算机可读的。

基于上述分析，借鉴ETL的方法，本文提出一种利用本体构建中间释义库，处理中文数据集成的成系统——基于中间释义库的数据集成系统（Data Integration system based on the Mid-Meaning Explanation Warehouse, DIME）。

2 设计思想

首先构建元数据管理模块，参考OMG（Object Management Group）提出CWM元数据标准，主要目的是实现对组成数据仓库系统的各个部分之间，元数据的交换共享最大化。[7]本文引用上述标准，是由于该标准是一个通用性较好的标准，可以实现尽可能多的数据库之间的通用。

利用DIME从源数据中抽取关系数据、文本数据等，先通过格式检查，再导入中间释义库进行转换。中间释义库有两个作用：一是将数据转换为一种基于OMG元数据标准下的数据；二是将原始数据源的元数据进行转换处理。然后将转换过的结果载入数据仓库中，最后通过OLAP工具（服务器、设计工具、前端和报表工具）展现给用户。

2.1 DIME框架图1所示本文案例，DIME需要元数据抽取、数据抽取建立中间释义库，经过筛选、处理的数据通过中间释义库进入MEDC元数据库——用于存储有价值、可有效运用的信息数据，MEDC元数据库可通过通用的本体数据载体方便地使分系统实现信息互交。

2.2 中间释义库的运行流程

中间释义库运行：DIME在抽取数据源数据之后先进行分类，区分数据源数据和数据源元数据，对数据源数据进行筛选，经处理后进入MEDC元数据库，对数据源元数据通过映射模块处理进入MEDC元数据库，图2是对中间释义库运行过程的描述。

3 关键技术

3.1 中间释义库构建因为中文处理存在很多个人理解差异，所以构建中间释义库必须在了解原始数据真实内涵的情况才能进行，此时需要依靠专家知识进行转换。本文案例利用一个全局本体的方法来解决元数据描述问题。

在DIME系统中，目标数据库与数据源之间的交互是通过中间释义库实现的。系统将元数据库管理模块定义的映射规则，按一定的格式存入元数据库中，其中最主要的格式是源数据表与目标表的映射关系、数据列之间的变换操作表。

3.2 元数据转换基本过程因为数据源的元数据与DIME的元数据可能不同，所以在数据集成或处理时需要解析数据源元数据，并最终通过DIME进入MEDC元数据库。

图3中的映射从内容上可分为三类：一是元数据标识，标识的识别相对容易，重点是将原标识转换为与目标标识一致的类型；二是明确语句含义，将语句的真实内涵描述清楚，该过程需要专家知识；三是相同字符的概念区别，数据源元数据使用的概念与DIME元数据可能不同，如图1中的“单位”字符的概念有所不同。

映射从执行过程上可分四类：一是直接写入，二是更改标识，三是合并写入，四是删除重复，如元数据已经存入DIME中，则可将数据源中相应的元数据删除。

同时，设计者可以根据自己兴趣定义个性化的数据输出，如在本文案例中，设备生产厂关注用户“反馈意见”，因此通过在DMEC中添加限制条件，用户分析表可直接输出“设备名称”、“用户反馈”的数据记录，表1描述本文案例所建中间数据库的数据信息。

3.3 元数据输出形式为解决所得元数据通用性不高、调用困难等问题，DIME将元数据分成两类，一类是完全公允的内容、不会产生歧义的，另一类是容易产生歧义的，对这两类元数据分别做不同处理。首先，运用结构化语言对第一类元数据进行存储，本文案例采用XML进行存储，XML语言是一种通用的数据交换载体，利用XML作为过程语句的结果展示方式，可方便地在MEDC系统中不同模块间传达交互信息；[8]其次，容易引起歧义的元数据，在不同的系统间，通常具有不同内涵的元数据项，除了用结构化的语言进行描述之外，也可用文本型格式进行说明。

4 案例验证

利用结构化语言对元数据进行存储，利用XML结构语句对本文案例进行描述。

通过处理后，“设备名称”输出XML结构化语句，用户“用户反馈”输出系统中“consumer reflection”的存储地址链接。

5 结束语

随着数据集成技术研究的不断深入，中文数据集成问题将越来越受到重视，本文提出一种利用本体描述语言建立“中间释义库”的方法，来解决中文数据集成问题，并在企业设备生产销售数量数据数据源中进行了简单应用，证明该方法是可行的，但本文对中间释义库的研究仅仅是一个开始，还有待进一步的深入研究。

教育期刊网 http://www.jyqkw.com
参考文献：

[1]Natalya F Noy, Deborah L McGuinness. Ontology Development 101: A Guide to Creating Your First Ontology [R]. Stanford Knowledge Systems Laboratory Technical Report Ksl-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880,2001.

[2]周奕辛.数据清洗算法的研究与应用 [D]. 青岛大学，2005.

[3]Monge A, Elkan C. The Field Matching Problem: Algorithms and Applications [C]. I n: Proceedings of the 2nd International Conference of Knowledge Discovery and Data Mining Portland, Oregon, 1996.

[4]Salon G, Mcgillm J Introduction to Modern Information Retrieval [M]. New York: McGraw-Hill Book Co.,1983.

[5]http://baike. Baidu.com/view/29987.html.

[6]Stefen Decker, Michael Erdmann, Dieter Fensel, et al. Ontobroker: Ontology based access to distributed and Semi-structured information [M]//Meersman R, et al. Semantic Issues in Multimedia Systems, Procedings of DS-8, kluwer Academic Publisher, Boston, 1999: 351-369.

[7]Common Warehouse Metalmodel (CWM) Specification Version 1.0, 2 February, 2001.

[8]Manolescul, Florescu D, Kossmann D. Answering XML Queries over heterogeneous data sources[Z].The 27th VLDB Conference Roma, 2001.