本文指出了当前高校信息化建设中存在的问题,分析了信息化数据标准代码集的构建方法,给出了通用的高校异构系统数据整合模型。该整合模型可以有效地打通原本业务系统中的“零散数据”,消除“信息孤岛”现象,推进高校的信息化建设。

  一、引言

  我国高校信息化建设经过多年的发展,各个高校都开发了许多业务应用系统,应用系统给日常数据管理带来了很大的便捷,然而随着时间的推移,高校应用系统数据主要存在以下四个问题:

  1.数据冗余和数据不一致

  目前高校应用系统中积累了大量的基础数据,各个应用系统的运行使用都是基于基础数据之上的,但是如果某个系统中的基础数据发生修改,其余的应用系统却仍然使用原有的数据,这样就造成了数据的重复性和多样性。

  2.信息资源可用程度较低

  高校一些应用系统集成度低、互联性差,数据的完整性、及时性已经越来越不能满足日常业务的需求。高校单位虽然已经建立了内部网和互联网,但多年来由于应用系统大多为分散开发,应用系统之间形成了“信息孤岛”,缺乏可共享的、可用度高的信息资源体系。

  3.信息资源存储空间利用率低

  高校基础数据都分散在各个应用系统中,应用系统重复的基础数据和业务逻辑数据会对信息资源存储造成极大的浪费。并且由于物理存储中“垃圾信息”较多,也会影响应用系统的有效信息查询速度。

  4.缺乏统一的数据标准和规范

  由于各个高校应用系统中缺乏统一的数据标准和规范,所以无法从庞大的基础数据中形成有效的数据积累,并且在数据统计和上报时准确性不高,无法给领导决策提供有效的数据支持。

  以上问题使得大量的高校基础数据处于低水平的自治共享上,众多数据资源成为孤立、离散的“信息孤岛”,有必要对其进行整合,建立统一的数据标准,进行大范围、有效的数据交换共享。

  二、文献综述

  1.ETL技术

  ETL,是英文单词(Extract,Transform,Load)三个单词的缩写,用来描述将数据从源端数据源经过抽取(Extract)、转换(Transform)、加载(Load)至目的端数据仓库的过程。ETL是构建数据仓库的重要步骤,如果把数据比作构建高楼大厦的砖瓦,那么ETL就是建造高楼大厦的过程。

  ETL过程中,抽取主要是解决数据异构的问题,可以看做是从多个数据源将数据输入到统一的数据存储中。数据的转换和清洗是解决“脏数据”的问题,其主要任务就是检测和修复脏数据(消除错误或者不一致的数据),提高数据质量[1]。数据加载则是将处理后的数据从统一的数据存储加载到目的端数据仓库中,传统的ETL转换模式如图1所示。

       图1 传统的ETL转换模式        图2 ODI(E-LT)转换模式

  2.Oracle Data Integrator

  Oracle Data Integrator(简称ODI)是一个功能全面的数据集成工具,与Oracle数据库配合使用,可进行高性能批量加载,支持事件驱动和SOA数据服务。

  在图2中大家可以看出,在E-LT结构中,首先从各个数据源中抽取数据,然后把数据直接装载到目标数据库中,在目标数据库中完成数据的转换工作。传统的ETL转换由于需要ETL服务器,所以需要额外的硬件投入,而E-LT转换过程省略了中间节点,充分利用了目标数据库服务器,减少了解决方案的成本。

  3.高校异构数据整合研究现状

  围绕数据整合和ETL技术这两个方面,国内外研究人员进行了一系列的研究工作。关于ETL技术方面,2003年通过UML标准化来对ETL过程中不同数据源和目标之间的转换属性进行重新的定义,避免出现错误的商业决策[2]。2005年Simits,A给出了ETL工作流算法,对ETL中的执行时间进行优化操作[3]。2007年牟青等以自行开发的异构数据整合工具为背景,讨论了审计监控子系统的设计与实现方法[4]。2012年唐钰等提出了一种基于逆向清理的异构数据整合模型,该模型能同时提高原始数据和目标数据的质量[5]。关于数据中心建设,2006年王涌通过从数据中心标准集的建设出发,结合本校示例对实施过程中的相关问题进行了讨论和研究[6]。2008年陆子平从硬件建设角度介绍了高校数据中心的建设思路和架构[7];2012年孟凡立等对高校数据中心关键设备的选择及虚拟化进行了深入分析,从云计算平台的角度给出了一套数据中心建设方案[8]。

  以上研究工作的重点只是单单从硬件角度给出数据中心设计方案或者只是从ETL技术层面来给出如何优化数据清洗整合的过程,而对于如何从结合高校本身的特点来对高校数据进行整合却没有给予太多的关注。鉴于以上问题,本文的研究重点是从实际应用出发,根据高校业务系统的实际应用情况,讨论高校数据标准集设计方法,给出几种不同的数据通用交换模型,以此来提高高校业务系统数据的利用率。

中国教育信息订阅号二维码
中国教育信息微信服务号