本文指出了当前高校信息化建设中存在的问题,分析了信息化数据标准代码集的构建方法,给出了通用的高校异构系统数据整合模型。该整合模型可以有效地打通原本业务系统中的“零散数据”,消除“信息孤岛”现象,推进高校的信息化建设。
一、引言我国高校信息化建设经过多年的发展,各个高校都开发了许多业务应用系统,应用系统给日常数据管理带来了很大的便捷,然而随着时间的推移,高校应用系统数据主要存在以下四个问题:
1.数据冗余和数据不一致
目前高校应用系统中积累了大量的基础数据,各个应用系统的运行使用都是基于基础数据之上的,但是如果某个系统中的基础数据发生修改,其余的应用系统却仍然使用原有的数据,这样就造成了数据的重复性和多样性。
2.信息资源可用程度较低
高校一些应用系统集成度低、互联性差,数据的完整性、及时性已经越来越不能满足日常业务的需求。高校单位虽然已经建立了内部网和互联网,但多年来由于应用系统大多为分散开发,应用系统之间形成了“信息孤岛”,缺乏可共享的、可用度高的信息资源体系。
3.信息资源存储空间利用率低
高校基础数据都分散在各个应用系统中,应用系统重复的基础数据和业务逻辑数据会对信息资源存储造成极大的浪费。并且由于物理存储中“垃圾信息”较多,也会影响应用系统的有效信息查询速度。
4.缺乏统一的数据标准和规范
由于各个高校应用系统中缺乏统一的数据标准和规范,所以无法从庞大的基础数据中形成有效的数据积累,并且在数据统计和上报时准确性不高,无法给领导决策提供有效的数据支持。
以上问题使得大量的高校基础数据处于低水平的自治共享上,众多数据资源成为孤立、离散的“信息孤岛”,有必要对其进行整合,建立统一的数据标准,进行大范围、有效的数据交换共享。
二、文献综述
1.ETL技术
ETL,是英文单词(Extract,Transform,Load)三个单词的缩写,用来描述将数据从源端数据源经过抽取(Extract)、转换(Transform)、加载(Load)至目的端数据仓库的过程。ETL是构建数据仓库的重要步骤,如果把数据比作构建高楼大厦的砖瓦,那么ETL就是建造高楼大厦的过程。
ETL过程中,抽取主要是解决数据异构的问题,可以看做是从多个数据源将数据输入到统一的数据存储中。数据的转换和清洗是解决“脏数据”的问题,其主要任务就是检测和修复脏数据(消除错误或者不一致的数据),提高数据质量[1]。数据加载则是将处理后的数据从统一的数据存储加载到目的端数据仓库中,传统的ETL转换模式如图1所示。