随着高校信息化工作的不断深化,特别是基于数据的决策支持的重视,对数据质量的要求也渐得到各方重视。一方面,数据规模日益庞大,对师生的数据服务的要求也在不断拓展、提高,包括数据基础整理、查询统计、向普通用户提供信息咨询、对管理层提供决策依据;另一方面,各级教育部门、全社会各行各业、高校本身管理和服务部门对高校教育统计信息都越来越重视,统计数据在政策决策、科研管理、教育质量评估等方面被广泛应用。
随着高校信息化工作的不断深化,特别是基于数据的决策支持的重视,对数据质量的要求也渐得到各方重视。一方面,数据规模日益庞大,对师生的数据服务的要求也在不断拓展、提高,包括数据基础整理、查询统计、向普通用户提供信息咨询、对管理层提供决策依据;另一方面,各级教育部门、全社会各行各业、高校本身管理和服务部门对高校教育统计信息都越来越重视,统计数据在政策决策、科研管理、教育质量评估等方面被广泛应用。数据质量的概念
图1将数据质量的常用评估标准按照4个不同的方面进行了描述。可获得度指用户获得数据的可能性和便利程度,在收集数据之前,用户必须要考虑能否得到、怎样得到数据。可理解度是指数据必须是用户可以理解的,包括语法、语义等,使用户可以理解数据,从而才可挖掘数据,这是基础的要求。可信度是对数据的真实性的测度,可信度相对较抽象、主观,可具体再划分为准确性、一致性、完整性、唯一性、可靠性等具体的维度进行评估。可用度是指数据对于用户的效用的大小,数据是准确的但是不一定有意义,或者对某一群体用户有用,对其他用户是没有需求和效用的,包括相关性、时效性、可比性、有效性等。同时,它们也是相辅相成的,如果数据准确性差,那么它的可靠性、有效性也就大打折扣,如果数据能够做到准确、一致、有时效,那它必然也是比较有可靠性的。
高校数据质量的现况
主观上的重视程度
越来越多的高校信息化从业者已经开始重视起高校数据及数据质量相关问题了。在学术上,简单地从2002至2014年度的某数据平台关于数据质量的研究趋势上,即可直观感受到近年对数据质量的相关研究的热度在持续稳定的上涨。从2002~2005年间每年30篇以下的论文数量,至2012~2014年间超过150篇,年度命中数从20上浮至50。其中高校+数据质量的相关研究数量和趋势类似,同时,高校的数据质量问题与高校信息化建设的发展进程密切相关。
目前,高校的信息化建设进程从“局部信息化”向“全面信息化”转变,建设内容从信息化基础建设转变为信息化服务建设,建设的焦点从“提供最基本的信息化服务和满足基本管理要求”逐渐转移到了“如何更好地向师生提供数据服务、决策支持”。信息集成和应用集成是大势所趋,而在信息集成的过程中,数据质量可能会出现怎样的问题?如何解决各类数据质量问题,有效地收集、清洗、存储、推送、挖掘、呈现数据,每一步都值得大书特书,最终使数据最终能够满足用户需求。
客观上数据质量的实际情况
在对高校各类业务数据的实际应用过程中,还是能够发现数据质量的不足。当前高校数据质量主要存在以下几个问题:
一是数据源头不明确,造成数据唯一性、准确性问题。一方面可能是管理职能有所重叠,一方面也可能是常用的信息在多个业务环节都进行了重复采集,例如师生的联系方式信息。同一个字段,可能不同的系统中都存在,但是存在出入,那么以哪个为准呢?
二是数据采集后,格式不统一,不完整,造成数据完整性、语法问题。这是由于不同部门,甚至不同操作员之间对同一数据的使用习惯和方式不一致造成的,可能仍有部分数据并不完整。
三是数据不及时,造成时效性、准确性等问题。由于采集周期或同步推送周期的影响,各应用端使用的数据可能并不是最新的。
四是数据共享问题,有些数据仍不能方便地获得,或不能保障周期性地获得准确实时的数据。
五是对历史数据和冗余数据尚无统一完善的处理办法。
数据质量对数据服务的影响
如在实际工作中,发生了上述数据质量问题,将会直接影响到各系统间的协同效率及使用效果,降低师生的使用满意度。
首先要保障数据的唯一、完整、准确、可靠、可理解,保障数据是可以使用的。如数据首要的这几个属性得不到保障,后续的相关统计报表,策略建议的可靠性也就大幅降低了。
同时要保障数据的时效性,旧的数据即使准确可靠,但是不能满足用户的需求,它就是低质量的数据。例如用户在校园卡终端想要查询到自己当天的消费余额、消费记录用以核对自己的支出情况,如果反馈的数据明显是若干天前的,显然不会让用户满意。
如数据质量较差,将会给管理人员和用户带来许多使用上的不便,由这些数据延伸出来的报表和策略建议往往也是充满了矛盾、漏洞和明显的不合理处,需要人工再次进行纠错、核对,增加工作量。举个例子,某次关于学校学生住宿信息进行统计时,发现在校住宿学生比学校学生总人数还多10%,这是不合常理的。经过实地调查,发现部分是因为有一些老生虽然已经退宿并离校,但其在住宿系统中信息还未被确认,部分是因为有些学生需要进行实习,申请了另一个校区的宿舍,因此其同时有了两条住宿信息,也有部分是因为学校安排辅导员住楼,更好地开展学生工作,但是在住宿系统中错误地登记为学生住宿。其中,有管理上的问题,有信息系统字段管理的问题,也有统计方法的问题,但终究也是数据质量的问题,该数据的时效性、准确性、完整性很需要进行提升。
以华东师大为例采取的措施
数据收集:坚持“一把手”录入
数据源头的梳理是华东师大信息办日常工作之一,在各信息系统建设的前期调研工作中,就通过业务梳理等工作明确数据源,在源头上严把数据质量关。明确数据的每一个字段的唯一来源之后,监督和指导该业务负责部门完成其应担负起的维护任务,及将数据推送给其他业务部门的共享任务。
当该工作的成果推广到全校各个业务系统后,任一信息系统需要使用某数据时,都有一个渠道得到权威、准确的数据。同时,可有效减少非数据源部门采集数据的工作量,避免多头采集的问题。
例如学生的手机号信息如以在教务处登记的为准,在学生在报修登记时系统可直接读取到该字段,并通知学生报修进度,学生发现读取到的联系方式已经过时了,可以去往教务系统对应入口进行修改等。
数据存储:集中建立数据中心
首先,在各数据源所在信息系统中,进行初步数据梳理和清洗,建立有完整数据理解度较高的多个视图、字典表等。然后,部署Oracle数据库,将从数据源获得的源数据通过ODI等ETL工具,将数据进行收集、存储在数据中心。
例如在教务相关系统中,学生相关的数据表可能就有学生基本信息表、学生选课信息表、学生类型字典表、学生成绩表、课程评价表、课程基本信息表等。在对它们进行数据梳理和清洗时,要将原基础表中较为难理解的字段,替换为字典表中的详细表述,将“1”、“2”替换为男女,将“0129”替换为“图书馆”;也要根据需求将零散在各个表中的数据整理到一张表中,比如全校学生个人信息所有字段表,因为原先学生的姓名、性别、学号、身份证等在基础信息表中,而他的籍贯、生源地在学生入学信息表中。
数据使用:统一发出接口
根据业务信息系统的对数据的需求情况,统合、整理数据,再利用WebService、ODI等多种工具推送到各个业务系统中去。
例如目前在建的新学生住宿系统,仅需向信息化办公室提出其建设中的具体数据需求,即可从数据中心通过各接口获得学生基础数据、学生-辅导员关系数据、辅导员基础数据、学生住宿费缴费数据、新生兴趣爱好数据等,而不需要关心数据怎么从教务系统、研究生系统、学工系统、人事系统、迎新系统、财务系统等其他业务系统中获取。而在后勤宿舍管理员在实际使用中,发现数据不准确的情况时,可以将问题反馈给信息化办公室,数据中心管理人员可据此倒推回到数据源,通知数据源业务系统负责老师,进行进一步数据核验、修正等。
建设数据流转框架
结合现有数据中心建设情况,进行数据流转优化工作。拟建设数据流转框架如图2所示。