背景介绍 对学校教育数据的共享融合及价值挖掘是华南理工大学在信息化建设方面重要的研究方向之一。近年,华南理工大学在数据领域不断实践与探索:在数据治理方面,学校牵头各业务部门信息化负责人成立网络安全及信息化编委会,共同完成了通用业务信息标准的制定,包括系统架构规范、各类数据集规范和各类代码集规范,数据范围涵盖了学校基本信息、师生基本信息、教学管理、学生管理、科研管理、档案管理、体育卫生、资产与设施...
背景介绍
对学校教育数据的共享融合及价值挖掘是华南理工大学在信息化建设方面重要的研究方向之一。近年,华南理工大学在数据领域不断实践与探索:在数据治理方面,学校牵头各业务部门信息化负责人成立网络安全及信息化编委会,共同完成了通用业务信息标准的制定,包括系统架构规范、各类数据集规范和各类代码集规范,数据范围涵盖了学校基本信息、师生基本信息、教学管理、学生管理、科研管理、档案管理、体育卫生、资产与设施、信息化基础设施等部分;在数据共享方面,学校形成一套可行有效的数据共享机制。
具体而言,学校以数据中心作为汇集和输出数据的中枢节点。一方面,数据中心基本打通与学校数据主管部门之间的数据通道,汇合学校关键业务系统数据;另一方面,数据中心也作为统一出口,根据需求方数据请求进行数据的定向分发。
基于前期积累的经验和基础,学校已初步具备了开展全校范围的多源数据融合与分析应用探索的条件。在此背景下,学生画像项目于2020年初正式启动,该项目属于数据应用层面的系统建设,在融合了教学管理、学生管理等数据的基础上,对学生的学习生涯进行群体性趋势分析和预警预判,为学校教学和学生管理提供综合参考。在数据共享方面,学生画像项目对数据的要求具有数据主管部门广、字段类型多、数据量大等特点,该项目所涉及的数据同步工作在学校现有共享机制下完成。据统计,2020年7月至11月期间,仅学生画像项目,已完成共享的数据涵盖校内9个数据主管部门,涉及100余个字段类型,合计5.4亿条。在数据应用方面,学生画像项目基于学校基础数据进行建模分析。在一期建设中,系统共构建了两类综合分析模型,包括个体分析、群体分析;构建了三类预警预判模型,包括生活类预警、校园安全类预警、学业类预警。
鉴于该项目对今后开展全校范围、更深层次的教育数据融合探索有良好的实践和指导意义,特总结项目问题和经验如下。
问题与思考
1.业务系统数据的完整性和维度问题
数据完整性和数据维度是数据分析应用的关键因素,其中完整性包括了数据的质量和连续性,数据维度则主要是数据字段类型的丰富程度,它们很大程度上影响了数据应用的效果。在学生画像项目的初测阶段,导入各业务系统数据后出现分析效果不佳的情况。经分析发现,虽然学校已有数据类型基本覆盖了项目的需求,但具体到各类数据的完整性和维度却无法完全满足数据分析应用的要求,同时技术开发也未能充分挖掘数据的潜在价值。
问题的解决在于业务系统和数据分析系统的双向合作。一般情况下,学校业务部门的信息系统以实现业务流程为驱动,此类系统的应用场景更加关注某个时刻的某个具体业务流程的实现,即使部分业务系统会有用户基础信息的管理,但其业务数据和用户基础信息的完整性和维度往往会受某个具体业务流程的影响而进行调整,具有个例性和时段性。相反,以数据分析应用为驱动的系统,更强调数据的完整、规范、连贯,甚至丰富程度。这种由于不同应用场景所导致的系统对数据完整性和维度要求的不同,造成了现在大多数业务系统的数据虽然能够满足业务流程正常运转,却不一定能完全支撑数据分析的需求。因此,对于后期有分析需求或价值的业务而言,需要在业务系统建设或运维时“未雨绸缪”,兼顾业务流程实现及数据分析应用的实际需求,在保证业务流程畅通的同时,还需要综合考虑数据分析应用场景下的数据维度设计,并对业务数据进行长期、定期的运维管理,形成“业务流程+数据分析应用”双驱动。
图1 业务系统建设和运维的“业务流程+数据分析应用”双驱动
对于数据分析应用系统,则要求其基于学校教育数据的实际情况进行分析模型的设计和适配,需要学校和系统建设方形成良好有效的沟通,使其充分理解实际应用场景和数据情况,在真正挖掘现有数据潜在价值的同时,能够为业务系统的数据运营提供补充性的改良建议。
同时,学校数据中心作为中间方,需要进一步提升履行全校数据统筹管理职责的能力,高效、有效地做好跨部门的数据协调和支撑服务工作,真正实现数据价值转化。为此,2020年第三季度,学校在网络中心正式成立数据服务部门,专门负责学校数据中台的建设与维护,向第三方提供数据支撑服务,学校业务/运维数据的收集、存储、分析及优化。
2.数据应用的安全与隐私保护问题
数据的安全和隐私保护是学校各数据主管部门都非常重视的问题,也是数据使用过程中不可回避的问题。学生画像项目涉及数据范围广泛,数据量级大,数据安全和隐私保护工作不容忽视,学校在项目实施过程采取了多种措施保障数据安全。
图2 数据应用的安全与隐私保护措施
在基础数据层面,要求数据中心遵循私密级别高的个人行为数据不予提供原则,要求做好数据传输保护,要求系统和数据库部署在学校云平台,要求厂商签署保密协议等。
在系统运维层面,对应用系统开展等级保护定级备案,对系统和相关服务器定期进行漏洞扫描,及时发现系统安全隐患并进行处置。
在系统操作层面,要求做好严格的分级浏览权限配置及操作日志的备份,限定不同级别的管理员可访问查询的功能模块和数据范围,强调各级别的权限原则上都仅能查询群体性的趋势分析或者脱敏的个体预警信息。而针对个人数据的查询,要求有规范的审批流程进行管理,有且仅有符合特定条件并通过校级审核的管理员才有权限进行查询,同时后台保存相关的操作记录,一旦出现数据泄露问题,便于溯源追责。
3.数据接口管理的问题
学生画像项目是学校推动全校数据共享工作的一个缩影。截至2020年11月,学校数据中心已经对接关键业务系统40余个,累计迭代开发数据接口超过1300个。随着更多的新建系统对接数据中心及学校数据共享往深层次递进,可以预见数据接口数量仍会持续增加,管理难度和成本也会不断增加。数量可观的数据接口开发和运维工作必然成为不可忽视的环节,学校需要实行更加精细和规范的数据接口管理,涉及接口准入管理、接口版本迭代管理、接口保障运维管理等方面,以有效控制后期运维成本,实现数据共享可持续。
解决策略
从学生画像项目的实施和落地过程来看,要实现有价值的数据分析应用,需要学校在“数据治理-数据共享-数据应用”三个阶段合理投入。其中,数据治理是基础,数据共享是前提,而数据应用又积极地反作用于前两个阶段,它们环环相扣且相互作用,形成向上迭代的良性循环。
在数据治理阶段,需要学校各数据主管部门对数据的校内开源达成共识,有效的推进方式是由学校牵头成立跨职能部门的专项工作组/委员会,统筹完成全校通用数据标准的制定和旧系统改造。
在数据共享阶段,学校首先需要构建一套适合校情、行之有效的数据共享机制及部署配套的基础设施。同时,应该认识到,数据共享不是没有边界的,应该重视数据传输和使用过程的隐私和数据安全保障。这就要求承担学校数据中心角色的部门,兼顾到各数据主管部门对其核心业务数据安全保护的现实要求和顾虑,才能更好地提升数据主管部门的开放和配合意愿,减小推行全校数据共享过程中的阻力。例如,建立数据敏感度等级标准,根据业务数据敏感级别划分自有和公有数据范围,自有数据由各数据主管部门保有,原则上不予共享,公有数据则可以通过学校数据中心的统一出口进行校内的开源共享。
在数据应用阶段,基于学校实际应用场景的拓展和基于学校数据现况的分析模型设计是数据应用系统建设的两个要点。通俗言之,前者关系到做出来的东西有没有用,后者关系到做出来的东西能不能用,成功的数据应用类系统可以有效支撑和辅助学校教学和学生管理工作的开展。同时,数据应用也是检验数据治理和数据共享效果的试金石,基于应用层面对数据的高要求,数据应用能够有效检验共享数据的通用性、完整性、连续性和时效性,进而反作用于数据主管部门和数据中心部门:一方面,通过数据应用能够有效定位已有数据存在的质量问题,促使数据主管部门做好源数据的运维管理工作,形成良性的数据质量管理闭环;另一方面,数据应用对多源数据同步往往有多样化的需求,促使学校数据中心部门提升数据共享链路的保障能力,以满足数据应用要求的数据时效性和稳定性。
作者:邱梓权、梁倩(华南理工大学信息网络工程研究中心)
责编:朴艺娜