摘要

  戚万学中国教育大数据研究院院长,曲阜师范大学校长,教育学博士,教授,博士生导师。“新世纪百千万人才工程”国家级人选,中宣部“文化名家和四个一批理论人才”,教育部“新世纪优秀人才支持计划”资助专家。  江青中国统计信息服务中心(国家统计局社情民意调查中心)大数据研究实验室主任,带领团队基于大数据技...

  戚万学中国教育大数据研究院院长,曲阜师范大学校长,教育学博士,教授,博士生导师。“新世纪百千万人才工程”国家级人选,中宣部“文化名家和四个一批理论人才”,教育部“新世纪优秀人才支持计划”资助专家。

  江青中国统计信息服务中心(国家统计局社情民意调查中心)大数据研究实验室主任,带领团队基于大数据技术及方法承担了多个重要的国家级项目,是国内最早从事大数据研究应用的实践者之一。

  近年来,“大数据”成了人们口中的一个“热词”,“大数据告诉你……”也成了众多用以吸引眼球、增强权威性的文章标题。大数据对社会生产和生活的影响,在教育以外的行业已经非常明显,但在教育领域还处于起步阶段。

  教育关乎国计民生,教育问题又异常复杂,大数据在重塑教育方面具有无限的潜能。那么,大数据怎样才能有效驱动教育改革?大数据进入教育领域面临着哪些困难与挑战?为此,中国教育报记者专访了中国教育大数据研究院院长、曲阜师范大学校长戚万学,中国统计信息服务中心大数据研究实验室主任江青。

  我国教育大数据发展尚处于基础期

  记者:自从2011年美国著名的咨询公司麦肯锡发布《大数据:创新、竞争和生产力的下一个前沿领域》的研究报告以来,“大数据”便成为近年来对人类思维和社会各领域冲击最为强烈的一个“热词”。但是,许多人对何为数据却一知半解。那么,数据是什么?教育小数据与教育大数据之间有什么联系与区别?

  戚万学:提到数据时,我们首先想到的会是数字,但数据并不限于数字,视频、文本、图像、音频等都可以是数据。

  数据的发展,经历了从微数据到小数据再向大数据的转变历程,教育大数据是大数据的一个子集。在教育领域,时时刻刻产生着各种数据,无论是教师和学生的一言一行、学校里所发生的种种现象,还是学生通过计算机终端进行的上课、做作业、发微博、讨论问题等,都可以转化为数据,这些都成为教育大数据的来源。

  江青:无论大数据还是教育大数据,都不仅仅是数据本身的大小描述,而是由数据引发的各种关联工作和解决方案。教育大数据就是教育统计插上了信息化的翅膀,变得比统计和信息化本身对人类更有价值。教育小数据是指没有信息化关联的一个个数据集,或者说教育数据孤岛,这些独立的数据不是没有作用,而是相对大数据来说,其分析结果和价值很多时候不如大数据客观和强大。

  记者:大数据对社会生产和生活的影响,在教育以外的行业已经非常明显,但在教育领域还处于起步阶段。教育大数据会给教育改革与发展带来哪些影响?

  江青:我国教育大数据发展尚处于基础期。大数据对于教育改革和发展带来的将是传统思维的颠覆、教学效率的提升和教育科研的有效性,甚至会带来教育的终身个性化匹配。除了在线学习,大数据可以用在招生、预算和学生服务等方面以确保透明度,将对学生学习、教师教学、教学科研、校园治理、家校互动、教育决策、就业管理、招生管理、学生成长等方方面面带来很大影响。

  戚万学:的确,与其他行业相比,教育界对大数据的广泛接纳还是近期的事。但可喜的是,我们看到大数据正在走进教育的领地、走进学校的大门、走进教师和学生的生活。可以预期的是,一个属于教育的大数据时代即将到来,它不仅影响学校内部治理的改革,而且会驱动整个教育领域的变革,它使我们照顾学生的个性化需求、关爱每一个孩子成为可能。但从整体上看,目前教育大数据的采集网络仍处于布局和建构的初级阶段,大数据在教育决策、教学过程中的运用还处于摸索和起步阶段,大数据人才培养的完善体系还没有建立起来。倒是一些企业集团较早看到了大数据带来的应用前景和巨大商机,以至于大数据在教育领域的应用总体上呈现出“产业应用的成熟度大于学校应用的成熟度”的态势。

  实现真正的“因材施教”离不开教育大数据

  记者:一般来说,数据是冰冷的,是抽离了鲜活之后的抽象。而教育面对的是活生生的有个性的人,需要因材施教,大数据能否克服传统数据的缺陷,从而关注到学生的个性发展?

  戚万学:与传统数据、有限数据或小数据相比,教育大数据的独特优势就在于,通过对教育活动或行为数据的收集、分析和反馈,可以不断改变、调整我们的教育计划,从而实现真正的“因材施教”,使我们能够关注到每一个学生的成长。

  大数据研究专家舍恩伯格指出,“个性化建立在大数据反馈的基础上”,“在学习的环境下,大规模个性化的实现,需要有更丰富的反馈数据流向教师和管理人员”。教育大数据的分析能够给学习者发现自身学习规律的机会,给教育者和研究者提供每个学习个体在学习过程中的态度、模式、需求、风格等信息,从而提供有针对性的学习内容与指导。

  江青:大数据分析已经被应用到美国公共教育中,成为教学改革的重要力量。美国联邦政府教育部2012年参与了一项耗资2亿美元的公共教育中的大数据计划。这一计划旨在通过运用大数据分析来改善教育。联邦教育部从财政预算中支出2500万美元,用于了解学生在个性化层面是怎样学习的。

  记者:在关注学生个性化发展方面,教育大数据可以提供什么样的服务?

  戚万学:在大数据时代,研究者通过学习者在学习系统中产生诸多数字碎片的分析,会发现其学习行为的模式与特点,从而为学习者提供个性化的学习建议;教育者借助强大的大数据实证工具,能够了解如何教、如何学是最有效的,从而制定个性化教学和课程计划;学习者可以通过数据从原有的依赖教师的有限理性判断发展为对自己学习的数据化分析;而评价者则可以通过对学习者学习过程的关注与跟踪,在大数据技术的支持下提供最客观、直接和准确的学习分析和教育评价,使传统的经验式评价转向基于据数据的过程性评价。

  江青:教育工作者和研究者已经开发出从大数据中提取价值的5种主要的技术:预测,预知事实的可能性;聚类,发现自然集中的数据点;相关性挖掘,发现各种变量之间的关系,并对其进行解码以便今后使用它们;升华人的判断,建立可视的机器学习模式;用模式进行发现,使用通过大数据分析开发出的模式进行“元学习”。实施这些技术,就能够通过大数据来创建为提高学生成绩提供支持的学习分析系统。这些技术将帮助教育工作者更加有效地指导学生朝着更加个性化的学习进程迈进。

  数据的失真失实是大数据时代必须面对的问题

  记者:人们经常说:用事实说话,用数据说话。但是,数据等于事实吗?教育大数据和教育事实是什么关系?

  江青:教育大数据是对教育客观的逻辑归纳,是对与之相关的未经加工的原始素材进行采集、处理、研究、应用的一系列工作。教育大数据做好了,可以客观反映教育事实,呈现教育现象,给教育改革提供决策参考。

  戚万学:数据与事实并非是完全一一对应的,它们可能有一致性,也可能存在相悖的结果。著名的辛普森悖论就启示我们,数据有时候并不能反映事实。教育大数据是从教育实践中搜集的有关教育活动、现象等原始材料,根据使用数据人的目的按一定的形式加以处理,找出其中的内在联系,从而反映教育事实。相比传统“小”数据,教育大数据在大规模在线学习、学习者模型、教学者模型等研究中,体现出更加贴近事实的优势。应该说,随着更多数据的收集、处理和分析,我们对世界的认识将更趋复杂、更加精确。

  记者:前不久,“今日头条创始人张一鸣炮轰艾瑞数据失实”的事件引起了人们的关注。怎样才能保证教育数据采集的数据客观、不失实?

  江青:应该说,获得相关数据并不是一件容易的事。对于大学阶段的学生而言,数据的收集并不是主要问题。然而,对于中小学阶段的学生而言,挑战却很大,因为有些数据的收集存在法律问题,有的则存在伦理道德(隐私)的问题。

  数据收集者的人数和技能也是一个问题。数据的采集需要通过特定的渠道,互联网数据需要用技术手段获取,通常通过网络上的小型文本文件来收集用户的相关信息,但是对于教育部门而言,则需要依赖于全国众多学区和研究者的网络来提炼和确认数据。

  戚万学:数据的失真、失实是大数据时代必须面对的问题。对科学研究来说,数据的真实可靠是研究的生命和价值之所在。数据在采集的过程中,会由于教育数据的层次不同而发生变化。根据数据采集手段的不同,可以把教育大数据分为基础层数据(如每年的学校招生情况、教育经费情况等)、状态层数据、资源层数据(非结构化数据)、行为层数据(财务报销、学生写作业等)。这些数据大部分是在教育过程中自动生成并被记录下来的。

  与基于有限数据的小数据预测本身存在的不确定性相比,大数据时代的预测精确度要远远超过现在。同时,大数据技术下数据的自然生成、对数据的全样本采集、传感器收取、射频识别等全新采集手段的应用,也都可以保证研究者所获得的信息更加真实。但相比精确度,大数据更加追求的是效率,在海量的数据面前,放弃一些微观层面的精确,会得到宏观层面更高的效率。

  核心挑战在于数据分析处理及结果的可视化呈现

  记者:在这些数据采集的过程中,如何保护被采集对象的个人隐私?

  戚万学:有时候,通知被采集对象会导致一些人为的、刻意的装饰,反而会影响数据的真实性。教育大数据和其他领域大数据的区别在于,它们涉及的更多是教育环境下教师和学生个人发展和专业成长的一些信息,因此,不征得数据采集对象的允许并不意味着数据乱用,在数据运用的过程中,我们要特别注意保护被采集对象的隐私。大数据这种对学生隐私的挑战,需要在数据采集过程中保护被采集人的敏感信息,使其保护自身隐私的权利得以行使。美国联邦政府2014年推出的《在线教育服务指导》提出,只有在满足《学生权利保护修正案》和《家庭教育权利与隐私法》的情况下,学生的数据才能被学校和学区所采集。所以,借鉴美国的做法,我国可以出台涉及教育大数据的隐私安全的相关政策或法律法规。

  江青:数据采集的过程会涉及方方面面,对事关隐私的数据当然要考虑当事人的意愿,我们提倡对于收集到的数据进行加工,生产出具体数据产品,而不是直接将教育具体数据对外公开。当然,采集和拥有数据的机构也需要加强法律意识,加强技术保护措施。

  记者:对采集到的教育大数据,应该怎样进行科学分析、应用?

  戚万学:在教育大数据应用方面,其核心挑战就在于数据的分析处理及结果的可视化呈现等方面。教育大数据是客观的,而分析与应用是主观的,在数据的分析与应用中如何平衡两者的关系是一个十分关键的问题。

  对教育大数据进行分析,需要从大量数据中进行提取与挖掘。在这个过程中包括数据的清理、数据选择、数据变换、数据挖掘、模式评估和知识表示等。这些分析环节的每个构成都应成为数据分析研究的重要内容,从而最大限度地保持与还原客观事实。

  江青:过去十几年里,教育领域的技术发展陷入了停滞,研发投入远远不够。教育技术未来发展的关键在于数据。美国教育部门对大数据的运用主要是创造了“学习分析系统”,旨在向教育工作者提供学生到底是“怎样”学习的更多、更好、更精确的信息。

  教育大数据一定要落地应用。例如,根据不同的需求调用某教育部门各套系统的数据,结合外部其他单位的数据,教育管理部门可以利用大数据优化教育资源配置,提高教育水平,引导学生成长,共享学习资源。教育大数据可以帮助教育管理部门建立“数字教育地图”,助力教育资源布局优化;建立“智慧教育平台”,助力教育成果管理;建立“绩效评价系统”,提升教育科研创新力。

  不加约束地使用教育大数据一定会产生风险

  记者:当前,似乎有一种将大数据神话的倾向,但教育大数据不是万能的,人的成长远比我们想象的要复杂的多。在教育领域,是否也有一些方面是大数据不能解释和预测的?

  江青:教育大数据可以修正教育过程,使之更加符合教育的本质,但教育大数据的确不是万能的。大数据可以很好地展现一个人的学习过往,也可以预测未来该学生的成长轨迹,但大数据预测他可能会成为一名科学家,可这名学生长大后却有可能走上演艺的道路。作为个人,我们不断地成长、发展、变化,而那些多年来全面收集的教育数据却始终保持不变。

  戚万学:作为资源与工具的教育大数据,其往往体现的是对信息的告知而非解释。数据一方面在引导人们的理解,但同时也可能导致误解的出现,所以正确使用是教育大数据解释与预测的关键。而且,教育大数据的获取,多数情况下还依赖于互联网这一平台,“离线”或“线下”教育环境中同样存在大数据,但数据获取的时效性、便捷性往往会受到很大影响。与此同时,数据对事物的分析也并非万能,不能说任何事物都能够通过数据准确反映出来。例如,教育组织氛围、文化,学校的学术精神、德育实效性,学生的智慧、创造力、想象力等,则很难通过数据加以描述和统计。

  记者:舍恩伯格认为:“我们对潜在后果和概率性结果的预测有加大教育不平等的可能。全面教育数据带来的首个重大威胁,并不是信息的发布不当,而是束缚于我们的过去,否定我们进步、成长和改变的能力。”对此,您怎么看?

  戚万学:如果教育大数据被不加约束地使用,则一定会产生风险。人是发展性的、具有能动性的物种。过去的选择是清晰的、决定性的、不可更改的,但今天我们会做出什么样的选择则充满了无限的可能性,有无限的变数,这些变数是大数据决定不了的,是不可预测的。这些不可预测的选择和既定的现实,将我们引向可知又充满变数的未来。大数据预测不是占卦算命,一切皆在这变与不变之中。

  江青:学生家长,教育专家长期以来对未成年人的隐私保护问题和对学生的学业追踪带来的后果忧心忡忡,因为这是限制学生未来发展机遇的潜在威胁。大数据不但会放大这些问题,还会改变他们的本质。随着时间的推移,我们会改变看法,调整观点甚至重塑我们的价值观。大数据结果需要结合行业经验才能发挥出巨大的价值,否则将加大因为数据结果的不准确而带来的决策风险。

  教育大数据科学发展还需迈过多道“坎”

  记者:当前,我国教育大数据发展前景如何?当前主要面临哪些困难?

  戚万学:随着我国“以教育信息化带动教育现代化”方针的确立,《教育信息化十年发展规划(2010-2020)》的顺利推进,特别是大数据发展上升为国家战略,教育大数据的开发与应用将迎来一个全新的时代。但是,我国教育大数据的科学发展,还面临着观念层面、实践层面、技术层面等方面的困难。

  江青:国家政策已经将我国大数据产业发展定为国家战略,对一系列的政策措施都给出了产业引导和支撑。教育领域在应用大数据上也会面临大数据产业发展中存在的共同问题:大数据思维亟待培育、大数据人才亟待培养、大数据相关标准亟待制定、大数据法律法规亟待建立。

  记者:如何克服这些困难?

  江青:要克服这些困难,需要教育部门、社会针对性地采取必要的对应措施,例如,针对思维问题,可以由教育主管部门组织行业培训,出台相应政策措施,组织相关活动会议,展示推广大数据在教育领域的应用案例;针对人才问题,清华大学、复旦大学、北京大学、中国教育大数据研究院等一些高校及研究机构已开始启动人才培养,但除高校培养培训之外,还应对在职的统计、信息工作人员进行专业性的培养;针对大数据相关标准制定,标准制定机构需要大数据从业机构的配合,更需要大数据应用对象的配合,凡事预则立,标准制定是大数据产业有序健康发展的基础要件;无规矩不成方圆,大数据产业发展过程中逐渐暴露的问题,如隐私等,都需要有相应的法律法规制约,否则,教育大数据产业谈不上良性发展。

  戚万学:要真正实现教育大数据科学发展,尚需多方努力。首先是要有接纳大数据的态度,这是前提。政府、教育主管部门、教育机构要强化大数据意识,形成大数据思维,自觉运用大数据思维和技术解决教育的问题;二是要加强大数据系统建设的顶层设计,国家教育主管部门应统筹制定教育大数据系统的规划与建设的规范,为各级政府和教育机构提供大数据集成和共享平台,实现数据的流动、互通和共享;三是政府要出台相关支持性政策,鼓励研究机构、高等院校、各种社会力量开展教育大数据技术和资源的研发与合作;四是加强大数据领域人才的培养,我国教育大数据的发展才刚刚起步,人才的缺乏将是一个严重的限制。教育主管部门应尽快将大数据列入高等教育的专业目录,尽快完善本科、研究生完整的人才培养体系,高等学校也应自觉承担起培养大数据专业人才的重任。

教育信息服务平台订阅号二维码
教育信息服务平台微信服务号