摘要

  当前的信息技术已经逐步在向着数据主导的方向过渡。社会经济的各个领域都在不断地通过数据的引导进入一个新的精细化管理和运营的时代,教育行业也在这一趋势的影响下逐步发展,不断涌现出越来越多的基于数据的应用,助力教育的进一步变革。  “数据”与“数字”的区别何在?有个简单的例子:一个学生考试得了78分,...

  当前的信息技术已经逐步在向着数据主导的方向过渡。社会经济的各个领域都在不断地通过数据的引导进入一个新的精细化管理和运营的时代,教育行业也在这一趋势的影响下逐步发展,不断涌现出越来越多的基于数据的应用,助力教育的进一步变革。

  “数据”与“数字”的区别何在?有个简单的例子:一个学生考试得了78分,这只是一个“数字”。但如果思考这78分背后的因素:家庭背景、努力程度、学习态度、智力水平等,把它们和78分联系在一起,这就成了“数据”。国际数据公司定义了大数据的四大特征:海量的数据规模(vast)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。

  教与学过程中的大数据采集和技术挑战

  近些年最热的“题库”类应用,也是基于大数据的教育应用细分行业。越来越详尽的知识点体系,不断优化的交互反馈,使其成为很多教师、学生常用的在线学习工具。通过在线的形式,在用户使用过程中可以积累大量的学习行为数据。这些数据不仅包括答题的结果,还包括学习者的答题过程、时间、速度、停顿甚至部分思路,这样就可以让学习者更加方便、有效地提升自己的学习效果。在这一方面,我们的题库还有相当多需要努力的地方。从用户体验角度看,倒是移动端的App相对好些,例如魔方格。

  相比题库这一类产品,以微课、MOOC为代表的新一代视频学习载体,则帮助学习者快速地获取学习资料,与全世界范围内有相同兴趣的人结成学习小组,通过互动讨论,促进共同的学习和进步。在这一过程中,我们可以获取到更立体的关于学习者的信息。比如,通过视频播放过程的观察,通过在线互动和课后作业完成情况的追踪,我们可以越来越真实地建立起学习者模型,从而为更好的课程和更有针对性的教学服务提供有力的参考依据。正如岳雷老师在网上教师实名互助社区中所说,微课最大的价值之一就是获得学习者的数据,更有效地支持他们的学习。Coursera(世界三大MOOC平台之一)发展团队中国区业务负责人伊莱·布林德博士介绍说,他们的平台会给教课的教授提供数据分析工具。通过这个工具,教授能够看到有多少学生看了他发布的视频、学生看了几遍这个视频;教师可以通过监测学生的具体表现,及时调节学习内容。他说,若学生不直接使用Coursera平台,而采取翻转课堂的学习方式,平台上的数据则可以帮助教师甄别哪些是学生已掌握的内容,哪些是学生需要进一步练习的内容。数据分析工具还可以应用于学生的互评活动。比如,可以通过数据把那些花了不到一分钟就给出的评价去掉,只取可靠的学生评分。同时,从研究者的角度看,平台记录下的所有的学生行为,可用于对不同教育问题进行深入研究。

  电子书包经过多年的努力,在国内部分学校展开了实验性使用。电子书包最大的改变就是每位学生都配备了一台数字化的终端。当学生有了这台终端后,对其学习过程的数据采集,才有了坚实的技术支持和可能性。在笔者分析的电子书包7大杀手级应用中,“评测和数据分析”位列第一。这也是电子书包行业内做得最突出的一个功能,让教师、学生、家长、领导、专家都叹服于数据的瞬时即达。基于数据库的数据分析让用户实现了梦寐以求的愿望。将来,随着电子书包监测能力的提高,其收集的数据将不仅仅是使用学习应用产生数据,还将记录学生在学习活动中个体行为表现,比如学习时眼到书本的距离、体态位置、用眼强度等,从而实现从单纯的知识学习到健康学习的转变。

  所有这些数据的处理基础在于构建于云端的数据中心集群和新形式的结构化、非结构化的数据库和数据挖掘工具。这些工具能够让我们更便捷地搭建起有力的数据模型,不论是基于群体行为的“大”数据模型,还是针对学习个体或者典型学习群组的“小”数据仓库。

  然而,无论“大”还是“小”,所有这些应用都存在一个前提,就是我们能否用一种更有效的方式获取到更多的全面、真实的数据。而这一点,对于教育行业的大数据应用,则尤其需要重视。

  获取数据的真实性需求,意味着数据的提供者不能“主观地”提供“假”的数据给系统,否则基于此的数据挖掘和分析就变得越来越有局限性。这点在题库类型的应用中会表现得比较突出,学习者为了得到较好的结果,往往会尝试通过一些手段“欺骗”系统。比如,笔者曾在一次实验中发现,某个班级的学生在在线试卷的完成过程中,有相当比例的学生完成试卷的连贯性非常不好,甚至在提交作业后又会主动要求教师重新布置作业让其重做。深度访谈后发现,这其中很多学生为了获得足够好的成绩,会主动通过其他途径取得答案(比如提交一次,记下答案,要求重做,或者QQ上向其他已经提交的同学要答案)。这种情况下获得的学习数据,多少会有一些失真。真实数据的获取,最佳的状态应该是提供者根本意识不到数据被采集,或者至少没有主动作伪的动机,而学生为了取悦教师、家长,则经常有作伪的动机。从这个意义上来说,获取高可信度的数据是有困难的,需要从技术策略上对其进行有针对性的设计。

华人教育信息订阅号二维码