摘要

  “在雨季,一个象波士顿这样的城市,一分钟之内也许要降落下千千万万粒雨滴,如果其中的一滴是红色的,我们的工作就是找到那滴雨。”  这是诺贝尔物理学奖获得者丁肇中在会见邓小平时,对他发现的J粒子所做的比喻。经过长达十年的实验、测量、校正、数据分析,丁肇中发现了J粒子,并获得了1976年的诺贝尔物理学...

  “在雨季,一个象波士顿这样的城市,一分钟之内也许要降落下千千万万粒雨滴,如果其中的一滴是红色的,我们的工作就是找到那滴雨。”

  这是诺贝尔物理学奖获得者丁肇中在会见邓小平时,对他发现的J粒子所做的比喻。经过长达十年的实验、测量、校正、数据分析,丁肇中发现了J粒子,并获得了1976年的诺贝尔物理学奖。

  在新技术层出不穷的今天,大数据与大科学、大发现更加紧密关联,2012年上帝粒子的发现,将大数据推向世界舞台的中心。在过去的2014年,大数据无疑已经成为科学界的宠儿,国内众多大数据科研机构纷纷成立,并构建自己的学科数据中心、大数据资源库。

  2014年6月,大数据与科学发现国际研讨会(CODATA Workshop on Big Data for International Scientific Programmes)在北京举办,如何挖掘科学大数据的能量与潜力、如何更好利用科学大数据为科学发现服务,如何使大数据、大科学、大发现融会贯通,都是本次会议研讨重要话题。

  本次大会的主席、中国科学院郭华东院士目前担任国际科技数据委员会主席,曾提出“大数据+大科学=大发现”,总结多年的工作,他认为大数据更多的是信息的发掘与应用,至于大发现,不光要大数据还要有新的数据,新的实验与观测方法。相比互联网的大数据与商业大数据,当前,科学大数据的理论研究与实践还相对较少。

  IDC的统计数字显示,中国目前拥有的数据量占全球的14%;而到2020年,这一比例将上升至21%。但是,相关的数据表明,我们的数据利用率不到0.4%,更多的数据仍然沉睡在各个角落、各个单位。究其原因,一方面是由于共享机制与政策,另一方面,也是因为数据处理的方法仍有欠缺。

  中国科学院高能物理所的许榕生教授说:“大数据不是万金油,一吃就灵。大数据的魅力,是在海量的数据中筛选出自己想要的数据。”而这中间,数据的分类处理非常重要。

  上世纪八九十年代,北京正负电子对撞机在高能所建成,实验室急需既懂高能物理又懂得电脑软件和数据处理的人才,诺贝尔物理奖获得者李政道向高能所推荐了加州大学的许榕生博士。

  数据获取和处理是利用北京正负电子对撞机进行高能物理实验研究的关键环节,许榕生回国后,最初就是帮助高能所的科学家,过滤、检验、分类处理从对撞机中产生的海量数据,从而分析出物理实验的各种结果。由此他获得了1993年物理学会的最高奖——胡刚复物理奖,其创建的“北京谱仪数据的离线处理技术”在当时的VAX计算机上设计了数据过滤、数据分类,以及数据刻度、数据重建的体系,建立了数据处理的秩序,从而推动对粒子物理基本理论轻子普适性问题的解决。

  时隔二十年,近期的北京对撞机实验每天约产生2T数据,最新的欧洲核子研究中心CERN每秒就产生超过2P的数据,大数据改变了科学范式,形成新的科学范式——数据密集型科学。

  许教授认为,未来数据挖掘与分析大有可为。“数据分析需要注意两个问题,第一是数据准确,第二是软件利索。”数据准确需要进行数据过滤与校正,而软件利索,则需要基础软件、半基础软件和针对性软件。基础软件需要统计学及数据可视化人才,半基础软件则是需要数据专家,也就是国际上正在兴起的“数据科学家(CDS,Chief Data Scientist)”, 针对性软件则需要各专业的分析专家。人才缺乏是各方面专家一致的看法,郭华东院士在不同场合呼吁,大数据与大科学研究需要一支特定的队伍,包括学科带头人、技术专家以及后备青年科学家力量。根据麦肯锡咨询的预测,到2018年,仅美国本土大数据人才缺口就超过14 万名,同时,通过分析大数据并为企业做出有效决策的人才缺口将高达150万名。

  近年来,世界各国纷纷成立数据科学研究机构,各大学也成立相关学院培养人才。如美国纽约大学、英国邓迪大学均从2013年起设立数据科学硕士学位,美国哥伦比亚大学将从2015年起设立博士学位。在国内,香港中文大学自2008 年起就设立了“数据科学商业统计”科学硕士学位。

  2014年4月,清华大学联合青岛市成立了“清华-青岛数据科学研究院”,宣布将推出多学科交叉培养的大数据硕士项目,并于9月招收第一批大数据硕士学位研究生;2014年6月,上海市启动“数据科学和大数据人才培养计划”,计划在未来3年培养和引进千名高端数据人才。首批大数据工

  程硕士招生于6月开始报名,9月入学。西安交大、浙江大学、华东师大等高校也先后设立了数据科学研究中心。许教授认为,“未来数据工厂和数据工人的出现将是一个趋势。大数据需要不同层次的人才。”“物理设施好办,大数据存储并不能改变什么,重要的是化大为小,各司专题,才能找到那粒红色的雨滴。”

 

教育信息服务平台订阅号二维码
教育信息服务平台微信服务号