摘要

  过去的2014年是大数据逐渐沉静下来的一年,大数据正慢慢从由舍恩伯格《大数据时代》一书所引发的热潮中平静下来,人们开始更加冷静和理性地来看待和分析大数据,从最初的“概念”和“热炒”逐步走向“落地”和“实操”。在对待大数据问题上,科研界显得更加成熟,更快地适应了大数据带来的“新常态”,冷静分析、积...

  过去的2014年是大数据逐渐沉静下来的一年,大数据正慢慢从由舍恩伯格《大数据时代》一书所引发的热潮中平静下来,人们开始更加冷静和理性地来看待和分析大数据,从最初的“概念”和“热炒”逐步走向“落地”和“实操”。在对待大数据问题上,科研界显得更加成熟,更快地适应了大数据带来的“新常态”,冷静分析、积极应对。大数据是互联网发展历程中的又一波新应用,是互联网发展和应用的自然延伸。2014年是中国全功能接入国际互联网20周年,也是中国大数据或者说是数据技术(DT)发展历程中的一个“临界点”。

  大数据给人们的生活、工作和思维带来巨大影响和变化。就科研领域而言,大数据有望改变或重构传统的科学探索和科技创新模式,从而形成某种全新的业态。科研数据是一种重要的科研资源,数据资源、数据能力今后将是一个国家或科研机构核心竞争力的重要组成部分和重要体现,这正逐渐成为共识。

  随着科研基础设施和科学研究工具越来越先进、科学探索和科技创新越来越活跃,科研范畴的不断拓展和学科专业的不断交叉,科学探索在长度、宽度、高度、深度、大的粒度和小的粒度、超长时空序列等不同维度上的进一步延展,科研数据获取和汇聚能力越来越强。相比其他数据,科研数据的增长速度更快,正急剧地“大”了起来,并逐渐符合大数据的“4V”特征,呈现出一种新的摩尔定律,甚至以比摩尔定律更快的速度在增长。继“互联网时代”后,科研领域率先步入“大数据时代”!

  近年来,关于科技革命和科技创新的“第六次科技革命”、“科学研究第四范式”等新理论、新学说的提出便是明证。此外,2013年诺贝尔化学奖授予三位美国科学家,以表彰其在开发多尺度复杂化学系统模型方面所做的贡献,对此,有专家称,“以计算机取代真实试验,这是颁给大数据时代的化学奖”;2012年欧洲核子研究中心(CERN)利用网格计算和大数据技术发现“上帝粒子”等,都是体现科研大数据价值的很好例子。所谓科研第四范式指的就是以大数据为基础、数据\密集型的科学研究和学术交流。在大数据的驱动下,人类的科学探索和科研活动正进入一个新时代!

  2015年是我国“十二五”计划的最后一年,既是“十二五”总结之年,也是“十三五”展望之年。为在2014年大数据逐渐沉静下来并走向落地后,使我国的科研大数据在未来能得到更好的应用和发展,需要好好总结经验、查找不足,研究和解决好存在的问题。

  注重数据立法

  依法治国是当前我国正在着力推行的国策,在对待科研大数据问题上同样需要法治思维。新的历史时期,顺应大数据的发展潮流,为更好地开放和利用科研数据,近一两年来,数据立法问题得到越来越多的关注,科学界积极呼吁国家科研主管部门从战略高度,将之作为国家创新驱动发展战略的一部分,尽快制定和实施有关法律法规,通过法律手段,先强制后自觉地逐步冲破部门、行业、领域、学科、专业等之间的壁垒,特别是利益壁垒,不断规范和推动科研大数据的开放、共享与利用。正如邬贺铨院士所言,“一些部门和机构拥有大量数据,但以邻为壑,宁可自己不用也不愿提供给其他部门使用,导致数据不完整或重复投资,浪费大量人力、物力、财力。大数据时代已经到来,中国发展大数据急需共享精神。”

  过去,因条块分隔、局部利益等各种非技术性的壁垒或障碍,以及各种不合理规则、惯例、机制等的限制,使不同领域、不同学科、不同专业的数据开放和共享难以实现。在大数据时代,必须通过适当的立法、机制和管理,来解决这些非技术性的壁垒,为实现科研大数据的增值扫清障碍。当然,在数据开放和共享的过程中,必须充分考虑到知识产权、数据安全等问题,为大数据的发展和应用创造良好的学术、法律和社会环境。

  未来,可考虑从国家经费资助的重大科研项目入手,开展试验试点,以“法”的形式来规范和推动数据“输出”,在保证数据安全的情况下,不让国家投入巨资获得的珍贵的科研数据成为少数人、课题小组、小单位或小团体的局部资源。在相关法律法规的规范和推动下,争取在较短时期内,使广大科研人员形成一种愿意自觉地将数据贡献出来、让同行共享共用的新意识。欧美在此方面的许多先进经验和作法值得我们好好学习和参考借鉴。

  构建数据平台

  为促成科研大数据的有效开放和共享共用,需要建立一定的平台,这就涉及技术设施、数据标准、共享机制、数据安全、管理制度等一系列问题。数据标准和共享机制是其中尤为重要的两个问题,我国高能物理研究领域在此方面先行一步,遵循国际“游戏规则”、实现国际接轨,已经较好地形成良性循环,既大方地开放了自己的数据,又顺畅地共享了他人的数据,并因此取得诸多重大科学发现,可作为其他学科领域的一个样板和示范。例如,近年来由我国科学家主导开展的大亚湾核电站反应堆中微子实验国际合作项目,很大程度上就是基于对所采集科学数据的分析和研究,取得了令人瞩目的科研成果,实验结果将有助于解释中微子在宇宙大爆炸后最早一段时期内基本物质演化过程中所起的作用以及为什么宇宙中的物质比反物质多等问题。

  目前,我国已在五十多个学科和领域开展了科研大数据的建设工作,并积极与国际同行开展合作,但总的来看,汇集的数据还不够多、还不够“大”,知名度和利用率还不够高(据IDC 统计数据显示,中国目前拥有的数据量占全球的14%,但数据利用率不到0.4%,大量的数据“沉睡”在各个角落,未有效发挥应有的作用,当中包括科研数据),数据标准和运行机制均有待完善。技术的进步使科研数据越来越呈现海量化、多样化、复杂化、精细化、高效、实时、分布、交叉等特点。

  现代化科学大设施、网络化科学数据采集系统、“北斗”卫星等的投入使用,各地数据中心、大数据资库、云存储系统、云计算基地等的施工建设,野外科学考察技术条件的不断改善、传感器与数据采集技术的不断进步,以及国内外在科研大数据领域交流协作和数据服务随身性、移动性、泛在性的进一步增强,给我国当前和未来科研大数据的集聚带来了新希望,数据平台建设工作必须及时跟上。欧美已建成的众多大型科研数据库、数据中心及其长效运维机制等,值得我们学习借鉴。

  建立评估机制

  当然,大数据不是体量上的简单堆积,数据光“大”是不够的,必须符合要求的基本特征。配合科研大数据平台建设,需要建立一套行之有效的、严密的数据评估机制,对收集来的原始数据做进一步评估和筛选。

  数量庞大的科研数据可能来自不同的渠道,既有结构化的数据群,也有非结构化的数据群,其中很大一部分也许不能直接用于科学研究,必须经过“去粗取精、去伪存真、由此及彼、由表及里”的加工和处理,去除“冗余”和“垃圾”,通过有效的数据组织工作,使无序的数据变得有序、使非结构化的数据变得结构化,使之便于开展更深层次的、大数据层面的分析和处理;否则,一堆无序的数据再“大”也不能称之为“大数据”。“量足质优”的数据才具有更高的价值!

  例如,北京正负电子对撞机开动实验时,每天约产生2TB 的科研数据(CERN每秒可产生超过2PB 的科研数据),数据的筛选、清洗、组织工作是利用正负电子对撞机进行高能物理科学研究过程中的一个关键环节,这就需要一批数据科学家来提供相应支持。对与大数据评估相关的制度建设、质量准则、人才队伍等问题,我国的科研主管部门在近一两年来也已开始考虑。

  加强数据关联

  在互联网时代、大数据时代、大科学时代下,单学科、单专业的单一数据越来越无法显现大价值,当前和未来的科学研究需要依托数据的累积,并通过数据处理和挖掘,尤其是不同数据之间的融合和关联,实现数据从量变到质变的飞跃,找到当中蕴含的科学规律和价值。

  近年来,互联网技术、搜索引擎技术、云计算技术、大数据技术等的飞速发展,使学科交叉关联和数据分析变为可能。依托大数据,在过去科研“显微镜”、“放大镜”、“望远镜”的基础上又增加了“广角镜”,跨领域、跨学科、跨专业的数据流动、数据共享、数据协同、数据关联,让人类拥有了更广、更新的科研视角和视野,有望使科学探索活动发现更多过去看不到的潜在规律,形成新的科学认识和科学发现,为人类更好地认识自然、改造自然、实现人与自然的和谐相处提供服务。

  正如郭华东院士所提出的“大数据+大科学=大发现”,大数据的实质和魅力在于化巨大的“数”为行动的“据”,它以数据作为研究对象,基于庞大的科研数据和先进的分析技术,通过数据关联及相关的学科关联来辅助决策、预测未来,而非依赖专家对有限样本、抽样调查的经验来判断,这将冲破传统的科研思维模式,由过去主要依托“炒菜”式的试验方法来找寻事物之间的内在联系和潜在规律,转为依托庞大的数据来探知“未知”、确定“不确定”,为人类的科学探索和发现带来新的思路。在大数据和先进工具支持下,这种方法有望大大节省进入实质性研究阶段之前所需的先验知识准备时间和间接经验学习时间,更好地推动科研活动早出成果、多出成果和出大成果。

  作为一种资源,大数据最大的优势之一是可再生、无损耗,从中可以源源不断地挖掘出“大财富”,随着数据分析技术和工具的进步,甚至越挖越多、越挖越“值钱”。当然,相比电子商务等领域的大数据,当前对科研大数据领域的理论研究和实践应用都还有较大差距,这很大程度上是由其复杂性(Variety)决定的,对科研大数据,如何聚集使之更“大”(Volume)、如何加工使之更“快”(Velocity)、如何应用使之更“值”(Value),都有待在今后的科研活动中不断摸索。

  大数据关联需要科研人员放开时空尺度、打破思维定式,通过“T”型、“Y”型、“S”型、“+”型或“X”型等各种奇思妙想,把原始、孤立、静态数据的“积极性”调动起来,把看起来不相干的数据联系起来,深度挖掘大数据下埋藏的“金矿”。例如,在海洋科学研究领域,关于浒苔现象,近一两年来,依托大数据,通过对过去未曾研究的或者说过去的技术条件尚无法支撑的、看起来不甚相干的不同学科、不同地域、气象与海洋等数据以及离污染所在地较远距离上的工业生产和化学排放物质等数据进行关联,发现了一些新的规律,有望更好地解释浒苔爆发成因,并可能为浒苔污染问题的治理找到新的解决方案。

  大数据带动的科研新热点

  在各种先进技术支撑下的大数据将是对人脑和智力的又一次延展,大数据可能比以往任何时候对人类思维的影响都要大,将极大拓展人类的认知疆界。

  2014年,科研领域因大数据而带动的一个新现象、新热点是对人工智能、机器人、无人驾驶、机器翻译等技术的研究再度升温。在大数据和互联网等因素的支持下,对人工智能问题的研究有望找到新的突破口,改变传统的建立繁琐推理规则、模拟人脑、重建人脑等研究方法,找到更好的办法。对此,谷歌、微软和IBM等公司都在积极尝试,让机器在大数据环境中学习知识、建立模式、积累智能。近来的研究屡有突破,在大数据的驱动下,机器和技术有望更好地为人类服务,在帮助解放人类的“手”和“脚”之后,帮助解放人类的“脑”,大数据必将助推人类实现又一次进化。

  如今,人类的科研活动正迈入大数据时代,面对大数据带来的新挑战、新机遇,必须突破传统定式,大胆试验、超前布局,以一种全新思维,重新思考我们的科研,以开放互联、共享共用的大数据为基础,构建新的科研体系和数据平台,为我国经济社会发展和科技强国建设提供强大的数据支撑!(作者单位为中国科学院计算机网络信息中心)

华人教育信息订阅号二维码