人类在认识自然规律发展的过程中,经历了以下几个过程:一是实验科学范式,即观测、实验、试验发现现象,总结规律,数据量小;二是理论科学范式,形成假说、通过观测、实验、试验数据,验证理论,数据量小;三是计算科学范式,依据理论模型,进行计算模拟,利用实验数据验证计算,数据量大;四是数据密集型范式,也就是...
人类在认识自然规律发展的过程中,经历了以下几个过程:一是实验科学范式,即观测、实验、试验发现现象,总结规律,数据量小;二是理论科学范式,形成假说、通过观测、实验、试验数据,验证理论,数据量小;三是计算科学范式,依据理论模型,进行计算模拟,利用实验数据验证计算,数据量大;四是数据密集型范式,也就是人们经常谈论的大数据。
数据科学发展历程
进入到大数据时代之后,地学研究要采取什么样的模式呢?我们不妨先回顾一下数据科学的体制,数据科学包含了什么,以及数学科学家应该做什么。
1947年,Turkey提出了“bit”这个术语。1962年他又提出数据是一门学科,数据分析是计算机的一次飞跃。
1968年,图灵奖获得者彼得·诺尔首次对数据科学进行定义,他认为数据科学是处理数据的科学。1977年他又提出,将传统统计方法学、现代计算机技术和领域内专家知识联系起来以完成将数据转换为信息和知识。
1989年,数据分析与挖掘专家GregoryPiatetsky-Shapiro提出了知识发现和数据挖掘,他组织并领导了第一个Knowledge Discovery in Databases(KDD)研讨会。
1994年9月,BusinessWeek刊登了关于“Database Marketing”的封面故事:很多公司正在收集关于你的海量信息,将这些信息处理后来预测你对一个产品的购买需求,并用那些知识来制定精确适合你的营销策略。这也孕育着大数据的出现。1996年,International Federation of Classification Societies(IFCS)成员在他们两年一次的会议中于日本神户会面,“数据科学(data science)”首次被用于会议题目中。Usama Fayyad强调知识发现过程也是有步骤和程序的,比如数据的准备、筛选、清理、整合等过程。
1997年,C.F.Jeff Wu教授呼吁将统计学更名为数据科学,将统计学家更名为数据科学家。同时他把之前提到的知识发现和数据挖掘,转化为数据挖掘和知识发现。
2001年,William S. Cleveland发表了“Data Science:An Action Plan forExpanding the Technical Areas of the Field ofStatistics”,其中提到了数据科学包含多个学科,或者数据科学家包含多个学科的人,它主要解决两个问题:一统计界里面的随机数据模型和计算模型,后来统计协会采取了数据模型的概念。
2002年数据科学期刊发行,包括收集、分析、建模、应用等有关数据科学方面的研究。
2005年,企业进入到数据的分析中,企业通过数据分析增加自身竞争力。同年9月,The National Science Board刊登了“Long-lived Digital Data Collections:Enabling Research and Education in the 21stCentury”,该报告的众多推荐信之一写道:“NSF与大多数数据管理者和协会保持合作。它应当发展并完善数据科学家的职业生涯以保证包含足量高水平数据科学家的研究机构正常运行。”
2007年,Research Center for Dataologyand Data Science在复旦大学建立。
2009年,Yangyong Zhu和Yun Xiong发表了“Introduction to Dataology andData Science”,其中提出“与自然科学和社会科学不同,数据学和数据科学使用互联网上的数据作为研究对象。它是一门新兴科学。”
2009年还肯定了数据科学家的重要性,指出数据科学是未来10年的重要技能,而且这个技能也是保证一个研究机构能够正常发展的人力资源。强调了对数据理解人才培养的重要性,专家必须学会并适应新的数据科学研究技术,非专家需要提高信息技能素养。
2010年,进一步讨论数据包含的一些内涵,比如数据科学应包含计算科学、数学、统计学、数据挖掘、图形设计、可视化等。
2012,出现一种新的提法--数据科学家是21世纪最性感的职业。这也说明尽管数据科学没有成体系,但是数据科学可以说已经建立起来。涉及的学科、应用领域以及数据相关领域包括:数学、算法、统计、编程、分析、挖掘、建模专业,以及社会、健康、大众等众多专业。
主要来源与特征
美国国家科学研究委员会(NRC)2012年的报告指出,数据是科学发现的基础。拥有高精度和高稳定度的观测数据是理解气候系统行为和发展、评价地球系统模式、探寻极端天气事件成因以及理解气候长期变化趋势原因的必要条件。
在全球大科学计划和国内大科学计划的推动下,我们的地学观测的数据已经形成,多处观测、多维度观测、多过程观测、多学科观测,这些观测形成了多尺度观测研究以及整合研究,对理论的验证和跨学科的融合,提供研究数据资源。通过这些数据资源的支撑形成对地学科学问题的一些新认识、新的发现以及建立地学研究的新方法。例如,气侯科学的研究推动了全球变化研究的发展。美国科学研究分会指出了数据科学发现的基础,预计到2020年,基于地球系统数值模式的全球变化预测资料的数据量将达到50PB,遥感卫星数据将达到50PB,其他类型数据将达到2PB。这些数据到2030年将分别上升为185PB、150PB和5PB。
新一代数字地球不是一个单一的系统,而是多个基础设施连接的基于开放共享的平台,通过传感器网络和环境感知系统主动收集地球表面的各种信息。数字地球以数字化的数据为基础,集成了海量的多分辨率、多维度、动态变化的时空数据,以及社会、经济、超级计算、模型、虚拟地球等。涉及的数据包括图像、视频、文档、地理位置、空间对地观测数据、地表观测数据、科学研究模型、社会、经济。
关于遥感对地观测数据来源,一般而言卫星观测需要满足三维、定量、全球、全天时、全天候的要求。感仪器探测性能向高空间分辨率、高时间分辨、高光谱分辨率、高辐射精度发展。成像方式从被动探测到主动探测,探测谱段从红外、可见光、紫外到微波探测。传感器要求可以获取多源(多个卫星平台)、多谱段(不同波段)的卫星资料。
例如,针对一条冰川的观察,有关冰川物质平衡在线观测、冰川表面气候要素在线观测、遥感观测、无线传感网络、视频观测、测地雷达观测、3D 激光扫描、冰川物性分析、冰川化学分析、冰芯分析、各类同位素分析等(如图1所示)。从中可以看出其特点:观测要速度快、观测实时数据传输、观测多模态、观测数据量大。
我们可以看到,在信息技术的支持下,实现实时观测、实时传输、加密观测下,地学科学数据体现出以下特征:一是数据体量非常大,二是数据类型非常多,三是变化速度非常快,四是对数据认识和管理要准确。地学科学数据符合大数据的基本特征,可以说地学科学研究已经进入了大数据科学研究时代。