摘要

  随着互联网的不断发展,用户在使用互联网服务的同时也产生大量的数据,大数据不仅早就应用于人们工作、生活的方方面面,也被视为全球性新的竞争力。同时,大数据技术也为人们描绘出一幅幅如“智慧城市”,“智慧交通”和“智慧医疗”等美好蓝图。  日前,中国计算机学会(CCF)大数据专家委员会和中关村大数据产业...

  随着互联网的不断发展,用户在使用互联网服务的同时也产生大量的数据,大数据不仅早就应用于人们工作、生活的方方面面,也被视为全球性新的竞争力。同时,大数据技术也为人们描绘出一幅幅如“智慧城市”,“智慧交通”和“智慧医疗”等美好蓝图。

  日前,中国计算机学会(CCF)大数据专家委员会和中关村大数据产业联盟主编的《中国大数据技术与产业发展白皮书(2014)》(以下简称《白皮书》)正式发布。《白皮书》介绍了大数据的背景与动态,大数据典型应用,大数据技术进展,大数据IT 产业链与生态环境,以及大数据发展趋势与建议等内容。从中可以看到,对于2015 年大数据的发展,“融合、跨界、基础、突破”成为其主要关键词,并体现为十大趋势,包括结合神经计算、深度学习、语义计算等智能计算的大数据分析将成为热点。

  不论是搜索行为数据,还是个人结构化和非结构化的信息数据,亦或是交易的结构化数据以及科研信息数据等,这些数据对于企业或者科研机构而言都是有待挖掘的数据金矿,能够帮助机构更好地做出决策。中国统计信息服务中心副主任王海峰指出,大数据核心在于内外部数据关联,挖掘由此发现新知识、创造新价值。数据首先是用来做决策的,人的决策不见得都是理性的,但我们通过数据去推延做了很多的假设和判断,至少现在还有很多机构在做决策时更多强调的是理性。数据在决策过程中流程比分析更重要。有很多一流的分析师做出有洞见的结果,但缺乏有效的决策流程就可能毁于一切。

  有专家表示,大数据是发生在互联网时代一次革命性的变革,具有很大的科学研究价值和巨大的社会应用价值。大数据的研究是从科学计算模拟的第三范式转到了一个新的范式,现在被称为第四范式,也是科学研究最新的范式。而在不久前举办的“大数据论坛--数据科学与技术”论坛上,五位首批国家实验室“数据科学与技术”研究专项负责人分别就大数据在不同领域的应用进行了主题报告。本期对此进行整理报道,供读者参考。

  在城市管理方面,清华大学计算机科学与技术系教授朱文武提出了“面向城市管理的三元空间大数据计算理论与方法”,在原来的网络空间和物理空间的基础上引入人类社会空间,其目标是打通三元空间的数据孤岛,实现三元空间城市大数据的关联分析。

  如今,大量图文并茂的网络社交媒体大数据不断涌现,如何处理变成了难题。清华大学计算机科学与技术系教授孙茂松提出“以中文为枢轴的网络社交媒体大数据智能分析与高效计算”的方法,该项目将文本和图像联合成一张图,即“文本+ 图像”的智能分析。

  与其他领域产生的大数据相比,生物医学大数据具有数据量大,样本少,数据异质,生命系统结构复杂,高噪声、非结构化数据的特点,要了解中间的关联结构非常不易。清华大学计算机科学与技术系教授陈挺提出“疾病宏基因组大数据复杂关联结构分析的理论和方法”,宏基因组学是对一个样本里面所有微生物的基因进行测序和分析,该样本有大量不同的细胞,对中间的DNA进行扩充,建立一个文库,随后进行测序得到很多的DNA序列。

  清华大学信息技术研究院研究员尹浩认为,大数据驱动的网络信息服务平台的建设。通过构建互联网大数据测量、管理、分析和可视化平台,能够优化网络资源的管理效率和提升用户体验。

  在传统产业工业领域,不少新兴制造企业都将大数据应用于生产。清华大学软件学院教授王建民认为,在传统工业企业当中,大数据目前要解决的一个核心问题就是实现平稳切换。如果把数据比作血液,数据库相当于心脏,替换数据库相当于心脏移植,因此在企业内切换数据库具有一定的难度,整个过程系统不能中断运行。可以说, 大数据技术作为一个新兴的数据处理技术,经过了多年的发展,已在各个行业中得到广泛应用,逐渐成为各级政府、各行各业、各家企业以及各种社会组织推进科学决策,造福社会和民众的重要手段,逐步成为我国新的经济增长点。

华人教育信息订阅号二维码