近日,由清华大学信息学院和清华信息科学与技术国家实验室(筹)联合举办的“大数据论坛--数据科学与技术”在清华大学举办。国家信息中心信息化研究部副主任、中国智慧城市发展研究中心秘书长单志广博士,清华大学副校长、清华信息科学与技术国家实验室(筹)常务副理事长薛其坤院士出席论坛并发表演讲。此外,五位首...
近日,由清华大学信息学院和清华信息科学与技术国家实验室(筹)联合举办的“大数据论坛--数据科学与技术”在清华大学举办。国家信息中心信息化研究部副主任、中国智慧城市发展研究中心秘书长单志广博士,清华大学副校长、清华信息科学与技术国家实验室(筹)常务副理事长薛其坤院士出席论坛并发表演讲。此外,五位首批国家实验室“数据科学与技术”研究专项负责人分别做报告,普适计算研究部朱文武做了题为“面向城市管理的三元空间大数据计算”的报告,从人类社会、信息空间和物理世界三元空间的数据融合与关联分析角度,阐述如何使用大数据获取、处理、分析技术服务于城市管理创新;智能技术与系统重点实验室孙茂松做了题为“以中文为枢轴的网络社交媒体大数据智能分析与高效计算相关研究进展”的报告,以互联网海量文本和图像为对象,展示了其团队在机器学习、中文信息和图像处理等相关理论研究成果及开发中“指尖上的中国好风景”演示系统;生物信息学研究部陈挺做了题为“疾病宏基因组大数据复杂关联结构分析的理论和方法”的报告,通过提取宿主体内大量寄居微生物群落中的遗传物质表达数据来解析微生物与宿主疾病之间的复杂关联结构关系;技术创新与开发部尹浩做了题为“大数据驱动的网络信息服务平台”的报告,通过构建互联网大数据测量、管理、分析和可视化平台,优化网络资源的管理效率和提升用户体验;信息系统安全研究部王建民做了题为“工业大数据平台”的报告,结合其在帮助三一重工从传统信息化向物联网工业大数据管理平稳迁移的经验,介绍在工业领域的大数据应用系统和运行平台等方面研发目标和项目进展。从大数据的基础理论、共性平台和典型应用等不同角度展现了丰富而精彩的大数据世界。
朱文武:面向城市管理的三元空间大数据计算理论与方法
随着城市化建设进程的加快,城市管理面临的最大难题就是城市资源有限与城市人口快速膨胀之间的矛盾,导致很多“城市病”的形成,如流感传播、交通拥堵等。由于缺乏全局的信息感知和关联,这些城市病依靠传统方法去解决已经难以奏效,因此,需要从局部或某种信息源进行分析。
大数据给城市管理带来新的思维变革,众所周知,目前可以利用各种互联网信息来进行城市管理,比如物联网、地理位置信息、摄象头信息等。然而,城市管理的核心对象是人,人类社会与物理世界和信息空间存在交互的行为,因此在本项目中,在原来的网络空间和物理空间的基础上引入人类社会空间,其目标是打通三元空间的数据孤岛,实现三元空间城市大数据的关联分析。
城市管理的数据基础是融合三元空间,首先要找到它们的映射规律、关联关系,把人、事、地三个空间形成有机关联,这样就能更好地提供决策的依据。因此,项目核心的问题就是如何揭示三元空间关联映射与知识生成机理,面对核心问题出现了两大挑战。
第一个挑战是三元空间关联的复杂性,由于在不同的空间,数据量庞大,数据特征也不一样,这些信息化事件有的是小范围的事件,有的是大范围的事件,由于多元异构关联复杂,导致统一表征困难。对于这种多元异构的数据,如何突破先验局限,从数据中学习出三元空间的统一表征空间?传统的方法是先验多,而大数据的方法是先验少。我们的思路是数据驱动的三元异构数据深层表征学习与关联计算,也就是说把三元空间数据放在机器上学习,然后可能在某个层面翻开隐含属性的数据,通过结构性关联挖掘,利用三元结构关系找到整个结构。
第二个挑战是大数据的认知的复杂性。三元空间数据不确定性使得我们对三元空间认知困难,需要在不确定的数据中发现有价值的知识,但往往缺乏数据驱动与群体智慧相结合的知识发现理论,这就需要在两者之间找到平衡。为了解决这个难题,可以考虑把群体智慧和数据驱动方法相结合,然后进行数据推理,最终做一个面向城市管理的原型系统。例如交通趋势预测原型系统,由相关部门提供交通数据,然后结合百度的搜索数据和腾讯微博数据,进行三元空间的融合分析关联。
孙茂松:以中文为枢轴的网络社交媒体大数据智能分析与高效计算
随着网民规模的不断增加,就会出现大量图文并茂的网络社交媒体大数据。图像与文本是最为典型普遍的非结构化数据。就图像而言,一般都是初级认知特征,但是实际上理解图像是要在高级认知特征的基础上,因此需要图文互补,也就是基于内容(语义)的图像检索。
以图片搜索图片为例,在百度搜索一张戴圣诞帽的猫的图片,会发现前面的搜索结果基本和图片类似,但是后面的就会出现偏差。图像的特点是形象、直观、简洁,在读图时代,需要有图有真相,但是图片难以表达复杂的思想,而文本的特点是能够“一文激起千层浪”,表达出复杂思想。这也是用文字搜图的一个特点,即以文本为媒介。本项目希望把文本和图像联合成一张图,也就是“文本+图像”的智能分析,在这里文本起主导作用,文本一个词有一个概念,图像有可能找到这个概念。
此外,我们还做的一项工作就是在线正则化贝叶斯学习,正则化贝叶斯学习具有很强的灵活性,但是如何高效计算是一个难题。本项目主要创新有两个方面:一是提出在线学习的正则化贝叶斯理论和算法,证明理论界;二是用于大规模文档分类与文档挖掘,单机上近百倍加速。
特别值得一提的是加强互联网文本深度分析方法,在互联网环境下新词层出不穷,如高富帅、白富美、不明觉厉、人艰不拆……搜索引擎可以把这些词提炼出来,但并没有发挥积极性,一个词如果流行起来成为新词,一定会在各种适合场景被广泛应用。可以用词汇模板来描述,充分利用统计度量的优势,采用数据驱动、知识无关、无监督的办法, 传统单一词向量无法解决一词多义的问题。未来还是需要不断补充、不断开展,将两方面结合起来。
陈挺:疾病宏基因组大数据复杂关联结构分析的理论和方法
生物医学大数据具有数据量大,样本少,数据异质,生命系统结构复杂,高噪声、非结构化数据的特点,因此要了解中间的关联结构非常不易。而传统生物学研究是以科学主导发现,就是先设定科学假设再做实验,然后再论证后来否定之前的假设。
微生物与人体共生,人体中微生物的细胞数是人体细胞数的10倍,人体中微生物的基因数是人体基因数的1000倍,所以很多新陈代谢其实并不是靠人的基因完成,而是人体中的微生物辅助人做新陈代谢的工作。美国国家微生物研究院在2008年启动人类基因组计划,他们开始的时候就是对人体的皮肤和大量样本进行采集,然后测样本中间微生物的构成,我们生活中大多数的微生物是不被知道的。
宏基因组学是对一个样本里面所有微生物的基因进行测序和分析,这个样本有大量不同的细胞,对中间的DNA 进行扩充,这就需要建立一个文库,随后进行测序得到很多的DNA 序列。从这个序列中间要能够分析样本中间的组成成分,这是一个计算的问题,通常样本中的细胞数从百万到上亿个。
在这些样本中,有一些是正常人样本,有一些是疾病样本,因此需要对不同样本进行测序计算分析,把结果在不同层面进行比较,找出两者之间的差别。
根据2009年《Nature》杂志的报道,肥胖人肠道细菌的数据明显少于较瘦的人。这就提供了一种思路,可以移植一些微生物到一个人的肠道,改变其肠道细菌情况,这也是现在很时髦的治疗方案。2013年5月,该杂志还报道糖尿病(typeII)改变了人体大肠内的微生物分布,可以从大肠的微生物的基因的聚类来预测糖尿病。
对于疾病宏基因组大数据的分析处理,第一层要对数据进行存储和管理,包括多种数据存储、运输、读取、分布式计算等;第二层要对数据的信息进行抽取;第三层是数据的分析预测,包括多元异质数据融合的统计模型、异构个体间的关联结构分析等;最后一层是数据理解和科学发现,包括与疾病相关的DNA 序列、突变、基因、微生物种等。
尹浩:大数据驱动的网络信息服务平台
从市场层面来看,2010~2014年主要有两种不同的数据:一种是网络主要运营商和设备提供商产生的大量数据,另一种是像谷歌、百度这类机构所产生的数据。从技术的层面看,互联网拓扑结构扁平化,网络流向趋势转移,内容提供商和服务提供商通过自建,使得他们对于终端用户流量的吸引可以与一流运营商相提并论。 从政策层面来看,相关部门也出台一系列政策。这些都驱动了网络信息服务平台的建立。我们构建的互联网大数据测量、管理、分析和可视化平台,能够优化网络资源的管理效率和提升用户体验。通过构建独立第三方互联网信息平面,来解决数据获取、数据管理、数据应用三大难题。
在数据获取中,最重要的一个难题就是有主动网络测量,也有被动网络测量,如何使测量数据过程中获得数据的成本最低?这就需要提高测量的准确性和完整性,减少测量代价,减少测量对因特网的影响,从而获取最大的数据经济密度。在数据管理分析时,由于网络应用的复杂性,一个网络应用可能需要多样化的分析手段去支持,比如分析一个原始的数据,首先要进行结构化处理,随后找出它们之间的关系,然后根据重点进行排序。
数据应用是一门艺术,如何保证算法实现的正确性?在计算量巨大情况下,如何利用几千台机器一起做并行模型训练以加快速度是很重要的。
在具体实践中,我们与江苏省未来研究院共建网络信息服务平台,测量网络覆盖全国60个城市IDC机房、两万个PC终端和1000个移动终端,覆盖联通、电信、移动、教育网等ISP,能够提供网络监测、决策支持及商业智能。
王健民:工业大数据平台
一直以来,工业都是传统产业,所谓工业大数据就是工业信息化过程当中产生的大数据,2012年GE就发布了《工业互联网:突破智慧与机器的界限》研究报告,指出工业互联网将进一步提高效率,促进生产力发展。
工业大数据的主体是时空机器数据。如今的华为、小米都是新兴的制造企业,它们原来都是和信息相关度很强的企业,应该能将大数据运用的比较好。像高铁大数据应用还不是很深入,目前的进展还不那么容易。
与传统的互联网当中产生的大数据不同的是,80%的工业大数据密度只有20%,需要分析挖掘,如图片数据、音频数据等。此外,还需要注意数据的依赖关系,要通过20%的SQL数据去引爆80% 的工业大数据价值。
以三一工业大数据演进过程为例,2008年就开始筹建工程装备物联网,随着2011年金融危机影响,2012年发现他们只能存储八万台设备等相关数据,严重影响业务的发展,因此他们希望可以引进一个数据平台。
在传统工业企业当中,大数据目前要解决的一个核心问题就是实现平稳切换。如果把数据比作血液,数据库相当于心脏,替换数据库相当于心脏移植,因此在企业内切换数据库具有一定的难度,整个过程系统不能中断运行。