大会报告，第29届中国数据库学术会议（NDBC2012）

大会报告


报告题目：	Big Data Analytics in Mobile Environments [ PPT下载]
	熊辉，Rutgers University，U.S.A.
个人简介：熊辉博士，本科毕业于中国科学技术大学, 博士毕业于美国明尼苏达大学计算机系. 熊辉博士目前为罗格斯-新泽西州立大学管理科学与信息系统系副系主任,副教授并终身教授, 并担任罗格斯-新泽西州立大学信息安全中心主任. 熊辉博士的主要研究领域包括：数据挖掘、统计计算、移动计算、自管理系统和信息安全。近年来，其在数据挖掘、决策支持、和移动因特网应用等方面开展了具有相当影响力并卓有成效的理论与实践研究。熊教授在国际学术会议和期刊上发表论文120多篇(其中有15篇发表在数据挖掘的顶级学术会议 ACM SIGKDD International Conference on Knowledge Discovery and Data Mining（KDD）上),并担任国际会议组织委员会委员/主席(比如, KDD-2012 Industry and Government Track PC Chair, ICDM-2013 PC Chair, 第29届中国数据库学术会议大会主席)。他目前还担任知识和信息系统（Knowledge and Information Systems, KAIS）副编辑, 中国计算机学会大数据专家委员会首批委员,以及美国国家科学基金会（NSF）特约评委，并被评为ACM和IEEE高级会员。另外, 熊教授还获得多个美国国家科学基金（National Science Foundation, NSF）、中国国家自然科学基金（NSFC）海外及港澳学者合作研究基金、德国政府、AwarePoint、IBM、SAP、Panasonic、华为等重要研究项目。为了表彰熊辉博士卓有成效的工作，在2009年，罗格斯-新泽西州立大学破格提前两年晋升熊辉博士为副教授并终身教授，并获得罗格斯-新泽西州立大学最高学术奖。
报告摘要： Advances in sensor, wireless communication, and information infrastructure such as GPS, WiFi, and mobile phone technology have enabled us to collect and process massive amounts of mobile data from multiple sources but under operational time. These so-called big data have become a major driving force of new waves of productivity growth, application innovation, and consumer surplus. The big data are usually immense, fine-grained, diversified, dynamic, and sufficiently information-rich in nature, and thus demands a radical change in the philosophy of data analytics. In this talk, we introduce some emerging big data applications and discuss the technical and domain challenges of big data analytics in mobile environments. In particularly, it is especially important to investigate how the underlying computational models can be adapted for managing the uncertainties in relation to big data process in a huge nebulous environment..

报告题目：	闪存数据库系统 [ PPT下载]
	孟小峰，中国人民大学
个人简介：孟小峰，1964生，博士，中国人民大学信息学院教授，博士生导师。现为中国计算机学会常务理事、中国计算机学会数据库专委会秘书长，《Journal of Computer Science and Technology》、《Frontiers of Computer Science in China》、《软件学报》、《计算机研究与发展》等编委。主持或参加过二十多项国家科技攻关项目、国家自然科学基金以及国家863项目、973项目，先后获电子部科技进步特等奖（1996），北京市科技进步二等奖（1998,2001），中国计算机学会“王选奖”一等奖（2009），北京市科学技术奖二等奖（2011）等奖励，入选“中创软件人才奖”(2002)，“教育部新世纪优秀人才支持计划”(2004)，“第三届北京市高校名师奖”(2005)。研制开发的主要软件系统有国产数据库系统COBASE、嵌入式移动数据库系统“小金灵”、中文自然语言查询系统NChiql、并行数据库系统PBASE/1和Native XML数据库系统OrientX、学术空间系统ScholarSpace、云数据库系统TaijiDB等。近5年在国内外杂志IEEE Transactions on Knowledge and Data Engineering (TKDE)、Geoinformatic、中国科学等及国际会议VLDB、SIGMOD、ICDE、EDBT 等发表论文120多篇，出版学术专著《Moving Objects Management: Models, Techniques, and Applications》(Springer)、《XML数据管理：概念与技术》、《移动数据管理：概念与技术》（中国计算机学会学术著作丛书）等。获国家发明专利授权8项。并多次担任本领域重要国际学术会议的各类主席，举办多个学术会议如FlashDB、CloudDB、MDM、XLDB Asia、NDBC、WAIM等。近期主要研究领域为互联络与移动数据管理，包括Web数据集成、XML数据库系统、云数据管理、移动对象管理、面向新型存储器的数据库系统、隐私保护、社会计算等。
报告摘要：在过去的几十年里，磁盘一直是最常用的存储介质。然而，随着电子技术的快速发展，嵌入式系统、航空航天等应用领域对数据存储提出了远超出磁盘能力的需求。目前由于磁盘的机械寻道特性，磁盘的I/O速度很难继续提高，低速的磁盘与高速的CPU、总线之间的不协调问题已越来越严重（在过去的20年间，CPU处理速度增加570倍，而磁盘的速度却只增加了20倍），这极大地影响了计算机技术在国民经济发展中的进一步应用。在这种背景下，闪存技术应运而生。闪存存储作为新一代的存储介质，以其存取速度快、耗电量小、存储内容非易失、小巧轻便等特点，在传统的磁盘一统天下的数据存储领域中异军突起，是取代磁盘作为计算机系统主要数据存储介质的首选。但现有的数据管理软件都是在传统的磁盘数据存储上针对磁盘的物理特性进行设计和优化的，直接在闪存存储上应用这些软件无法充分发挥闪存存储的优越性、满足数据管理的需求。本报告简要介绍了我们在闪存存储管理、闪存数据库索引、闪存数据库缓冲区管理、闪存数据库查询处理、闪存数据库事务管理等方面取得的重要创新性研究成果，并对主要研究热点和发展趋势进行了分析。

报告题目：	数据云：寻找在云计算上合适的大数据管理抽象层 Data Cloud: Looking for the Right Abstraction for Managing the Big Data on the Cloud [ PPT下载]
	王晓阳，复旦大学
个人简介：王晓阳教授，国家“千人计划”专家，自2011年9月起任复旦大学计算机科学技术学院院长，2012年7月起兼任复旦大学软件学院院长。回国前为美国佛蒙特大学计算机系Dorothean冠名教授，曾任美国国家科学基金（NSF）项目主管。王晓阳教授于1992年获美国南加州大学计算机科学博士学位。王晓阳教授长期活跃在国际数据库科研领域，在一级期刊编委及一级会议技术委员会、组织委员会中任职。其主要研究成果包括数据库及信息安全两方面，在国际期刊和会议上累计发表了100多篇高质量的学术论文，发表处包括计算机领域顶尖期刊与顶尖国际会议，如Artificial Intelligence、The VLDB Journal、ACM Transactions on Database Systems、IEEE Transactions on Knowledge and Data Engineering、VLDB、SIGMOD、PODS等。根据Google Scholar统计，其论文引用总数超过3千次，其中超过100次的有3篇，超过50次的共14篇，达到29次的论文有29篇（即H-index为29）。在项目方面，主持过8项美国国家科学基金会项目，并获得NSF Career Award奖。王晓阳教授与国内数据库学术领域联系密切，并于2000－2009年参与和主导了数据库国际会议WAIM系列，为国内数据库发展和国际化做出了贡献。
报告摘要：大数据的到来及其继续的增长看来已经是个不争的事实，而怎样管理大量的、快速产生的、及多样化的数据却是一个前沿性的大课题，还在“百家争鸣”的阶段。人们普遍认为云计算应该是管理大数据的基本计算平台。我们把利用云计算来管理大数据称为“数据云”。传统的关系数据库的巨大成功在很大程度上可以归功于图灵奖获得者E. F. Codd提出的关系模型，我们认为数据云的成功也需要这样一个（或多个）合适的抽象层。从机器底层来看，数据云要能充分利用云计算的横向可扩展性，并克服“无分享”性质及高出错率的障碍。在用户层，数据云要提供很好的用户体验，包括支持交互式分析。我们将分析几种人们已经提出并使用的概念来探讨作为数据云抽象层的可能性，并试图推荐几个可能的研究方向。 It seems to be a universal consensus that big data is here to stay and growing fast. What's still being debated is how to manage the big data with its three V properties, namely Volume, Velocity, Variety. One aspect, however, is commonly agreed, that is, cloud computing is the right computing platform for managing the big data. We call "data cloud" a system that manages big data on the cloud. I will argue that data cloud is still in its infancy, mainly lacking a right abstraction that serves as the traditional relational model did for managing business data one a centralized server. At the low level, data cloud needs to leverage the cloud elasticity, but overcome the "shared-nothing" restriction and high failing rate, to deliver high efficiency. At the high level, data cloud should deliver user friendliness including interactive analysis capability. I will look into a number of different abstractions used by the community, and propose some tentative ones that I believe worth further research.

报告题目：	Milgram实验与社交网络搜索的启示 [ PPT下载]
	李晓明，北京大学
个人简介：李晓明，北京大学教授。中国计算机学会高级会员，美国电气工程学社Eta Kappa Nu社员，IEEE高级会员。最近几年对计算机科学与社会科学的跨学科研究和教学很感兴趣。曾主持发展了全国高校最大的互联网信息搜索引擎，“天网搜索”，出版了《搜索引擎：原理、技术与系统》（科学出版社，2005，2012）；提出了收集存储并系统研究中国网页历史信息的理念，发起并主持建设了“中国Web信息博物馆”；出版了教材《计算机网络与互联网》（机械工业出版社，2009），《计算机系统平台》（清华大学出版社，2009），译著《万维网的定律》（北京大学出版社，2009）和《网络、群体与市场》（清华大学出版社，2011年）。李晓明现在是《Concurrency and Computation: Practice& Experience》（John Wiley），《Journal of Web Engineering》（Riton）和《Networking Science》（Springer）等学术刊物的编委。
报告摘要：这是一个关于学习体会的报告，谈不上是讲者个人的研究成果，但体会形成过程中有研究的成份。1967年，社会心理学家Stanley Milgram发表了他的小世界实验文章（Psychology Today）。在那之后，“小世界”和“六度分隔”之类，不仅成为诸多科学领域共同关注的对象，甚至也成为街谈巷议的内容。显然，Milgram的这项实验研究为人们带来了一种具有比较普遍意义的新知识，扩大了人类生活的词汇。在大规模社交网络中，节点度数相对很小，但任何两个节点之间居然存在丰富的短路径，这是一个令人惊奇的现象。人们不断探求其背后的原因。直到1998年，Watts和Strogatz给出了一个社会网络理论模型（Nature），比较好地解释了其中的必然性。然而，Milgram实验还蕴含着人们较少提到的第二个惊奇：那些信件居然能沿着短路径到达目的地。Watts-Strogatz模型不能对此给予合理解释。事实上，按照他们的模型，尽管两个节点之间存在丰富的短路径，但在该网络上进行“分散搜索”所导致的路径通常很长。2000年，Kleinberg发表文章（Nature），推广了Watts-Strogatz模型，解释了这第二个惊奇的必然性。在Watts-Strogatz-Kleinberg模型中有一个基本的参数q，它是刻画社会网络中弱连接跨距的一个概率性指标，模拟表明q=2是最优的（即最有利于导致短路径的分散搜索）。但那只是模拟的结果，成熟的现实社会网络中是这样吗？2005年，利用一个含有用户地理位置信息的在线社交网络（LiveJournal）的数据，Liben-Nowell等发表文章（PNAS），表明OSN上的情形与理论模型中的q=2相当吻合。同样也是2005年，利用惠普实验室人员的email数据和组织机构信息，Adamic和Adar发表文章（Social Networks），表明现实社会网络的确也有这种性质。这些工作所提供的证据表明：我们很可能发现了关于社会网络的一个普适常数。社会网络，微观上随机演变的一种结构，宏观上实现了一个确定的优化参数，亦即人们局部随机的社会活动完成了一种全局优化的计算（社会计算？）。上述，跨40年，生动地体现了一个重要概念研究与发展的学术历程。

报告题目：	从数据库观点看大数据研究 [ PPT下载]
	周傲英，华东师范大学
个人简介：周傲英，男，1965年生华东师范大学软件学院教授、博士生导师。分别于1985和1988年在成都科技大学（现四川大学）获得计算机应用学士和硕士学位，1988年至1990年在成都科技大学计算机系担任助教。1993年在复旦大学计算机系获得博士学位后留校工作，1995年5月晋升为副教授，1997年5月晋升为教授，1998年1月起担任计算机软件与理论方向博士生导师。1996年3月至2002年7月担任复旦大学计算机科学系副主任和系主任。2005年获得“伯克利学者”奖励计划资助在加州伯克利大学访问研究。 2008年2月起在华东师范大学工作，担任软件学院副院长、海量计算研究所所长。2011年1月被聘为西安交通大学兼职教授，兼任上海市智能信息处理重点实验室（复旦大学）主任。主要从事数据管理及应用研究。曾获得国家杰出青年基金，入选长江学者特聘教授。入选上海市优秀学科带头人、教育部跨世纪人才等人才计划。获得国务院特殊津贴、霍英东青年教师基金奖励和五次教育部上海市科技进步奖。目前担任中国计算机学会数据库专业委员会副主任、ACM SIGMOD China副主席。担任《计算机学报》副主编，《VLDB Journal》《World Wide World Journal》等期刊的编委；曾任ER'2004大会主席、ICDE'2009、 ICDE'2012 PC Vice-Chair。将担任VLDB'2014 PC Co-Chair。

报告摘要：大数据已经成为一个很时髦的术语，似乎也意味着关于数据管理的研究从“数据库”时代进入“大数据”时代。不仅如此，一些专家不求甚解的解读再加上媒体连篇累牍的宣传，给人们留下了“数据库已经过时，该进博物馆了”的印象。那么，到底什么是“大数据”？这个概念是如何诞生的？它的内涵和外延是什么？从字面上来看，“大数据”这三个字构词简单，本身没带太多信息，给人们留下很大的解读空间。认真思考一下这几个问题，可以使得我们对“大数据研究”有自己独到的见解，避免人云亦云、拾人牙慧。尤其是我们这些学习和研究数据库的人，更应该客观和理性地分析当前的现象和思潮，在当前的语境下来重新审视“数据库研究”：人们是如何理解“数据库”这个概念的？数据库学科是如何发展和成长壮大的？数据库到底研究了些什么问题？“数据库研究”和“大数据研究”是一脉相承还是各成体系？通过对以上两组问题的思考和分析，得出以下结论：“大数据”是个笼统的概念，进行分类有助于对它深入理解；“大数据”概念的产生有其应用和技术背景，但“数据库研究”中的许多理论和技术对“大数据研究”而言，有的是度身定制，有的是老树新枝；在研究理念和方法学方面更是一脉相承。除此之外，还针对大数据研究的一些难点问题，如：语义建模、功能/性能均衡、硬件/存储结构、典型应用，以及一些具体的技术热点，如：“Hadoop+HDFS+Map/Reduce”模式、“内存计算+列存储”模式等，进行讨论。最后简单介绍我们在相关方面的研究开发实践和计划。