腾云

腾云028

作者: 2014-08-12
大数据畅想

推荐人:黄晓庆 中国移动通信研究院院长

 

推荐语:

我很喜欢《星际征途》这部科幻系列, 我记得在里面有几集谈到在24世纪(即23XX年后)人类的有价值商品就只有信息了,如各种材料的组成方法、各种生物的基因、新的算法和设计等等。实际上,这就是物质的极大丰富。物质产品如同空气和海水一样丰富,在人类解决了能源的问题后,这就是一个很有可能的结果。而信息成为唯一能够区别价值的产品了,大数据时代的来临应该是这个时代的一个先奏曲。

 

如果我们用一个大数据眼光去看世界,就会发现当我们把世界上发生的各种事情有效地记录下来后,这些信息能够产生多么令人震撼的结果。我们可以把一个人的各种上网行为记录下来,时间长一点后,我们对他的了解可能超过了他的太太。我们把一个人的消费行为记录下来,时间长了以后,我们对他的了解可能超过了他自己。如果把这些信息的人群集聚起来,我们就发现原来我们不用做市场调查,就可能很容易地判断出各种人的经济水平、政治倾向、职业诉求等等。这是一个让人无法逃逸的时代,我们每一个人实际上都完全是透明地生活在各种电脑数据收集和各种传感器的测量之中。我们不管是上街、打手机或上网、用信用卡等等,只要是有通信有计算,就离不了大数据了。

 

大数据使人类开始能够用一种全统计的方法来研究世界。这样的方法首先是被谷歌用来设计搜索引擎,它被证明是最伟大的设计理念。我们现在开始把这些方法论用到了各种问题的解决。文字翻译、语音识别、图片识别、深度学习等等重要的领域现在都在利用大数据技术来解决各类问题,并取得了不可思议的结果。很明显,下一波我们将看到越来越多的科学和商业问题将用大数据技术去解决,如人工智能、生物制药、新材料研发等领域。

 

最近,两件谷歌的事情让人注意。一件事是Ray Kurtsweil加入了谷歌,他是一个未来学家,加入谷歌的原因是为了能在2049年前造出人工大脑。另一件事是谷歌最近成立了一家生物制药公司Calico,其目的是为了研制防衰老药。谷歌还挖角了业界大佬,前Genetech的高管加入。

 

为什么谷歌可以干这些,业界公认,因为他们有世界上最大的云,有世界上最好的大数据系统。

大数据时代的来临,既是我们一次产业的盛宴,也可能是我们下一个时代——机器人时代——的先奏。

 

 

文章内容

大数据畅想

汇编/段永朝

 

按:20131024日,第二期腾云饭局如约而至。这期饭局由《腾云》和湛庐文化合作主办,主题是“畅想大数据”。在湛庐文化总编辑韩焱女士的主持下,国内外通信与互联网行业的知名人物田溯宁、大卫、王煜全、姜奇平、胡泳、段永朝,与腾讯公司社交网络事业群总裁、集团高级执行副总裁汤道生,《腾云》副主编杜军一道,畅想大数据在互联网、金融、教育,乃至人类进化领域的各种可能,描绘了未来多维度的大数据生活。

 

投资者与大数据

 

大卫:关于大数据,我主要讲两点:第一,从个人角度,大数据会改变教育方式、健康管理方式、日常沟通习惯。第二,大数据极大改变了各个行业,首先是金融服务行业。

 

在硅谷,我刚刚从事大数据图景描绘的时候,只有25家公司,现在已经有125家公司了。大数据领域已经有了非常大的转变。在此之前,只有那些有大量资本、有人力、规模很大的机构,才可能获得大数据。现在已经转变到了消费类公司,大数据已经可以为每一个平常人所用。大数据公司直接向商业用户提供服务。

 

IBM是一个非常有意思的案例。对于智慧计算来说,他们的技术是很好的,但是市场并不怎样。IBM的资源是非常丰富的,有大量的博士学位研发人员,还有强大的全球服务体系,销售团队也很强大,资本也很雄厚。但我觉得他们并没有很有效地来宣传自己,反而是其他的公司占了先机。他们现在所要做的,就是把自己塑造成大数据公司。从历史上看,IBM在遭遇低潮之后,总是会不断地繁荣、复兴。既使每次有人不再看好IBM,结果IBM后来又实现了自我革新。

 

姜奇平:今年,金融行业对大数据尤其感兴趣,因为大数据在拓展差异化业务。互联网金融的竞争虽然非常激烈,但整个产业链还是缺失了很多环节。一些服务商目前还是在建设阶段,它们如何和商业进行结合显得非常重要。

 

田溯宁:投资有两种方式,传统的投资叫猎人,你看好一个项目,10个项目里面选一个。另外一种像当农民,在技术刚刚开始的时候,你找不到最好的,但你可以进行培育。

 

在云计算和大数据方面,我们采取的方法就是通过基金加基地。有点儿像孵化器,关注整个产业链。优秀的创业者应该聚在一起,最好的思想、最好的人聚在一起,能够像原子核裂变一样,互相支持、互相鼓励。

 

云计算和大数据,是一种破坏性技术,甚至比互联网还具有“破坏性”。前端Wintel逐渐被安卓和iOS打败,后台实际上被开源计算、分布式计算所取代。这个机会对中国市场很难得,能够从技术架构上培养一群企业。大数据相当于矿产资源。工业革命的时候,最牛的人都是把矿炼成钢的人。我越来越相信,数据正成为21世纪最主要的资源。

 

运营商与大数据

 

段永朝:我觉得运营商需要搞清楚“模式”的变化。运营商的模式是从电话机继承而来的。电话机的模式,简单说是“发送者主权”,即所有的通话是由拨打者发起的。这是典型的工业思维模式。短信就不同了,短信是“接受者主权”,即接受者有权决定什么时候去读你的短信。微信这个产品平衡了发送者和接受者的关系,给发送者和接受者提供了相对平等的权力。这就是模式的不同。运营商的模式决定了收入结构很大程度依赖语音话费,所以它对搞话费套餐热情高涨。互联网的模式需要重新想象,比如要问,将来打电话完全免费、甚至还要倒贴钱,你怎么办?

 

姜奇平:在OTT的冲击下,运营商和互联网企业密切起来了,国内外都是这个趋势。互联网企业和运营商,都关注下一步HTML5、大数据、云这一块会产生什么价值。现在还判断不好,到底是运营商自己去搞云,还是互联网企业去搞云?所以运营商要转变观念,否则用户就转到互联网公司去了。

 

田溯宁:从计算架构来讲,运营商和互联网公司有两点不同:第一,运营商是实时的。第二运营商属于社会基础设施,对计算要求跟银行一样,可靠性非常之高,要求99.99%

 

互联网建立在电信基础服务之上,刚开始很多东西不收钱,它只是在做增值。但现在情况不一样了。下一步互联网和运营商两个结合在一起。整个世界都要互联网化,但是互联网技术架构又承担不了实时计算的能力,实时计算本身跟互联网的架构是有冲突的,所以我觉得在技术创新、商业模式创新领域,会有非常多的机会。虽然转过来比较难,运营商总是习惯于第三方公司给他提供技术能力,他自己缺乏这种技术能力。而互联网公司的技术都是自己拥有的。我觉得下一步在运营商和互联网公司里,应该出现合作和相互补充的领域。

 

数据立法是关键

 

姜奇平:我觉得将来会涌现出一个现象,就是最终要把元数据和最终数据分开,把元数据和加工过的数据分开管理,这样的话要有一个加工的环节。

 

王煜全:重新定义运营商的服务,我倒不认为焦点在话音还是数据,它一定是融合的。焦点应该在“哪一层归运营商管”。当初对增值业务的定义不合适了,以前话音是运营商的,其他是别人的。现在什么应该是运营商的呢?就是安全保障。美国现在有一个趋势,软件公司普遍改收年费了,包括微软的Office、甲骨文。这个和运营商捆绑是很自然的,你买服务,我就把相应的软件全部配上,一个年费包给你,我有QoS,然后再和Office、甲骨文分帐,理所当然。

 

电信圈现在普遍有一个问题就是政策高度不够,理论上大数据应该由运营商讲,运营商没抓住核心,还是在发展用户数量。大数据时代,谁能做数据的“央行”,谁就有未来。

 

田溯宁:是的,一个是安全保证,一个是运营商要平台化。将来我觉得,数据的所有权会变成非常重要。比如跨境数据这个问题,都是企业面临的非常大的问题。大数据时代很大的挑战,就是数据的所有权、隐私权。将来会有数据市场,数据可以买卖。

 

王煜全:如果法律界定不清楚,会导致你自己都不敢用。我前两天在腾讯讲创新,当时有一个听众说,我有一个App,但是想知道别人的开关机数据,希望把这个数据拿出来,看能不能做分析,给用户提供服务。但现在数据部门给不出来,不敢给你。我觉得这就反映一个问题,我们应该大规模地推动政府重视信息立法,这样其实对你有好处,对用户也有好处,因为你敢用了。

 

到底什么是大数据?

 

胡泳:我觉得大家太多地谈论大数据的技术性,大数据的价值其实就是世界观、价值观。其实世界没有原始数据这么一说,所有的数据都是经过嫁接的。将来有一个很大的问题,就是大量数据已经变“脏”了,很多东西不可信。维基百科现在有大量的数据,但人造的、假的东西越来越多。所以我觉得它不可能是一个纯粹的数据科学,根本问题是:到底人性和数据之间是什么关系?技术越发达的时候,其实个人越来越有一种崇尚本能、发自内心、偶然的因素在起作用,就是非决定性的这种东西。我觉得人正在一步步往机器上走。这种情况下,我认为有信仰的人,将来会多于现在。

 

段永朝:我同意,宗教情感会回归。工业时代是驱逐宗教的时代,信息时代其实是灵性复归的过程,我相信宗教会得到越来越多人的信仰。

 

上个月我碰到上海大学的一位数学家,他介绍的“血谱”非常有趣。他说我们中国人有修家谱的习惯,家谱有两个来源,一是纸谱,二是石谱。他提供的解决方案是血液DNA比对。这个研究可以探讨几个问题。一个是人种迁徙的轨迹,第二个是血缘关系的推定,第三个是文化考古。我觉得这位老师做的这个事情才是大数据。我想大数据的本质是“活”数据,而不是死数据。

 

大卫:我跟200多家数据公司都进行过交流,包括微软、甲骨文,还有一些小的公司,但是我们刚才的这个对话,是我所进行过的最有意思的关于大数据的谈话。我想做两个评论吧。第一个关于刚才提到的运营商。在美国我们现在认为,运营商其实已经被时代所淘汰了,苹果现在成了新型的运营商。第二个是人的进化问题。想想远在石器时代的时候,人就学会了使用技术,正是这一点把人与动物根本区分开来。所以在当今的世界,我觉得人肯定会越来越多地使用一些工具,比如说谷歌眼镜、无人驾驶车等等。

 

大数据也是双刃剑

 

王煜全:前两年的重点是通过数据来翻译行为,因为到最后只有行为才是有价值的。我觉得大数据最有价值的地方就是社交群体。社交数据研究的三个点是:全样本、实时、连续数据。以前没有社交网络是不可能出现这三种的。这意味着你可以对每个人进行微观观察。我们做了一个很好玩的研究,人的友善跟社会地位的关系。理论上讲一个更友善的人,他的社会地位提升会更快。数据科学提供一个非常强的工具,理论上讲一个人更多地和比自己社会地位高的人互动,他会有更强的意愿往上爬,这个数据我们现在是可以抓出来的。

 

社交网络里会好很多,因为社交网络里有很多交叉分析的方法,用语义来测行为、测社会等级,主要是看你的相关属性,你和谁社交,一个 乞丐不可能认识一堆亿万富翁,一个亿万富翁也不可能认识一堆乞丐。腾讯数据为什么厉害,就是QQ空间前面积累了10年的数据。分析一个人,以往更偏向这个人的垂直数据积累,现在你再把社交数据放进来就不一样了。

 

姜奇平:这里面必须克服一个障碍,即语义分析的问题,你说你喜欢我,他说我不喜欢你,其实他是撒娇,我不喜欢你是我喜欢你——怎么把这些话筛选出来?得判断这个语境。

 

汤道生:核心的问题是,到底我们可以收集什么数据。所以我们希望有数据立法,把数据变成为能够交易的。另外一个更重要的部分是应用,这些数据的应用场景在哪儿?现在的局限在于,应用场景跟数据的产生要绑在一起,这些数据是属于谁的?

 

但是需要注意的是,分析数据是一个双刃剑,你如果通过分析达到了结论,比如说跟网上沟通比较多的那个可能上进心更好,你一旦下了这个结论就影响了所有的人的行为。而影响了所有人的行为,又可能会干扰你后期的分析,从而造成一连串的影响。

 

未来会怎么样?

 

杜军:今天说了大数据光明的一面,也说了我们的担忧。但最终,大数据还是要为提高人类幸福而服务。在各位老师刚才的发言中,我们已经能看到,基于大数据的商务智能可以帮我们高度细分,定制信息;数据挖掘和分析可以根据用户过去的甚至实时的行为信息,预测其未来的行为;如果语义网得以普及,更是一个高度个性化的智能网络平台。

 

当然,在数据保护和数据开放之间,我们应该取得平衡。但在解决了法律问题之后,数据开放是新的趋势,不仅是个人与企业,还包括国与国之间。现在的技术基本解决了收集数据的问题,大量的创新公司在探索使用数据的方法,开放数据则表明了我们对未来的态度。

 

田溯宁:我觉得任何一个大的技术进步,最终还是要跟人的生活相关。过去我们平均寿命40岁,后来免疫、抗菌素、阿司匹林的出现,我们能活到七八十岁,这是工业革命对人类最伟大的成果。大数据下一步最伟大的应用就是跟“量化自我”有关,能够让我们每天的心跳、每次感冒的各种状态、血压,时时刻刻记录下来。记录下来之后,很多未来都可以预测,将来得感冒像预测天气预报一样。我觉得这时技术就变成爆发性的技术了。

 

工业革命使人类得到了跨越式的发展,但信息技术还没有到那样一个程度。我觉得大数据的应用,医疗是非常重要的一块儿,每个人的个性化医疗将会出现。未来跟教育有关,我们的教育是典型的工业化的产物,其实天才可以很早就被发现出来。教育、医疗、交通这些传统的工业方法都已经走到尽头了。比如众包这种方法,就是知识革命的生产线。过去工业革命的生产线是福特汽车这些东西。在互联网上社群能够集中干一件事儿,既可以大规模生产又特别个性化,这是将来特别重要的变革。

 

姜奇平:人的大脑可能只开发了1%,其中有一个能力我认为将来会有,就是人的并行处理能力。现在小孩儿一会儿干这个,一会儿干那个,他同时干好几件事儿,都能处理。以后小孩凡是网上有答案的就不再动脑子了,他觉得网上有答案还思考,那是傻瓜,我只思考没有答案的东西,所以他是创造性思维。如果能在群体协作的情况下得到答案,我为什么还要去弄那个答案呢?

 

王煜全:准确说,人是不具备进行并行处理能力的。不过人有瞬间转换的能力,比如说我们开车时也能通话,其实我们是在切换。美国幼儿园从小训练就是这个,他只训练两个能力,一个就是你的专注力,第二个叫情绪控制。你能控制情绪你就能抗干扰,国外叫延迟满足。美国有个医学教授是搞大脑可塑性的。过去讲神经不可再生。他做了一个设备能让盲人重新看到外面的三维世界。他用摄像头采集外部光线,用计算机把摄像头的图像实时切成20×20400个小格,把光强度转换成电强度,然后把400个点映射在舌头上。这样你的数据传进来,拿舌头当眼睛用。

 

汤道生:大数据概念其实分两部分;1.数据产生与收集,2.数据分析与应用。现在的局限在于,只有收集数据的组织或企业能对相关数据做分析,应用在自身的场景里。数据的收集与应用捆绑在一起,局限了数据的使用范围与交叉分析的机会,值得让人思考的是:用户数据到底是属于谁的?最终得益的是谁?如果数据是开放的,让其他研究机构或企业可以做研究与分析,我们可能会有更多有意义的发现与创新,加速人类文明与科技的发展,不过,同时也可能会造成用户隐私泄漏的问题。

 

非常有意思,刚才看到大家从数据到人类的发展历史、到生物进化,我觉得从采集数据到分析数据,未来还有很大的想象空间,而且这是多维度的想象空间。腾讯在这方面,其实也思考蛮多的。一方面我们有很多的用户行为数据,但是在使用数据的同时,必须保护用户的隐私。数据管理也是全球化的挑战。

 

我们以往讨论大数据时,侧重在数据存储与数据处理的技术比较多。但更有意思的是,有什么数据会产生与采集,怎么去分析它与应用它?数据收集和应用今天是绑在一起。对一家公司而言,如果他所服务的领域越多,越有机会把这些不同领域的数据灵活地打通,使用在不同场景下满足不同的需求,甚至延展他的商业模式。当然,如何建立更多的数据分享的机会,让数据存储和应用相互分离,可能可以让整个人类社会利用数据的效率、创新的机会更大,这也是激动人心的领域,充满挑战。

前沿杂志
互联网前沿61

2022年,从引爆AI作画领域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,AIGC不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼。

2023-05-12

全站精选