腾云019

作者: 2014-08-12
网络新纪元

推荐人:熊伟专栏作者、分析师、中国计算机学会YOCSEF学术委员

 

推荐语:

有个段子说,做互联网的人谈论大数据,就像青少年谈论性——人人都在兴奋地说,人人都不知道怎么做。看了这篇文章,您还是不知道怎么做(对,是说做大数据),但会知道为什么要做。所谓大数据,就是信息载体多样、格式各异的尚未结构化的数据。当大数据被结构化之后,就能够织入蒂姆 伯纳斯 李所说的“数据的网”。

 

数据的价值体现在彼此的关联上,对数据应用方法的开发,也大体通过分析数据关联的途径展开。比IT业的人更喜欢使用关联数据的是编剧们。昏暗的房间里,唯一的光源是照亮键盘的如绿豆般大小的灯,黑客运指如飞,交叉比对,惊天秘密猛然显现……看看这篇文章,就明白数据能以怎样的规模关联起来。

 

互联网发展到今天,用户已经成为主角,我们不必等待电影里的黑客,或现实中的技术高手,自己就能改变数据的世界地图。蒂姆 伯纳斯 李举了一个例子,演示上网者如何为比特空间增添内容,又是通过怎样的信息分享方式合作的。

 

本文作者在1989年发明了万维网(WWW),他先竖立了万维网的两大支柱:HTMLURL。设计HTMLURL,无非是让信息标准化和可访问。作者说,其初衷来自面对大量不兼容数据的“挫败感”。这件事情令人感叹——把一个简洁的想法付诸实现,在短短二十多年间,产生了怎么形容都不过分的巨大影响。 

 

文章内容

网络新纪元

 /Tim Berners-Lee /Zheng Xiao

 

光阴似箭,差不多是20年前,当我想重新构造人们使用信息以及协同工作方式的时候——我发明了万维网。20年过去了,现在,我请求你们帮助创建新的架构。

 

回到1989年,我在备忘录中建议使用一种全球的超链接系统,但几乎没有什么人在真正用它。18个月后,革新就是这么开始的。老板说,我可以拿我们新买来的电脑兼职做这件事——做一种游戏性质的项目。我草拟了下HTML应该是什么样子,超文本协议——HTTP——关于URLs的想法——事物的名称——这些事物都是以HTTP开头命名的。我完成了代码并发布出来。

 

为什么要这么做?我在研究所的工作是一个充满挫败感的过程——因为工作在令人兴奋的超大的实验室中,很多人从世界各地来到这里,他们的电脑各不相同,数据格式各不相同,文件系统各不相同。这其中有很大的差异性。如果我想建立一点点东西,需要从这些差异性巨大的电脑上找一些数据,就必须连接到新的机器,运行新的程序。令人沮丧的是,这些都是不兼容的。而挫败感却正显示出这个项目的潜力所在。

 

事实上,这些磁盘里全是文件。所以如果仅仅把它们想象成天空中某些大型虚拟文件系统的一部分,比如Internet,生活就会简单得多。一旦有了这样的想法,你会感到非常兴奋。即使老板并没有读到我的备忘录,事实上他读到了,因为他在草稿中用铅笔写到“模糊,但是令人兴奋”。

 

TED的演讲最初举办的时候,那时没有网络,所以像“点击”这样的词语在当时的含义是不同的。我可以展示一大堆超链接,点击一个链接,然后就会转到另一个超链接的页面,可那时候没有人对此感兴趣。困难在于帮助人们想象一个联网的未来——想象那个链接可以到任何实际能想象得到的文件。然而一些人做到了。尽管很难解释,但是这是一场草根运动。不是技术,不是人们用它所做的东西,而是实际的交流,所有这些人的思想汇聚。这是当时的情况。

 

有趣的是,现在的情况又变得跟20年前有点类似了。每一个人或多或少都发布过文档。这已经是一场疾风,不是吗?因为我们发现,由于网络而出现的新可能。现在它的功能比我们想象的还多。

 

互联网最初的设计只是想把文档放在一起而已。现在,我想把数据放在网上,因为互联网还是有巨大的潜力。但我仍然有很大的挫败感,因为从网上得到的数据不是我们想要的数据。

 

文档和数据之间有什么区别?文档是人们阅读的东西,但你却可以通过一台电脑使用各种数据。谁听过汉斯·罗斯林的TED演讲?那是一个很伟大的TED演讲。汉斯在他的演示文档中,使用不同的颜色表示不同的国家。他在一个轴上显示收入水平,同时用动画按年份显示婴儿死亡率,他使用数据完成了一场演讲,这个演讲改变了许多人关于发展中国家经济发展的认识。他展示了一张幻灯片:

 

 

在右图可以看到,数据都被埋在地下。数据是这些棕色的、无趣的四方盒子——我们就是这样看待数据的。对于数据,假如单独地看是没有意义的。但事实上,数据却在很大程度上驱动了我们的生活。假如有人拿到数据,并加以处理,数据就显现出其力量。汉斯在联合国的网站上找到了各种数据,将数据放到了一起组合起来使之比原始数据有趣得多。然后把数据放到软件中,最终他做出了美妙的演示。

 

不仅仅是两组数据间的连接,或者像他所说的那样六组数据,而是这个世界上任何人,把数据甚至一切物件都放到网络上。我将此称作关联数据。如果你想把东西放上网络,有三条规则:第一条规则是,需要有HTTP的名字。所有概念化的东西现在都以HTTP开头命名。第二条规则,如果我有一个HTTP名称,我可以从网上获取数据。通过HTTP协议,我将得到一些标准的格式化数据。这些有用数据或许是关于人们希望了解的某个事物或者事件的主人公、关于这个人的所有信息等等。所以,第二条规则就是我通过HTTP获得了重要的数据。

 

 

第三条规则是,我得到的信息,不仅仅是某人的身高、体重和出生日期,还有数据间的联系。这个人出生在柏林,柏林在德国。当数据有联系时,无论何时它表现出这种联系,另一件与之有联系的事物就必须以HTTP开头命名。所以,我可以直接去找那件事。比如,我查一个人——他出生的城市,这个城市的所在区域,城市乡镇人口等等,这样我就能浏览这些信息。这就是关联数据。

 

关联数据的想法就像我们得到了很多类似汉斯拥有的盒子。大量事物开始发芽生长,它带给我们相当多的植物。不仅仅是一个根供给一个植物。对于这样的每一个植物,无论它是一个演示,或一个分析,只要有人要寻找数据间的规律,他们都可以着眼于所有的数据。重要的是,关联起来的东西越多,数据就越有价值。来自柏林自由大学的克里斯拜泽,注意到维基百科里面有很多有趣的文档。在这些文档中,有些小方格子和小盒子,里面包含的就是数据。他写了一个程序将数据从维基百科中提取出来,然后将它们放到关联数据的一个圈里,命名为dbpedia。如果你去找柏林,你会发现还有其他的数据,当中也包含了与柏林相关的信息,它们被联系到了一起。所以,如果你要从dbpedia中摘出关于柏林的数据,还会摘出其他内容。让人兴奋的是,这样的事情正在迅速发展。

 

说到数据,我能说出各种各样的数据:有政府数据、企业数据、科学数据、个人数据、天气数据、关于事件的数据、关于谈话的数据,还有新闻和各种类似的东西。由数据的多样性便可以看到潜藏在数据底下的无限可能。

 

奥巴马说,政府数据将以一种可访问的方式发布到网络上。我希望这会是以关联数据的形式出现。想想有多少关系到在美国如何生活的数据,它的确很有价值。在公司里,我可以用得到,我的小孩做功课也能用得到。所以,公开这些数据会使世界变得更美好。

 

 

事实上,政府却将这些数据封闭起来。汉斯说,政府部门喜欢抱住他们的数据不放,直到他们建立了一个漂亮的网站。我想建议的是,在建网站之前,请先把未经处理的数据摆出来。我们要的是数据,最原始的数据。

 

熟悉这个名词是很重要的。人们会想出各种各样的理由,拒绝将原始数据公开出来,哪怕你作为一个纳税人已经为此付了钱。这不仅仅存在于美国,全世界都一样,也不仅仅在政府,当然也存在于企业。

TED,我们一直关注于人类社会目前所面临的巨大问题,比如治疗癌症,了解老年痴呆症发病机理,了解经济运行规律,理解事物发展变化的规律。那些致力于解决这些问题的科学家,他们脑海中有些还不成熟的想法,他们试图在网络上与他人交流,但是现状是人类的很多知识,都被关在私人的数据库里,没有公开出来。

 

如果你是研究老年痴呆症的科学家,以药物发现为例——这个领域具有相当多刚刚出现的关联数据。因为这个领域的科学家们意识到,关联数据可以帮助他们摆脱数据孤岛。他们在一个数据库中建立了基因图组,在另一个数据库中建立蛋白质数据。

 

  

 

现在将基因图组和蛋白质数据形成了关联数据。他们可以问排序的问题:哪些蛋白质参与信号转导,并且也和锥体神经元相关?将这个问题放到Google上搜索,自然没有回答结果的页面。因为之前没有人问过这样的问题。虽然你得到了223,000个结果,但是没有一个用得上。假如去检索关联数据呢?命中32个结果,每一个结果都是与特征相关的蛋白质。关联数据赋予科学家这样一种可能,去探寻这些跨学科的问题的答案。这是彻底的改变。

 

假如你认为关联数据只是大机构的事情,那就错了。事实上,数据关乎我们的生活,比方说,你登录最喜欢的SNS网站,看到了你的朋友,点击添加。这是联系,这就是数据!你在社会化网络上做每一件事,社会化网络站点就获取数据并利用它,通过算法使得数据显现出其价值,使得用户体验变得更加丰富。

但是,当去到另一个关联数据网站,假设是一个旅游网站,你说“我想把这张照片发给我在另外一个SNS网站的朋友”,但你却无法翻过这些墙。

 

 

要改变这一现状,我们需要在这些社交网络之间,搭建关联数据的网络。在我来这之前,我通过OpenStreetMap——OpenStreetMap是一个地图,但同样也是一个维基——查找了一下特伦斯剧场(位于长滩市,加利福尼亚)。它现在还没有被标上名字。所以我可以在编辑模式,选择剧场,然后在底下填上名字,然后保存。现在再去访问OpenStreetMap.org,你找到这个地方,就会发现它现在有名字了。这都是我刚刚在地图上标的。

 

如果除了我,每个人都在这个地图上标注一点,将会产生难以置信的资源。每个人都做一点,生成一点内容,然后把它们连接起来,关联数据的秘密就在于此。数据来源之多寡并不是那么重要,更重要的是,将它们关联起来。

 

现在我们处在一个阶段,这个阶段呼唤我们采取行动,所有认为这是个伟大想法的人们,甚至是所有人都应该行动起来。这不是当日投资当日有回报的事情。只有当每个人都这么做,我们才会从中得益。

 

节选自《关联数据开启互联网新纪元》

www.tedtochina.com

前沿杂志
互联网前沿61

2022年,从引爆AI作画领域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,AIGC不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼。

2023-05-12

全站精选