腾云030

作者: 2014-08-12
大数据(big data)正酣,小数据(iData)又来!

推荐人:黄希彤  腾讯志愿者协会技术公益分会会长、W3C顾问委员会代表

 

推荐语:

其实这篇文章并不是在讲小数据对大数据的颠覆,iData的中心也未必在于个人隐私。在我看来,围绕个人隐私进行的小数据的讨论完全就是打偏了靶子,在一个全能的iData助手面前,隐私只是非常小的一个基本功能,就好像在线社区要支持用户登录一样基础。iData概念让我想起了三年前曾经带给我们无限遐想的产品:IFTTT

 

IFTTT非常像,iData理念也是一个工作在个人数据之上的“自动机”:一个逻辑引擎,当被某些外部条件触发的时候,做出某些预先设定的反应。不过iData的理念更加关注基于个人全方位的数据来作出综合的判断。

 

过去几年里我一刻也没有怀疑过IFTTT理念的辉煌前景,一个全能的全自动的个人数字助理,就像这篇文章里面提到的白宫助理一样。但是为什么IFTTT至今还没有走向那里?我想很大的一块就是缺乏iData这样的个人数据搜集、沉淀和智能运用的设计。如果说IFTTT引擎加上一堆recipes(配方)得到的是一个可以做机械的条件反射的“互联网爬行动物”,那再加上iData,也许得到的就是一个温血动物了。

 

文中提到的“数字永生”,看起来还是一个过于遥远和科幻的目标,但是我们面前马上就有一个实际问题需要解决方案:“数字遗产”。比如用户过世了,亲人想要看到他加密的博客、相册,但是这样做符合他的意愿吗?他生前有没有安排过,在自己过世以后,哪些加密文章要公之于世,哪些加密相册要永久删除,而他的互联网账号又由谁来继承。有没有一个地方可以存储我们的“数字遗嘱”,并在我们去世以后自动按照我们的意愿处置我们的数字遗产?也许这会是iData的一个突破点。

 

 

文章内容

大数据big data正酣小数据iData又来

/ 蔡凯龙

 

数据革命的最终目的,就是给每个人都配备类似于美国总统白宫级别的服务。这不是科幻小说,这是数据革命即将开创的另一个前沿阵地—小数据的大时代。

 

() 小数据的介绍和定义

 

 

小数据(iData)指的是围绕个人为中心全方位的数据,及其配套的收集、处理、分析,和对外交互的综合系统。人的一举一动、一分一秒产生的数据,包括生活习惯、身体状况、社交、财务、喜好、情绪、行为等,全部被收集、利用和分析,并对外形成一个富有个人色彩的数据系统,统一执行交换数据、保护隐私等多项对外功能。

 

小数据跟大数据的根本区别在于,小数据以单个人为对象,重点在于深度,对个人数据全方位全天候深入精确地挖掘利用,大数据则侧重在某个领域,大范围全面数据收集、处理、分析,侧重点在于广度。小数据只围绕一个人,同时担任对外界大数据的唯一接口,把大数据思维操作模式简单套在小数据上并不适用。

 

()小数据产生的原因

1. 大数据对隐私无止境地侵犯和个人对主动保护隐私的需求。

1993年《纽约客》刊登了一幅漫画,标题是《互联网上,没有人知道你是一条狗》。经过20年,互联网、移动互联网和社交网络以及大数据的快速发展,已经令我们成为毫无隐私的透明人了。所以,现在这句话应该改成:“不要说互联网另一端是一个人,即使是一条狗,我甚至能知道它身上有没有跳蚤”。

 

随着隐私被侵犯的弊端逐渐浮现,各国都有不同程度的立法来保护个人隐私。但是迄今为止收效甚微,我们对隐私大规模被侵犯仍然束手无策。这时候,迫切需要从技术上,让个人主动而不是被动地保护自己的隐私。小数据就能很好地解决个人隐私和大数据的矛盾。小数据对内是一切个人数据的集合,对外是个人数据的唯一接口。任何对外的数据输出,都需通过预先设定授权程序。比如说大数据要分析用户对一个新车的市场反应,小数据在这方面更有优势,细微到主人喜欢什么颜色,买车主要目的是上班还是休闲等,只要把小数据分析结果而不是隐私内容通知给大数据。这样既能保护个人隐私,又能提供给大数据最准确的信息。完美解决大数据和隐私之间的矛盾。

 

同时小数据还能在保护隐私的监控上掌握主动。我们都知道,注册登记任何社交网,都要你同意密密麻麻天书一般的法律条文。我相信没有人会真正认真去看这些条文,里面的法律术语晦涩难懂,看懂了你又能怎么样,还不得乖乖地点“我同意”。这都是企业合法用你的数据资料时,用来规避法律责任的保护伞。如果有了小数据,就能从被动变主动。企业要用小数据,没问题,但数据是我的,我控制能给你什么,不能给你什么。你的需要也要根据我制定的规则办事,你要同意我的数据使用条款,不能到处传播。同时,还规定使用时间和使用范围。

 

小数据还能做到绝对隐私, 比如哪天你累了想彻底清净一段时间,或者你要有私人空间,跟小数据系统下指令,彻底停止所有个人数据监测,这下你在数据世界就真的有一段时间人间蒸发了。

 

2. 对统一全面管理分析个人数据的巨大需求。

小数据的产生还有一个主要原因:对统一全面管理分析个人数据的巨大需求。信息时代,我们被扑面而来的信息狂轰滥炸,我们面对的问题是信息太多,不是太少。我们最大的挑战是如何能快速、方便、一目了然地定位有用的信息,如何从纷繁复杂的数据中提炼出有价值的信息,从而真正解放个人。

 

 

纽约的水表都实现电子自动读数,隔几个小时家里的水表自动发送数据到自来水公司,可以上网查看。有一天,我突发奇想,用大数据的思维把这些数据下载下来,结合我家的出行旅游时间,发现了个问题。这水表显示没人在家的时候继续不断地用水,3年来一直如此。我进一步挖掘,把家里每天用水的大概时间拿来对照,最后断定,一定是某个地方悄悄地持续地漏水。经过排查,终于在不经常去的地下室洗手间里的抽水马桶盖子里找到一个阀门没旋紧,从这里漏水直接进下水道,3年多来从来没被发现。如果没有数据分析,这么隐蔽的地方不可能被发现。这3年来这个阀门浪费了600多美元的水费,如果我在这里住10年,这个简单的数据分析就能省下我2000美元的无端浪费。这就是小数据的一个简单案例。

 

()小数据的特性和大数据的对比

小数据和大数据有着本质区别,虽然以创造数据价值为目的的思维和大数据是类似的,但是在具体方式上,还有以下几点不同。

 

1. 数据处理方式:大数据强调标准化,只有标准化,才能大规模采集,之后的数据处理概率统计才有了可能。可是数据一旦标准化,就失去了其产生时的特性和背景。而小数据的最大特点,就是来源和使用者是同一个人,只不过存取时间和背景不一样,这就让数据标准化失去存在的理由。为什么要用标准化来抹去数据的主观色彩和背景呢。比如我说“喜欢吃这家店的臭豆腐”这个信息,存在我的小数据库里,不能单单存标准数据:比如时间、臭豆腐形状、臭豆腐店地址等。这些还不够,还要把我喜欢的程度和重要性、当时的语境记录下来。这些都是小数据需要处理的信息, 而大数据的标准化方式是无法做到的。

 

国外在这方面已经有初步的研究, Dr. Ofer Bergman 2003年最先提出以“用户主观方式”(User Subjective Approach )来存储个人信息。2009年他在这方面的开创性研究在美国信息技术学院(American Society for Information Science and Technology )发表获得极大轰动,被美国图书馆协会(The American Library Association)评为当代十大科技前沿的研究方向之一。

 

2.人的作用:在大数据模式下, 数据从人身上产生被收集后,接下来的数据处理分析就跟数据的主人无关了。而在小数据里,所有数据都是围绕一个人,所以人在系统中发挥中心的作用。虽然小数据里不可避免地要使用人工智能来提供帮助,但是人工智能的发展还没有大的跨越,远远不能胜任代替人脑的工作。这个有利有弊,坏处就是人还要不时地参与决策。好处就是,使用者比较放心,因为这些数据就是你的全部信息,你放心让一个人工智能代替你做重要决定吗?要我选,我选择否定答案。

 

3.其他数据性质的区别:比如是小数据数据量相对比大数据的数据量小。小数据对数据不用全部都快速反应,比如说你的胆固醇,一个月收集分析一次就够了,而大数据对数据的反应要快。小数据更加注重非结构化数据之间的关联,重深度挖掘,而大数据重在包容所有个体的数据,重在广度。

 

综上所述,小数据不是简单大数据的小型化,而是大数据的补充和延伸。

 

(四)小数据发展的广阔前景

小数据解决大数据无法克服的保护个人隐私的矛盾。在主动保护个人隐私的同时,小数据提供给大数据最直接的数据传输,避免了大数据的重复收集和模糊预测,提高数据使用效率和价值。同时小数据利用全面的个人数据优势,结合外部大数据,提供给个人最个性化、最独特、最有价值的数据服务。

 

拿大数据里被津津乐道的一个案例来说, Target 超市用孕妇怀孕可能购买的商品用户购买记录,通过构建模型分析购买者行为的相关性,能推断出孕妇的具体临盆时间。这是在大数据模式下,如果大数据和小数据配合,小数据在主人授权下,直接把临盆时间告诉大数据,Target就可以根据时间和小数据愿意透露的主人年龄和对商品的个人偏好,更加准确地预测个体的购买情况。这其实已经超越预测,应该叫洞察了。

 

大数据很多时候被运用在广告投放的目标客户的分析上:到底这个广告是雪中送炭还是让人讨厌。大数据时代这只能从用户以往的购买历史上旁敲侧击。然而在小数据时代,小数据直接告诉大数据,主人喜欢这个品牌那个颜色,如果不是符合主人口味的广告,就不要来骚扰了。这种精确无误的洞察,就好比给决策者一个清晰透视未来的水晶球。用户、企业和政府可以最大限度地利用大小数据的配合,进行所有的数据活动:个人财务投资分析、个人健康监控、个人疾病治疗、企业策划营销、企业战略分析、政府宏观调控、公共卫生安全防范、预防犯罪等等。

 

小数据和大数据的完美结合,必将让市场营销人员、理财投资分析师、房地产中介、医生、律师等专业服务人员全部失业。可以这么说,大小数据,双剑合璧,天下无敌。

 

小数据还有一个意想不到却让人想想就睡不着觉的用途:数字永生!小数据精确记录从出生到死亡,无时无刻、细致入微的所有细节,它就是数字化的你,是你在虚拟世界最真实的数字投影。你的世界被数据化了,因此复制你的世界成为可能。这就涉及到人类永恒的梦想:永生。肉体的永生还有待科技水平的提高,但是数字化个人的永生,在小数据时代就变成可能。

 

对于别人来说,你的数据载体将永恒地停止在肉体消失的一刻。如果思念一个逝去的亲人,你可以和她留下来的小数据聊天,问她问题,向她倾诉,听她讲她的过去,小数据会根据历史记录,最完整地呈现出逝去的亲人的一举一动一颦一笑,包括她所说和所做的,甚至推断出她所想的。如果未来机器人和人体仿生技术进一步发展,制造出一个一模一样的人作为小数据物理载体也不是不可能。

 

(五)小数据发展最需解决的三个大问题:

1.个人数据处理的进一步研究和开发。虽然以“用户主观方式”来存储个人信息是一个重大突破,但其研究也只是理论上的初步构架,到真正实现还要有一段时间,需要进一步探索和完善,加快其现实的运用。同时,国家要把小数据和大数据一样,作为国家的战略核心资产来投入和研发,并在法律法规上保驾护航。

 

2. 安全保护。小数据如果安全不到位,问题就大了,这个好比在数据世界被人绑架了。所以小数据对安全级别要求很高,需要提到国家层面,需要统一规划。但是即使在很高级的安全保护算法里,只要是算法,都会有漏洞,所以人的参与就成了弥补算法漏洞的法宝。

 

3. 人工智能在小数据系统里起到至关重要的作用,在白宫里的地位相当于总统办公室主任,整体处理白宫各个方面的大小事务。人工智能的发展至今裹足不前,需要国家把它提升为战略地位进行科研开发和投入。

 

人,是一切数据存在的根本。人的需求是所有科技变革发展的动力。可以预见,不远的将来,数据革命的下一步将进入以人为本的小数据的大时代。

 

节选自文章《大数据(big data)正酣,小数据(iData)又来!》

微信公众号:软件定义世界(SDX

前沿杂志
互联网前沿61

2022年,从引爆AI作画领域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,AIGC不断刷爆网络,其强大的内容生成能力给人们带来了巨大的震撼。

2023-05-12

全站精选