腾讯司晓:如何打造健康可持续的数据生态?

|《互联网前沿》杂志 作者:司晓 2020-06-12

2020年5月17日下午,信息社会50人论坛籍517世界电信和信息社会日之际成功举办线上专题研讨会,主题为“数字转型与可持续发展”。会议由信息社会50人论坛轮值主席、本次研讨会主持人段永朝开场,介绍了本次会议的由来及期望。

司晓院长围绕如何打造一个可持续的数据生态系统,从信任、产权与流通的三个角度进行了阐述。他提出,为形成健康可持续的数据生态,必须要有三重考量,即构建数据信任、激励数据产权和实现数据有序流通。综合起来,将应用道德、法律、市场技术的统合体来规范我们的行为,具体将包括数据要素和技术因素的应用,以及法律的完善。

以下为司晓分享(经讲者确认,有删减)。

构建信任、激励产权、有序流通——塑造健康可持续的数据生态

司晓  腾讯集团副总裁、腾讯研究院院长

感谢邀请,作为论坛的成员,非常荣幸有机会跟大家交流。应该说把我安排在姜老师之后是非常合适的,因为我自己是法律背景,长期在企业一线实践。我主要从我的视角,从信任、产权与流通三个角度,跟大家谈一下如何打造一个健康可持续的数据生态系统。

刚才姜老师已经谈了很多数据产权方面的思考。我想先从数据增长这个背景切入,我们处于一个数据爆炸式增长的时代,根据IDC的预测,2018年的时候全球产生的数据总量是33ZB,如果用人脑来衡量,大概需要280亿+的人脑才能存储这些数据。到2025年的时候全球生产的数据量会比2018年增长5倍多,达到175ZB,届时中国也会成为全球最大的数据市场。

在这个背景下,我们希望用通俗的例子来描述和理解数据要素、新基建,以及业界倡导的产业互联网。路油车这个简单的概念,或许比较容易让大家理解。

首先谈路,即新基建。新基建是相对于讲旧基建来的,最大的特点是韧性与随时调整的动态性。比如,在疫情期间,腾讯会议用8天时间扩容100万核计算资源,可以说是非常迅速的,从而适应突发情况的到来。我们还支持全国1亿+学生在线上网课。这应该是新基建与旧基建最大的不同点。在这里稍微提一下,国家提出新基建概念后有一张广为流传的图,把特高压、高铁、充电桩都列为新基建的范畴,但是仔细研读的话,官方文件里面是不包含这三个部分的。

再谈油,数据要素就是大家通俗意义上所讲的石油。用石油来描述数据可能有它的合理性,但还不足以说明数据要素的复杂性、重要性。因为数据始终存在多个维度的视角,就是说对于同样的数据,不同的主体在上面往往都有权利或权益。虽然一般人会说我对数据有没有所有权,但物权法上的所有权作为权利束,包括占有、使用、收益和处分。

追溯罗马法的历史,物权指向的是有形有体物,比如电脑、杯子等,后来有所扩充,比如电能等可以被人类掌控的无形物。无形物作为财产的典型例子是知识产权,客体是智力成果,如文章、代码等。著作权法所保护的这种表达,是真正的无形无体,可以通过一个装置或载体显示出来。所以,物权和知识产权存在物理意义上的区别。数据要素和知识产权有点相似,可以多人同时占有,交换后双方都有了同样的数据,而不像物理意义上的东西只能某个人独占。

而且数据要素存在多个视角,在国家视角,有国家数据安全保护、国家经济转型与竞争力提升等;在个人视角,有隐私保护等;在产业视角,涉及政府的公共数据如何开放共享,企业间如何共享数据,以及企业在竞争的时候获取信息的边界问题,这其实某种意义上定义了行业的竞争规则。所以,数据要素具有复杂性和多面性,可以体现出生产资料,也可以是生成关系,还可能是生产力。所以说数据是石油恐怕不足以描述其价值和应用。

最后谈车。那车是什么呢?最先被数字化的是第三产业,所以最早在信息高速公路上跑的车多半是服务业的车。现在则是产业互联网,就是整个产业被数字化的过程,如第一产业的农业互联网、第二产业的工业互联网。消费互联网是2C的,产业互联网是2B的,两者存在显著的区别,产业互联网是在车道上跑的更重型的车,对数字基础设施提出更多的要求。

路油车这个例子是比较直观的。首先这个路要求是智能的,产业互联网的底层,即我们讲的IaaS,它本身也是有路(基础设施)的属性的。举个例子,腾讯云和长沙合作,对315路公交进行全线数字化升级,推出的微信小程序“潇湘出行”提供了车辆位置、到站时间、搭载人数、行驶速度及路口信号灯状态等准确公交信息,方便乘客决策出行方案。

而且也实现了路与交通指挥的智能化,行驶权处于动态调整的状态,根据车流情况调整交通信号灯,比如红灯可以减少30秒,路口绿灯可以延长15秒,真正实现公交优先。所以,这时候你发现路与车在实时对话,甚至如果发生了其他车走公交车道的情况,公交车里面的一个装置可以一键马上举报这个违规行为。这是一个随时动态互动的过程。

回到路油车的生态系统,我们怎么理解用户、用户数据与整个生态系统的关系呢?拿消费互联网的场景来说,比如说订餐的服务或者打车的服务,就类似于跑在信息高速公路上的车辆,用户实际上是以虚拟的身份同时在乘坐很多辆车,可以一边叫外卖,一边打滴滴,一边坐另一个车。这个时候用户需要向平台提供服务所必需的基本信息,比如说在哪儿上车,在哪儿下车,在哪儿取快递。这个过程当中用户提交的是服务所必需的数据,平台需要根据必要性和最小化原则来收集、处理数据。

在这个基础上,需要从三个方面塑造健康可持续的数据生态系统。

一是构建信任。立法是构建信任的基础,我们国家的数据立法尤其是个人信息保护法律体系一直在不断完善,从2009年《刑法修正案七》首次引入个人信息罪名,到后来的《网络安全法》《电子商务法》《儿童个人信息网络保护规定》等,再到现在制定中的《民法典》和已被提上日程的《个人信息保护法》。那现在是否清晰界定了数据产权了吗?很难回答,但起码划定了一些红线。

数据跟物权、知识产权既有相同之处,也有不同之处,所以在产权界定上实际上没有办法像物权一样做绝对化的界定。物权作为绝对的权利,权利人对客体是独占的,其他人都有义务不侵害。但数据可能跟这个存在很大差别,因为数据实际上可能指向多个权利,而且单个的碎片化的数据和大数据池里面大数据,在性质上存在很大差别,产权界定当然不能一概而论。

业内也在发展应用加密、匿名化、联邦学习、差分隐私、多方安全计算等隐私保护的计算技术,从而让企业在安全的,合规的,不共享数据的情况下来合作训练人工智能算法模型,因为立法已经划定了很多红线。联邦学习就是一个比较典型的应用。举个例子,微众银行与合作银行基于横向联邦学习进行的联合反洗钱建模。简单来讲就是不需要共享用户的任何具有个人身份的信息,双方在保护隐私的条件下联合建模,并共享模型结果。这个例子的前提是合作银行与微众银行有相同的变量,洗钱样例客户不同。如果看模拟实验的效果,联合模型的识别性能比单边模型提升90%,当然在这个过程当中没有任何银行的用户信息流入到其他行,有效地保护了用户隐私。

再讲一个医疗方面的案例。腾讯天衍实验室也与微众银行合作,研发了医疗联邦学习框架,成功实现了在保护不同医院的数据隐私下的疾病预测模型,某种程度上也破解了医疗领域的数据安全与隐私保护问题。假设医院A和医院B想联合训练一个脑卒中疾病预测模型,两个医院各自掌握科研病例数据,此外,医院B还拥有模型需要预测的标签数据如脑卒中发病标签。

出于数据隐私保护和安全考虑,医院A和医院B无法直接进行数据交换。联邦学习则可以在两家医院不共享数据的情况下联合建模。实验结果显示,基于横向联邦学习的脑卒中预测模型的有效性良好:联邦学习模型和集中训练模型表现几乎一致,在脑卒中预测模型中的准确率达到80%,仅比集中训练模型准确率降低1%,同时,联邦学习技术显著提升了不同医院的独立模型效果,特别地,对于两家脑卒中确诊病例数量较少的医院而言,联邦学习分别提升其准确率10%和20%以上。所以这种方式是非常显著的,在数据不聚集的情况下训练模型,又能实现对用户隐私的保护。

下面用一个比较形象的例子来说明联邦学习。每个企业都有一个自己的数据池子,里面的用户个人信息需要保密,实际上没有办法拼在一起,但是大家可以用自己的数据共同养一只羊,这只羊就是机器学习模型,它一会儿在企业A吃草,一会儿在企业B吃草,一会儿在企业C吃草。实际上吃的是什么,每一家都不知道,但大家可以共享牛奶等成果,就是算法优化本身带来的效率可以反哺参与的企业的运营。              

二是激励数据产权。虽然数据产权不能像物权那样做特别清晰的界定,但对于附着于数据之上的财产权权益的保护实际上是非常必要的。现阶段的一些司法案例已经明确保护企业对于数据的财产性权益,比如大众点评系列案件、新浪微博系列案件等。例如,大众点评商业模式的核心就是用户的点评数据,这些数据都是公开的,一般不涉及用户隐私。

可能有些点评信息具有独创性,属于版权法上的作品。但大部分点评信息都是在讲这个东西好不好,卖家寄东西准不准时,客服态度好不好,等等,所以一般不享有著作权。

这是否就意味着竞争对手就可以随意抓取这些信息,大众点评也不能主张权利?因为这些信息本身不受著作权保护,可能对应店铺的商誉和背后的交易机会。虽然没有法律的明确规定,但法院还是基于反不正当竞争法的一般条款,基于诚实信用原则判定为不正当竞争,也认可数据经营者的合法权益。

直白地说,这家公司辛辛苦苦就积累了这些点评信息,你现在不管用户什么技术,把人家的数据一股脑儿全拿去,搞一个一模一样的出来,那人家前面就白干了。我们的法律会鼓励这样的行为吗?我相信答案是显而易见的。如果法律允许这种行为的话,那就没有人去直接投入和劳动了,都等着收割别人,那样的话市场就乱套了。

所以这类对于数据的财产性权益,实际上是受到法律保护的。这类似于你种了一块地,地的权属可能没那么容易界定,但这块地里种出来的庄稼,养出来的商业模式,你还是有权利说不的,不允许别人来种地,来随意收割。所以,我们会发现对企业数据的保护,更多是对行业竞争秩序的保护,如果不保护企业数据的话,那竞争秩序肯定就全乱套了,就不可能有好的企业成长起来,最后受害的还是用户。

三是数据有序流通。这一点也非常重要。如果企业用API的方式开放自己的数据接口,在其中定义了一些规则,合作方能不能逾越呢?我想答案是显而易见的,需要遵守契约精神,很多判例也传达出这样的观点。比如新浪诉脉脉这个行业中的经典案例就跟开放平台API有关,如果API只开放一些数据,合作方在合作基础上能拿其他数据吗?或者合作终止后能不能继续访问数据?表面上是合同,背后跟数据有关。

《关于构建更加完善的要素市场化配置体制机制的意见》提出“促进要素自主有序流动”,所以在数据流通过程中需要尊重企业的意愿和合同约定。这也是私法自治精神的体现。

最后,腾讯安全最近刚好做了一张图,叫做零信任能力图谱,详细列了身份可信的识别能力、无边界应用访问控制能力、安全可视化能力、无边界网络访问控制能力、持续信任评估能力,以及每个能力之下的子产品与子功能。实际上可以讲它是基于技术或者基于产品功能去构建信任。

前段时间我跟论坛老师分享了我给我们的新书《产业区块链》写的跋——《经济增长的信任基础》。讨论如何从法律、制度、规范的视角约束企业和个人行为,以及如何保障市场有序运行,讨论市场经济的信任建立在哪些基石之上,法律毫无疑问是其中最大的一块,至少目前来看是这样的。伦理道德也是其中的重要部分。

而极端的区块链倡导,认为技术可以取代一切。中本聪的比特币系统是一个典型,没有法律和其他任何保障,就是靠算法来保障稀缺性和维持信任。意味着比特币已经不需要法律做背书,而是靠区块链不可篡改的技术来做背书。但代码完全取代法律,可能是技术狂热者的一个愿景,至少在我们目前的认知范围内,说未来是代码主宰一切,我是不太认可的。所以综合来看,是法律、道德、市场、技术的综合体来规范我们的行为,包括我今天分享的数据要素,也是如此。技术只是其中的一个因素罢了,法律的完善同样重要。

我的分享就到这儿,谢谢大家的聆听。

前沿杂志
互联网前沿65

进入2024年,我们很难预测人类下一个时代究竟会进入哪个状态。但我们明确地感知到,当下,我们已经身在AI所助推的相变之中。

2024-07-02

全站精选