腾讯司晓：如何打造健康可持续的数据生态？

2020年5月17日下午，信息社会50人论坛籍517世界电信和信息社会日之际成功举办线上专题研讨会，主题为“数字转型与可持续发展”。会议由信息社会50人论坛轮值主席、本次研讨会主持人段永朝开场，介绍了本次会议的由来及期望。

司晓院长围绕如何打造一个可持续的数据生态系统，从信任、产权与流通的三个角度进行了阐述。他提出，为形成健康可持续的数据生态，必须要有三重考量，即构建数据信任、激励数据产权和实现数据有序流通。综合起来，将应用道德、法律、市场技术的统合体来规范我们的行为，具体将包括数据要素和技术因素的应用，以及法律的完善。

以下为司晓分享（经讲者确认，有删减）。

构建信任、激励产权、有序流通——塑造健康可持续的数据生态

司晓腾讯集团副总裁、腾讯研究院院长

感谢邀请，作为论坛的成员，非常荣幸有机会跟大家交流。应该说把我安排在姜老师之后是非常合适的，因为我自己是法律背景，长期在企业一线实践。我主要从我的视角，从信任、产权与流通三个角度，跟大家谈一下如何打造一个健康可持续的数据生态系统。

刚才姜老师已经谈了很多数据产权方面的思考。我想先从数据增长这个背景切入，我们处于一个数据爆炸式增长的时代，根据IDC的预测，2018年的时候全球产生的数据总量是33ZB，如果用人脑来衡量，大概需要280亿+的人脑才能存储这些数据。到2025年的时候全球生产的数据量会比2018年增长5倍多，达到175ZB，届时中国也会成为全球最大的数据市场。

在这个背景下，我们希望用通俗的例子来描述和理解数据要素、新基建，以及业界倡导的产业互联网。路油车这个简单的概念，或许比较容易让大家理解。

首先谈路，即新基建。新基建是相对于讲旧基建来的，最大的特点是韧性与随时调整的动态性。比如，在疫情期间，腾讯会议用8天时间扩容100万核计算资源，可以说是非常迅速的，从而适应突发情况的到来。我们还支持全国1亿+学生在线上网课。这应该是新基建与旧基建最大的不同点。在这里稍微提一下，国家提出新基建概念后有一张广为流传的图，把特高压、高铁、充电桩都列为新基建的范畴，但是仔细研读的话，官方文件里面是不包含这三个部分的。

再谈油，数据要素就是大家通俗意义上所讲的石油。用石油来描述数据可能有它的合理性，但还不足以说明数据要素的复杂性、重要性。因为数据始终存在多个维度的视角，就是说对于同样的数据，不同的主体在上面往往都有权利或权益。虽然一般人会说我对数据有没有所有权，但物权法上的所有权作为权利束，包括占有、使用、收益和处分。

追溯罗马法的历史，物权指向的是有形有体物，比如电脑、杯子等，后来有所扩充，比如电能等可以被人类掌控的无形物。无形物作为财产的典型例子是知识产权，客体是智力成果，如文章、代码等。著作权法所保护的这种表达，是真正的无形无体，可以通过一个装置或载体显示出来。所以，物权和知识产权存在物理意义上的区别。数据要素和知识产权有点相似，可以多人同时占有，交换后双方都有了同样的数据，而不像物理意义上的东西只能某个人独占。

而且数据要素存在多个视角，在国家视角，有国家数据安全保护、国家经济转型与竞争力提升等；在个人视角，有隐私保护等；在产业视角，涉及政府的公共数据如何开放共享，企业间如何共享数据，以及企业在竞争的时候获取信息的边界问题，这其实某种意义上定义了行业的竞争规则。所以，数据要素具有复杂性和多面性，可以体现出生产资料，也可以是生成关系，还可能是生产力。所以说数据是石油恐怕不足以描述其价值和应用。

最后谈车。那车是什么呢？最先被数字化的是第三产业，所以最早在信息高速公路上跑的车多半是服务业的车。现在则是产业互联网，就是整个产业被数字化的过程，如第一产业的农业互联网、第二产业的工业互联网。消费互联网是2C的，产业互联网是2B的，两者存在显著的区别，产业互联网是在车道上跑的更重型的车，对数字基础设施提出更多的要求。

路油车这个例子是比较直观的。首先这个路要求是智能的，产业互联网的底层，即我们讲的IaaS，它本身也是有路（基础设施）的属性的。举个例子，腾讯云和长沙合作，对315路公交进行全线数字化升级，推出的微信小程序“潇湘出行”提供了车辆位置、到站时间、搭载人数、行驶速度及路口信号灯状态等准确公交信息，方便乘客决策出行方案。

而且也实现了路与交通指挥的智能化，行驶权处于动态调整的状态，根据车流情况调整交通信号灯，比如红灯可以减少30秒，路口绿灯可以延长15秒，真正实现公交优先。所以，这时候你发现路与车在实时对话，甚至如果发生了其他车走公交车道的情况，公交车里面的一个装置可以一键马上举报这个违规行为。这是一个随时动态互动的过程。

回到路油车的生态系统，我们怎么理解用户、用户数据与整个生态系统的关系呢？拿消费互联网的场景来说，比如说订餐的服务或者打车的服务，就类似于跑在信息高速公路上的车辆，用户实际上是以虚拟的身份同时在乘坐很多辆车，可以一边叫外卖，一边打滴滴，一边坐另一个车。这个时候用户需要向平台提供服务所必需的基本信息，比如说在哪儿上车，在哪儿下车，在哪儿取快递。这个过程当中用户提交的是服务所必需的数据，平台需要根据必要性和最小化原则来收集、处理数据。

在这个基础上，需要从三个方面塑造健康可持续的数据生态系统。

一是构建信任。立法是构建信任的基础，我们国家的数据立法尤其是个人信息保护法律体系一直在不断完善，从2009年《刑法修正案七》首次引入个人信息罪名，到后来的《网络安全法》《电子商务法》《儿童个人信息网络保护规定》等，再到现在制定中的《民法典》和已被提上日程的《个人信息保护法》。那现在是否清晰界定了数据产权了吗？很难回答，但起码划定了一些红线。

数据跟物权、知识产权既有相同之处，也有不同之处，所以在产权界定上实际上没有办法像物权一样做绝对化的界定。物权作为绝对的权利，权利人对客体是独占的，其他人都有义务不侵害。但数据可能跟这个存在很大差别，因为数据实际上可能指向多个权利，而且单个的碎片化的数据和大数据池里面大数据，在性质上存在很大差别，产权界定当然不能一概而论。

业内也在发展应用加密、匿名化、联邦学习、差分隐私、多方安全计算等隐私保护的计算技术，从而让企业在安全的，合规的，不共享数据的情况下来合作训练人工智能算法模型，因为立法已经划定了很多红线。联邦学习就是一个比较典型的应用。举个例子，微众银行与合作银行基于横向联邦学习进行的联合反洗钱建模。简单来讲就是不需要共享用户的任何具有个人身份的信息，双方在保护隐私的条件下联合建模，并共享模型结果。这个例子的前提是合作银行与微众银行有相同的变量，洗钱样例客户不同。如果看模拟实验的效果，联合模型的识别性能比单边模型提升90%，当然在这个过程当中没有任何银行的用户信息流入到其他行，有效地保护了用户隐私。

再讲一个医疗方面的案例。腾讯天衍实验室也与微众银行合作，研发了医疗联邦学习框架，成功实现了在保护不同医院的数据隐私下的疾病预测模型，某种程度上也破解了医疗领域的数据安全与隐私保护问题。假设医院A和医院B想联合训练一个脑卒中疾病预测模型，两个医院各自掌握科研病例数据，此外，医院B还拥有模型需要预测的标签数据如脑卒中发病标签。

出于数据隐私保护和安全考虑，医院A和医院B无法直接进行数据交换。联邦学习则可以在两家医院不共享数据的情况下联合建模。实验结果显示，基于横向联邦学习的脑卒中预测模型的有效性良好：联邦学习模型和集中训练模型表现几乎一致，在脑卒中预测模型中的准确率达到80%，仅比集中训练模型准确率降低1%，同时，联邦学习技术显著提升了不同医院的独立模型效果，特别地，对于两家脑卒中确诊病例数量较少的医院而言，联邦学习分别提升其准确率10%和20%以上。所以这种方式是非常显著的，在数据不聚集的情况下训练模型，又能实现对用户隐私的保护。

下面用一个比较形象的例子来说明联邦学习。每个企业都有一个自己的数据池子，里面的用户个人信息需要保密，实际上没有办法拼在一起，但是大家可以用自己的数据共同养一只羊，这只羊就是机器学习模型，它一会儿在企业A吃草，一会儿在企业B吃草，一会儿在企业C吃草。实际上吃的是什么，每一家都不知道，但大家可以共享牛奶等成果，就是算法优化本身带来的效率可以反哺参与的企业的运营。

二是激励数据产权。虽然数据产权不能像物权那样做特别清晰的界定，但对于附着于数据之上的财产权权益的保护实际上是非常必要的。现阶段的一些司法案例已经明确保护企业对于数据的财产性权益，比如大众点评系列案件、新浪微博系列案件等。例如，大众点评商业模式的核心就是用户的点评数据，这些数据都是公开的，一般不涉及用户隐私。

可能有些点评信息具有独创性，属于版权法上的作品。但大部分点评信息都是在讲这个东西好不好，卖家寄东西准不准时，客服态度好不好，等等，所以一般不享有著作权。

这是否就意味着竞争对手就可以随意抓取这些信息，大众点评也不能主张权利？因为这些信息本身不受著作权保护，可能对应店铺的商誉和背后的交易机会。虽然没有法律的明确规定，但法院还是基于反不正当竞争法的一般条款，基于诚实信用原则判定为不正当竞争，也认可数据经营者的合法权益。

直白地说，这家公司辛辛苦苦就积累了这些点评信息，你现在不管用户什么技术，把人家的数据一股脑儿全拿去，搞一个一模一样的出来，那人家前面就白干了。我们的法律会鼓励这样的行为吗？我相信答案是显而易见的。如果法律允许这种行为的话，那就没有人去直接投入和劳动了，都等着收割别人，那样的话市场就乱套了。

所以这类对于数据的财产性权益，实际上是受到法律保护的。这类似于你种了一块地，地的权属可能没那么容易界定，但这块地里种出来的庄稼，养出来的商业模式，你还是有权利说不的，不允许别人来种地，来随意收割。所以，我们会发现对企业数据的保护，更多是对行业竞争秩序的保护，如果不保护企业数据的话，那竞争秩序肯定就全乱套了，就不可能有好的企业成长起来，最后受害的还是用户。

三是数据有序流通。这一点也非常重要。如果企业用API的方式开放自己的数据接口，在其中定义了一些规则，合作方能不能逾越呢？我想答案是显而易见的，需要遵守契约精神，很多判例也传达出这样的观点。比如新浪诉脉脉这个行业中的经典案例就跟开放平台API有关，如果API只开放一些数据，合作方在合作基础上能拿其他数据吗？或者合作终止后能不能继续访问数据？表面上是合同，背后跟数据有关。

《关于构建更加完善的要素市场化配置体制机制的意见》提出“促进要素自主有序流动”，所以在数据流通过程中需要尊重企业的意愿和合同约定。这也是私法自治精神的体现。

最后，腾讯安全最近刚好做了一张图，叫做零信任能力图谱，详细列了身份可信的识别能力、无边界应用访问控制能力、安全可视化能力、无边界网络访问控制能力、持续信任评估能力，以及每个能力之下的子产品与子功能。实际上可以讲它是基于技术或者基于产品功能去构建信任。

前段时间我跟论坛老师分享了我给我们的新书《产业区块链》写的跋——《经济增长的信任基础》。讨论如何从法律、制度、规范的视角约束企业和个人行为，以及如何保障市场有序运行，讨论市场经济的信任建立在哪些基石之上，法律毫无疑问是其中最大的一块，至少目前来看是这样的。伦理道德也是其中的重要部分。

而极端的区块链倡导，认为技术可以取代一切。中本聪的比特币系统是一个典型，没有法律和其他任何保障，就是靠算法来保障稀缺性和维持信任。意味着比特币已经不需要法律做背书，而是靠区块链不可篡改的技术来做背书。但代码完全取代法律，可能是技术狂热者的一个愿景，至少在我们目前的认知范围内，说未来是代码主宰一切，我是不太认可的。所以综合来看，是法律、道德、市场、技术的综合体来规范我们的行为，包括我今天分享的数据要素，也是如此。技术只是其中的一个因素罢了，法律的完善同样重要。

我的分享就到这儿，谢谢大家的聆听。