8.9. 隐私计算

隐私计算涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构。 简单来说,隐私计算是从数据的产生、收集、保存、分析、利用、销毁等环节中对隐私进行保护的方法。

隐私计算的概念最早是在2016年提出的,隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。隐私计算涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构。简单来说,隐私计算是从数据的产生、收集、保存、分析、利用、销毁等环节中对隐私进行保护的方法。1

8.9.1. 三大矛盾

隐私数据的处理过程当中还面临着三个内部矛盾:安全、效率、数据孤岛。

安全方面,目前的大数据行业主要依托于可信第三方的计算服务。这些第三方包括主要应用于科研领域的超算中心和主要应用于商业领域的数据中心。大数据行业的高性能、高投入需求让规模化、集中化的运算成为了市场主流,2011年起,我国规划建设了255个数据中心,总设计服务器规模728万台,承担了我国大部分民用数据的计算服务。但这些集中化、规模化的数据中心可能出现问题也并非危言耸听:就在今年2月,由于阿里云代码托管平台的项目权限设置存在歧义,导致开发者操作失误,造成至少40家以上企业的200多个项目代码泄露,其中涉及到万科集团、咪咕音乐、51信用卡旗下51足迹、百度无人车合作伙伴ecarx等知名企业。

效率方面,在隐私信息的生命周期中,受益于密码学发展,隐私的加密化、匿名化和脱敏技术都已经非常成熟,可以大规模应用在隐私获取、储存、流转等环节中。但大数据时代的到来,让隐私数据的处理成为了一个难题:大规模的加密数据处理一定会导致计算性能下降,而非加密数据处理又极大概率会导致隐私信息的泄露。

数据孤岛是指的是数据被保存在无法自由流动的环境之下,互相独立存储、独立维护。数据被视为数字时代的石油,每家企业都想守着自己的数据挖掘出巨大的商业价值。甚至数据隐私本身的保护服务,就蕴藏着商业利润。Gartner就预测2019年全球消费者安全软件支出将达到66亿美元。至于各地的政府部门本身,由于责任边界、数据共享的技术条件等问题,也缺乏足够的动力来推动。

有了隐私计算+区块链技术就不一样了。你可以选择把你的信息以加密方式都存在区块链上,当你需要用你的信息去填各种表格的时候,可以直接用加密方式提供。对方拿到了加密后的个人信息,可以直接拿到区块链上去验证。这样对方既可以确保你信息的真实性又免于了直接拿到你的信息。

8.9.2. 例子:

你叫李红,身份证号是 310101199708311528,人长得温婉可人。你存在区块链上的信息可能成为了 il99dskkdsf3234dsfs9893jdsjjadsf 等一串长长的密文,人脸像也被哈希加密。当你入住酒店的时候,你无需出示你的身份证,只需要把密文 il99dskkdsf3234dsfs9893jdsjjadsf 发给需要你信息的酒店,秘钥只有你自己知道。酒店可以通过智能AI对你进行人脸识别,然后你的数据会在一个可信的计算环境中和你链上的加密人脸数据进行比对,确定你的入住身份。同时也会比较你的身份密文数据和公安系统通缉要犯库中的数据密文,如果匹配不成功,那么你就 OK 了,可以入住。整个过程中,酒店方不会知道你的姓名和住址,但是又能够确认是你本人,而且不是通缉要犯,没用假身份证,让你可以办理入住。