1、个人、企业政府隐私文件究竟该如何去保护?
随着大数据和机器学习技术的快速发展,在物联网环境下产生的海量数据无论是对企业、政府还是个人来说都是一笔巨大的财富。通过对这些数据的收集、分析和挖掘,人们将获得全面的统计信息、构建精准的预测模型,从而为人们带来生活上的便利,帮助企业优化服务,协助政府制定有效的政策。但在数据的发布和分析过程中,个人信息的隐私问题越来越受到关注,最近发生的许多涉及数据泄露的事件使人们意识到私人信息在网络空间中的极端脆弱性以及隐私数据与个人和国家安全之间的紧密关系。
2、内蒙古大学团队花费数年时间研究终于重大突破。
作为国内重要大数据产业基地的内蒙古自治区,众多大数据企业都面临着如何保护用户隐私数据问题。内蒙古大学计算机学院马学彬副教授所领导的课题组针对隐私数据发布问题进行了深入研究,并取得了丰富的科研成果。
针对目前在隐私保护领域经常使用的k-匿名,l-多样性和t-紧密性等方法需要特殊攻击假设和背景知识的问题,马学彬副教授利用差分隐私技术来保护用户的隐私数据。差分隐私是Dwork等人于2006年提出的,该模型通过对发布的数据进行随机扰动,使得在统计意义上无论攻击者具有何种背景知识都无法识别一条记录是否在原数据表中。
传统的差分隐私技术假设待发布的数据具有相同的数据格式,然而在大数据环境下,待发布的数据具有规模大、速度快的特征,再加上各类应用相互融合,导致待发布的数据来自多个数据源,数据的表现形式也呈现多样性,以上这些因素导致在大数据环境下设计出有效的隐私保护数据发布技术是一项极具挑战性的课题。针对以上问题,课题组提出一种新的交互式大数据保护模型,如下图所示,该模型适用于大数据下多数据源的查询请求,并能自动选择适当的差分隐私保护算法,提高系统的可用性。在该模型中,查询分配及隐私参数选择模块将根据用户的标识、查询历史记录及所提交的本次查询内容自动选择合适的数据库及隐私保护参数。现实情况是用户的查询可能涉及多个数据库,这时查询分配及隐私参数选择模块具备把查询进行适当分解的功能,然后把分解后的查询请求及选择的隐私参数发送给各数据库。数据库接收到查询请求后返回真实结果并连同收到的隐私参数发送给差分隐私算法模块,该模块具有多种差分隐私算法,能够根据收到的隐私参数及真实结果输出符合差分隐私机制的噪声结果并返回给用户。
交互式大数据保护模型
3、当地政府支持并即将上线此应用用于实践
目前该模型已经设计完成并完成了实验室测试,实验结果显示该模型能够有效抵御目前所知的各种隐私攻击,提高了数据的可用性。该研究得到了国家自然科学基金委的支持,并即将在呼和浩特的医疗及公交系统上进行应用。
马学彬副教授介绍,目前系统还有几个关键问题需要解决:首先,该模型还需要解决具有关联性的数据集的隐私保护问题;另外,由于在大数据环境中动态生成的数据量非常大,如何缩短计算时间也是一个关键问题。