近日,火山引擎安全研究团队对外开源了Jeddak-DPSQL(项目地址:https://github.com/bytedance/Jeddak-DPSQL),这是基于差分隐私的SQL代理工具,适用于数据管理者可信的场景模式,以中间件的形式接收SQL统计查询请求,返回满足差分隐私的查询结果。
据悉,火山引擎对于用户敏感数据尤为重视,在火山引擎提供的数据分析产品中,广泛采用差分隐私技术对用户敏感信息进行保护。此类数据产品通常构建于 ClickHouse 等数据引擎之上,以 SQL 查询方式来执行计算逻辑,且查询逻辑往往较为复杂,因此对差分隐私的应用提出了以下要求:
(相关资料图)
零改造、零感知:最大程度避免影响业务现有查询方式,最好做到业务零感知、零改造;
良好、灵活的适配性:能够适配不同数据引擎的查询语法,以及能够处理包含多层嵌套、多重计算、多表连接等情形的复杂 SQL 语句;
安全性与可用性平衡:能够根据业务数据质量要求,计算合理的隐私预算,在安全性和数据可用性之间保持平衡;
为更好解决数据安全和隐私合规治理相关问题,火山引擎安全研究团队进行了产品调研,目前市面上在SQL查询场景下加入差分隐私能力的产品,发现这些产品大多都没有提供SQL 的自动化分析能力,需主动调用 API 或是在 SQL 中调用 UDF 来引入差分隐私能力,接入成本较高。其中OpenDP产品限定了输入 SQL 的方言,仅支持 SQL 92标准,难以在 Hive、ClickHouse 等主流数仓引擎中透明应用。
同时,火山引擎安全研究团队也注意到云服务厂商在To B场景下会提供多款数据分析产品,部分产品的模式面临泄漏用户隐私、法律合规的风险,该类产品通常是通过数据库引擎使用面向实时分析的 clickhouse,计算逻辑用SQL查询的方式执行,因此考虑结合差分隐私技术提供隐私保护的SQL查询能力。
基于上述挑战,火山引擎安全研究团队自主研发了Jeddak-DPSQL ,希望能够为同样面临该类问题的企业和个人提供一定参考和帮助,同时也希望能够有更多的外部开发者能够一起对该开源项目进行共建,完善 Jeddak-DPSQL 产品功能,共同构建更完备的应用生态。
据了解,Jeddak-DPSQL 能够兼容多种数据引擎和SQL方言,内嵌多种差分噪声扰动算法,具备隐私预算管理能力,并且能够与底层数据引擎结合,在数据分析师无感的情况下,对 SQL 语句进行自动化分析和结果加噪处理。同时,Jeddak-DPSQL 已经在抖音集团相关业务中得到了普遍应用与验证。
一、全面了解 Jeddak-DPSQL
1、 Jeddak-DPSQL介绍
Jeddak-DPSQL采用中心化差分隐私(Centralized Differential Privacy,简称CDP,适用于数据管理者可信的场景)模式,以中间件的形式接收SQL统计查询请求,返回满足差分隐私的查询结果。一个典型的查询请求处理流程如下:
●首先,核心服务接受客户提交的SQL查询语句,对该语句进行解析和重写,以便于计算隐私噪声(如将AVG计算改为SUM/COUNT);
●然后,核心服务调用元数据管理服务,计算重写后的SQL查询所对应的数据表敏感度,同时在数据库上执行重写后的SQL查询,得到原始的查询结果;
●最后,核心服务调用隐私预算管理服务得到为该查询分配的隐私预算,并结合敏感度在原始的查询结果中添加噪声并返回。
2、 Jeddak-DPSQL解决的问题
案例背景
假设有一个数据库 business,存储用户消费数据,使用 clickhouse 引擎,其中一个表 user 存储用户信息,表中存在以下列:uid,name,age,sex,city,代表用户id、姓名、年龄、性别、城市。
查询需求
假设要查询用户数量和平均年龄的城市分布,使用 SQL 语句 1:
风险
如果不应用隐私保护技术,可能面临差分攻击的风险,比如攻击者通过某渠道得知张三的 uid 为 803719,构造下面的 SQL 语句 2:
#FormatImgID_2#
通过执行上面的 SQL语句1 和 SQL 语句2,可分别得到两个查询结果:
那么就可以通过比较两次查询结果得知张三所在的城市是北京,年龄大约 61 岁(120008*49.3276 = 5919706.62,120007*49.3275 = 5919645.29,5919706.62 - 5919645.29 约等于 61)
以上是一个简单的例子,现实场景中,攻击者可能通过背景知识构造更多样、更复杂的查询语句达到窃取隐私的目的。
因此,在上述SQL查询场景下,可以通过接入Jeddak-DPSQL对SQL进行分析和重写,最终执行重写后的SQL能够保证返回给使用者的数据满足差分隐私要求,进而达到对个人隐私保护的效果。
3、 Jeddak-DPSQL在火山引擎的应用验证
1.Jeddak-DPSQL已接入火山引擎的增长分析(finder)、A/B 测试等产品,间接服务300+外部客户,日均处理查询请求 200+。Jeddak-DPSQL服务不仅帮助业务满足了隐私保护和业务合规的需求,同时也成为创新型隐私计算技术应用的典范案例。
2.开放隐私计算OpenMPC对外公布了“隐私计算2021年度优秀应用案例TOP10”。火山引擎云安全凭借“融合差分隐私的火山引擎DPSQL服务”案例,成功入选TOP10。
二、如何使用Jeddak-DPSQL
GitHub 开源项目地址:https://github.com/bytedance/Jeddak-DPSQL
1. 下载
#FormatImgID_4#
2. 快速部署
完成Jeddak-DPSQL下载后,按照README中的部署引导部分完成服务部署,整个部署过程包括以下步骤:
●服务依赖包安装:进入项目根目录,使用pip install -r requirements.txt安装服务所需完整pip包
●metaData存储准备:在使用DPSQL时,需要维护源数据表的metaData信息,为后续加噪计算敏感度作准备。Jeddak-DPSQL使用Mysql对相应元数据信息进行存储,因此需要用户提前在自己的Mysql数据库中创建相应的表
●隐私预算消耗存储准备:使用Jeddak-DPSQL系统过程,可以记录对表级别的数据查询时的隐私预算消耗。主要通过Mysql进行记录,因此需要用户提前在自己的Mysql数据库中创建相应的表
●数据库连接配置:Jeddak-DPSQL中使用数据库主要有Mysql和Redis,因此需要对这两个数据库连接地址进行配置
●服务启动:完成上述配置后可以在项目根目录运行bootstrap.sh脚本启动服务
3. 正式使用
完成Jeddak-DPSQL部署后,按照README中的快速开始部分可以进行功能体验,整个过程如下:
●选择要测试的数据源(Hive或ClickHouse),导入要进行查询测试的原始数据集
●初始化metadata和隐私预算
○生成 metadata
启动dpsql服务后, 调用接口 /api/v1/metadata/generate,生成metadata,可参考:
○确认metadata 生成完成
调用 /api/v1/metadata/get 接口,确认 metadata 生成完成
●调用隐私保护查询接口,获得经过差分隐私保护的查询结果
更多接口使用方式可以参考项目README中的API documentation部分。
三、后续计划
火山引擎安全研究部门相关负责人表示,Jeddak-DPSQL会长期维护,欢迎大家使用。他也指出,近期开源的Jeddak-DPSQL是首个版本,因此还存在很多不完善的地方,也希望有更多的外部开发者能够一起对该开源项目进行共建,完善产品功能,构建更完备的应用生态。(作者:崔世高)
标签:
近日,火山引擎安全研究团队对外开源了Jeddak-DPSQL(项目地址:https: github com bytedance Jeddak-DPSQL
5月30日,在贵州省遵义市余庆县飞鹰幼儿园迎“六一”亲子活动中,家长和小朋友在参加亲子活动。“六一”...
1、石粉是石头的粉末的通称,石头的种类很多,根据矿物成分划分有很多品种,并不一定是碳酸钙。石粉用途广
中新社北京5月31日电(记者阮煜琳)中国物流与采购联合会5月31日公布的数据显示,5月份中国非制造业商务活动
每日游戏行业动态汇总(5月31日)1 韩国监管机构无条件批准微软与动视暴雪交易。2 米哈游《原神》推出首个
摘要:2023年05月31日浪潮信息(000977)换手率大于8%,主力资金净流出1231 27万元。换手率大于
每经AI快讯,有投资者在投资者互动平台提问:请问贵公司的电容电阻、陶瓷滤波器和FPC线路板相关的电子元件
5月30日,由长投控股发起设立的300亿元长沙市产业发展母基金正式成立。红网时刻新闻5月30日讯(记
5月31日,Canalys发布研报称,2023年第一季度,全球智能可穿戴腕带设备出货量达到4100万台,相较去年同期略
2023中关村论坛上,北京建设全球数字经济标杆城市的新突破集中亮相,城市超级算力中心、自动驾驶等方面的阶
5月16日,来自阿联酋的液化天然气运输船“马尔文”轮在广东顺利接卸,成为中国首单以人民币结算的进口液...
1、是利好。2、资产重组从狭义上来看,上市公司资产重组是将公司原有的债务和资产进行划分、调整,再通过合
5月30日收盘,中科云网(002306)股价上涨2 63%。这家上市公司在跨界发展上小有“名气”,今年切入光伏电池业务,
红色文化作为民族文化之一,具有极强的人格塑造能力和潜藏的德育功能,可以引导学生以正确的态度对待学习,
24日从住房和城乡建设部了解到,我国将力争在今年年底前使地级及以上城市居民小区垃圾分类覆盖率达到90%以
1、黄沙腌蛋法。备黄沙500克、精盐100克、精油50克、水适量。腌制时先将黄沙倒入盆中,加入精盐、精油和水
经过激烈争夺,作为赛事卫冕冠军、1号种子的樊振东,凭借其强大实力和完美发挥,一路过关斩将打进决赛,并
当前,高校毕业生就业工作进入冲刺阶段,不少学生仍在为找到一份理想工作而努力。人力资源和社会保障部近期
规则委员会中两名共和党极端保守派议员拉尔夫·诺曼和奇普·罗伊表示,如果债务上限协议不得到修改,可...
5月30日,宝盈鸿利收益灵活配置混合A最新单位净值为1 7元,累计净值为4 224元,较前一交易日上涨0 0%。历史
X 关闭
X 关闭