(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210699743.7
(22)申请日 2022.06.20
(71)申请人 山东大学
地址 266237 山东省青岛市 即墨滨海路72
号
(72)发明人 郭山清 唐朋 胡程瑜 刘高源
金崇实
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
专利代理师 李琳
(51)Int.Cl.
G06F 21/62(2013.01)
G06K 9/62(2022.01)
(54)发明名称
基于增量学习的本地差分隐私的多维数据
发布方法及系统
(57)摘要
本发明属于数据安全与隐私保护领域, 提供
了基于增量学习的本地差分隐私的多维数据发
布方法及系统, 通过聚合第一批用户扰动数据,
学习所有属性对的相关性; 根据属性对的相关性
构建依赖图模 型, 通过联结树算法将构建好的依
赖图模型转化为多个团组成的联结树模型; 基于
第二批用户数据, 根据各个团包含的属性个数及
大小类型, 采用对应的估计方法对团的分布进行
估计, 得到联结树模型中各团的联合分布; 根据
联结树模型及联结树模型中各团的联合分布, 通
过基于采样的数据生成方法, 生成同样包含相同
数量记录合成的数据集进行发布。
权利要求书2页 说明书11页 附图2页
CN 115098882 A
2022.09.23
CN 115098882 A
1.基于增量学习的本地差分隐私的多维数据发布方法, 其特 征在于, 包括如下步骤:
通过聚合第一批用户扰动数据, 学习所有属性对的相关性;
根据属性对的相关性构建依赖图模型, 通过联结树算法将构建好的依赖图模型转化为
多个团组成的联 结树模型;
基于第二批用户数据, 根据各个团包含的属性个数及大小类型, 采用对应的估计方法
对团的分布进行估计, 得到联 结树模型中各团的联合分布;
根据联结树模型及联结树模型中各团的联合分布, 通过基于采样的数据生成方法, 生
成同样包 含相同数量记录合成的数据集进行发布。
2.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在
于, 所述根据属性对的相关性构建依赖图模型, 包括:
根据当前依赖 图的边集采用基于增量学习的依赖 图模型构造方法进行构造, 包括: 进
行T轮迭代, 在每次迭代中, 分别对属性对的集合中剩余的每个属 性对收集新的数据, 重新
估计这些属性对之 间的相关性, 采用基于阈值松弛的边缘剪枝方法剔除相关性较弱的属性
对得到修剪后的边。
3.如权利要求2所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在
于, 利用两个属 性的互信息来度量属 性对之间的相关性, 所述属 性对的互信息的计算公式
为:
式中, Aj,Aj为属性对,
分别为属性Ai,Aj的域,Pr(am)和Pr(an)分别表示
中
第m个值am的边际分布及
中第n个值an的边际分布, Pr(am,an)表示am和an的联合分布。
4.如权利要求2所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在
于, 采用基于阈值松弛的边 缘剪枝方法剔除相关性较弱的属性对得到修剪后的边包括:
基于设定依赖度参数计算相关性阈值;
结合相关性阈值、 给定 置信水平和记录的属性对的互信息计算 放缩的相关性阈值;
重新计算重新估计相关性, 若如果属性对的相关性大于等于放缩的相关性阈值表示属
性具有强相关性, 在依赖图中保留边; 反 之, 将该边从依赖图中删除。
5.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在
于, 所述根据各个团包含的属 性个数及大小类型, 采用对应的估计方法对团的分布进行估
计, 得到联 结树模型中各团的联合分布, 包括:
根据团的属性个数及大小类型, 将所有团分为大团和小团两组;
采用前向搜索策略的启发式方法, 确认最优分解顺序, 按照最优顺序将大团进行分解
得到条件分布;
基于第二批用户数据和条件分布, 基于联合分布公式得到联结树模型中各团的联合分
布。
6.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在
于, 所述采用前向搜索策略的启发式方法, 确认 最优分解顺序, 按照最优顺序将大团进行分权 利 要 求 书 1/2 页
2
CN 115098882 A
2解包括:
如果|Q|≤σ, 从Q中随机选择一个属性Ah∈Q作为目标属性, 令
作为条件,
即因子分解的第h项为条件分布
如果|Q|>σ, 对于
以Aj为目标属性, 使用最大冗余最小相关的特征选择方法,
对属性集合Q\Aj进行冗余消除, 得到消除冗余后的属性 集合
根据计算得到的冗余消除结果, 从中选择出令
最小的Ah∈Q
作为目标属性, 令
作为条件, 则因子分解的第h项为条件分布
并令Q=Q\
Ah,
其中, |Q|表示当前属性集Q的域大小, σ 为团大小阈值,
为属性集Q中除属性Ah外的
其他所有属性。
7.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在
于, 所述记录的生成过程包括:
随机选择一个小团, 根据其分布进行采样, 得到该小团所有属性的采样结果, 然后选择
所有与该小团有关联的团
对
从条件分布
中对属性
进行采样, 其中,
表
示未采样的属性集合, 条件分布从Pr(Cr)获得, 然后将所有与Cr相连且未被访问过的团插入
到
的末尾;
重复执行采样, 直到得到所有属性的采样结果, 结束生成。
8.基于增量学习的本地差分隐私的多维数据发布系统, 其特 征在于, 包括:
相关性学习模块, 用于通过聚合第一批用户扰动数据, 学习所有属性对的相关性;
联结树模型构建模块, 用于根据属性对的相关性构建依赖 图模型, 通过联结树算法将
构建好的依赖图模型转 化为多个团组成的联 结树模型;
联结树各团的分布计算模块, 用于基于第二批用户数据, 根据各个团包含的属性个数
及大小类型, 采用对应的估计方法对团的分布进行估计, 得到联结树模型中各团的联合分
布;
数据发布模块, 用于根据联结树模型及联结树模型中各团的联合分布, 通过基于采样
的数据生成方法, 生成同样包 含相同数量记录合成的数据集进行发布。
9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执
行时实现如权利要求1 ‑7中任一项 所述的基于增量学习的本地差 分隐私的多维数据发布方
法中的步骤。
10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的基
于增量学习的本地差分隐私的多维数据发布方法中的步骤。权 利 要 求 书 2/2 页
3
CN 115098882 A
3
专利 基于增量学习的本地差分隐私的多维数据发布方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:38:37上传分享