(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210699743.7 (22)申请日 2022.06.20 (71)申请人 山东大学 地址 266237 山东省青岛市 即墨滨海路72 号 (72)发明人 郭山清 唐朋 胡程瑜 刘高源  金崇实  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 李琳 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) (54)发明名称 基于增量学习的本地差分隐私的多维数据 发布方法及系统 (57)摘要 本发明属于数据安全与隐私保护领域, 提供 了基于增量学习的本地差分隐私的多维数据发 布方法及系统, 通过聚合第一批用户扰动数据, 学习所有属性对的相关性; 根据属性对的相关性 构建依赖图模 型, 通过联结树算法将构建好的依 赖图模型转化为多个团组成的联结树模型; 基于 第二批用户数据, 根据各个团包含的属性个数及 大小类型, 采用对应的估计方法对团的分布进行 估计, 得到联结树模型中各团的联合分布; 根据 联结树模型及联结树模型中各团的联合分布, 通 过基于采样的数据生成方法, 生成同样包含相同 数量记录合成的数据集进行发布。 权利要求书2页 说明书11页 附图2页 CN 115098882 A 2022.09.23 CN 115098882 A 1.基于增量学习的本地差分隐私的多维数据发布方法, 其特 征在于, 包括如下步骤: 通过聚合第一批用户扰动数据, 学习所有属性对的相关性; 根据属性对的相关性构建依赖图模型, 通过联结树算法将构建好的依赖图模型转化为 多个团组成的联 结树模型; 基于第二批用户数据, 根据各个团包含的属性个数及大小类型, 采用对应的估计方法 对团的分布进行估计, 得到联 结树模型中各团的联合分布; 根据联结树模型及联结树模型中各团的联合分布, 通过基于采样的数据生成方法, 生 成同样包 含相同数量记录合成的数据集进行发布。 2.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在 于, 所述根据属性对的相关性构建依赖图模型, 包括: 根据当前依赖 图的边集采用基于增量学习的依赖 图模型构造方法进行构造, 包括: 进 行T轮迭代, 在每次迭代中, 分别对属性对的集合中剩余的每个属 性对收集新的数据, 重新 估计这些属性对之 间的相关性, 采用基于阈值松弛的边缘剪枝方法剔除相关性较弱的属性 对得到修剪后的边。 3.如权利要求2所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在 于, 利用两个属 性的互信息来度量属 性对之间的相关性, 所述属 性对的互信息的计算公式 为: 式中, Aj,Aj为属性对, 分别为属性Ai,Aj的域,Pr(am)和Pr(an)分别表示 中 第m个值am的边际分布及 中第n个值an的边际分布, Pr(am,an)表示am和an的联合分布。 4.如权利要求2所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在 于, 采用基于阈值松弛的边 缘剪枝方法剔除相关性较弱的属性对得到修剪后的边包括: 基于设定依赖度参数计算相关性阈值; 结合相关性阈值、 给定 置信水平和记录的属性对的互信息计算 放缩的相关性阈值; 重新计算重新估计相关性, 若如果属性对的相关性大于等于放缩的相关性阈值表示属 性具有强相关性, 在依赖图中保留边; 反 之, 将该边从依赖图中删除。 5.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在 于, 所述根据各个团包含的属 性个数及大小类型, 采用对应的估计方法对团的分布进行估 计, 得到联 结树模型中各团的联合分布, 包括: 根据团的属性个数及大小类型, 将所有团分为大团和小团两组; 采用前向搜索策略的启发式方法, 确认最优分解顺序, 按照最优顺序将大团进行分解 得到条件分布; 基于第二批用户数据和条件分布, 基于联合分布公式得到联结树模型中各团的联合分 布。 6.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在 于, 所述采用前向搜索策略的启发式方法, 确认 最优分解顺序, 按照最优顺序将大团进行分权 利 要 求 书 1/2 页 2 CN 115098882 A 2解包括: 如果|Q|≤σ, 从Q中随机选择一个属性Ah∈Q作为目标属性, 令 作为条件, 即因子分解的第h项为条件分布 如果|Q|>σ, 对于 以Aj为目标属性, 使用最大冗余最小相关的特征选择方法, 对属性集合Q\Aj进行冗余消除, 得到消除冗余后的属性 集合 根据计算得到的冗余消除结果, 从中选择出令 最小的Ah∈Q 作为目标属性, 令 作为条件, 则因子分解的第h项为条件分布 并令Q=Q\ Ah, 其中, |Q|表示当前属性集Q的域大小, σ 为团大小阈值, 为属性集Q中除属性Ah外的 其他所有属性。 7.如权利要求1所述的基于增量学习的本地差分隐私的多维数据发布方法, 其特征在 于, 所述记录的生成过程包括: 随机选择一个小团, 根据其分布进行采样, 得到该小团所有属性的采样结果, 然后选择 所有与该小团有关联的团 对 从条件分布 中对属性 进行采样, 其中, 表 示未采样的属性集合, 条件分布从Pr(Cr)获得, 然后将所有与Cr相连且未被访问过的团插入 到 的末尾; 重复执行采样, 直到得到所有属性的采样结果, 结束生成。 8.基于增量学习的本地差分隐私的多维数据发布系统, 其特 征在于, 包括: 相关性学习模块, 用于通过聚合第一批用户扰动数据, 学习所有属性对的相关性; 联结树模型构建模块, 用于根据属性对的相关性构建依赖 图模型, 通过联结树算法将 构建好的依赖图模型转 化为多个团组成的联 结树模型; 联结树各团的分布计算模块, 用于基于第二批用户数据, 根据各个团包含的属性个数 及大小类型, 采用对应的估计方法对团的分布进行估计, 得到联结树模型中各团的联合分 布; 数据发布模块, 用于根据联结树模型及联结树模型中各团的联合分布, 通过基于采样 的数据生成方法, 生成同样包 含相同数量记录合成的数据集进行发布。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1 ‑7中任一项 所述的基于增量学习的本地差 分隐私的多维数据发布方 法中的步骤。 10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的基 于增量学习的本地差分隐私的多维数据发布方法中的步骤。权 利 要 求 书 2/2 页 3 CN 115098882 A 3

PDF文档 专利 基于增量学习的本地差分隐私的多维数据发布方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于增量学习的本地差分隐私的多维数据发布方法及系统 第 1 页 专利 基于增量学习的本地差分隐私的多维数据发布方法及系统 第 2 页 专利 基于增量学习的本地差分隐私的多维数据发布方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:38:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。