专利一种基于敏感等级划分的数据扰动方法及装置 -在线下载 -pdf文件-oa.atghost.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210684482.1 (22)申请日 2022.06.17 (66)本国优先权数据 202210360974.5 202 2.04.07 CN (71)申请人河海大学地址 211100 江苏省南京市江宁开发区佛城西路8号申请人水利部信息中心 (72)发明人黄屿璁　吕鑫　张潮　高晟凯　李鑫　曾涛　王鑫元　徐振楠　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 专利代理师张赏 (51)Int.Cl. G06F 21/62(2013.01) (54)发明名称一种基于敏感等级划分的数据扰动方法及装置 (57)摘要本发明公开了一种基于敏感等级划分的数据扰动方法及装置，该方法包括： 1）对输入值域内每一项数据的敏感度进行评估并确定每个敏感等级的划分标准及对应的隐私预算； 2）根据数据敏感度评估结果计算出数据的综合敏感度； 3）对照敏感等级的划分标准，确定用户数据敏感等级与隐私预算； 4）使用对应的隐私预算对数据进行扰动。本发明通过对数据的敏感等级进行划分，结合数据自身敏感度与用户的隐私需求为不同等级的数据分配不同的隐私预算进行扰动，能有效地减少噪声引入，提高统计结果的精度。权利要求书2页说明书8页附图2页 CN 115098881 A 2022.09.23 CN 115098881 A 1.一种基于敏感等级划分的数据扰动方法，其特征在于，包括：获取输入值域内每一项数据的敏感度，以及划分用户的敏感等级和各敏感等级对应的隐私预算；根据每一项数据的敏感度，计算用户发送数据的综合敏感度；根据用户敏感等级划分，结合所计算的综合敏感度，确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算；对用户发送数据进行填充，使得数据长度达到预设长度；从填充后的用户发送数据中选择一个数据，根据填充后值域的大小选择相应的协议，并基于用户隐私预算对所选择的数据进行扰动。 2.根据权利要求1所述的一种基于敏感等级划分的数据扰动方法，其特征在于，所述划分用户的敏感等级和各敏感等级对应的隐私预算，包括：设置k个敏感等级，用Lj表示第j级对应的敏感节点，其中1≤j≤k且L0＝0,Lj‑1＜Lj；当用户的数据敏感度在范围(Lj‑1,Lj]时，表示该用户的敏感等级为j；为每个敏感等级设置隐私预算，用∈j表示第j级对应的隐私预算，其中， 1≤j≤k且∈1 ＞∈2＞...＞∈k。 3.根据权利要求2所述的一种基于敏感等级划分的数据扰动方法，其特征在于，所述计算用户发送数据的综合敏感度，包括：其中， Si表示用户ui的综合敏感度， Q( ·)表示打分函数， Xi＝{x1,x2,...,xm}表示用户ui 发送的数据集合，其中x1,x2,...,xm∈D且1≤m≤d， D＝{x1,x2,...,xd}表示输入值域， m表示用户发送数据个数， d表示输入值域数据个数，表示用户ui对于数据xj的发送意愿， sj表示数据xj的敏感度。 4.根据权利要求3所述的一种基于敏感等级划分的数据扰动方法，其特征在于，所述确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算，包括：使用二分查找法找到计算得到的综合敏感度Si所在的区间，假设是(Lj‑1,Lj]，即Lj‑1≤ Si≤Lj，则确定用户发送数据的敏感等级为j，对应的隐私预算为∈j。 5.根据权利要求3所述的一种基于敏感等级划分的数据扰动方法，其特征在于，所述对用户发送数据进行填充，使得数据长度达到预设长度，包括：预设填充长度l与填充数据集Dl＝{⊥1,⊥2,...,⊥l‑1}，其中1≤l≤d；如果用户ui发送数据个数m满足m＜l，则从Dl中随机选取l ‑m项数据加入到用户ui发送数据集合Xi中；若m＞l则从Xi中随机选取m‑l项数据删除。 6.根据权利要求5所述的一种基于敏感等级划分的数据扰动方法，其特征在于，所述填充长度l大于所有用户中90％数据的长度；所述充数据集Dl中所有数据均不属于D。 7.根据权利要求5所述的一种基于敏感等级划分的数据扰动方法，其特征在于，还包括，若用户数据均为单值数据，则不进行填充采样。权　利　要　求　书 1/2 页 2 CN 115098881 A 28.根据权利要求5所述的一种基于敏感等级划分的数据扰动方法，其特征在于，所述从填充后的用户发送数据中选择一个数据，根据填充后值域的大小选择相应的协议，并基于用户隐私预算对所选择的数据进行扰动，包括：按以下方式选择相应的协议对所选择的数据进行扰动：其中，为方差临界值， d ′＝|D|+l‑1表示填充后值域的大小，满足时，采用OLH协议对用户发送数据进行扰动；时，采用GRR协议对用户发送数据进行扰动；所述采用OLH协议对用户发送数据进行扰动，包括：采用不同的哈希函数将输入数据映射到一个长度为g的集合中，表示如下：其中， y、 x为填充后的值域中的任意数据， Hi表示用户ui使用的哈希函数，所述采用GR R协议对用户发送数据进行扰动，包括：在输入值域内通过一个概率公式对数据进行保留或替换操作，表示为：其中， Pr[ΨGRR(x)＝y]表示算法Ψ输入 x输出y的概率。 9.根据权利要求8所述的一种基于敏感等级划分的数据扰动方法，其特征在于，还包括：将扰动后的数据发送给服务器，服务器在统计时再乘以l。 10.一种基于敏感等级划分的数据扰动装置，其特征在于，包括：初始化模块，用于获取输入值域内每一项数据的敏感度，以及划分用户的敏感等级和各敏感等级对应的隐私预算；第一计算模块，用于根据每一项数据的敏感度，计算用户发送数据的综合敏感度；第二计算模块，用于根据用户敏感等级划分，结合所计算的综合敏感度，确定用户发送数据的敏感等级以及敏感等级所对应的隐私预算；填充模块，用于对用户发送数据进行填充，使得数据长度达到预设长度；以及，扰动模块，用于从填充后的用户发送数据中选择一个数据，根据填充后值域的大小选择相应的协议，并基于用户隐私预算对所选择的数据进行扰动。权　利　要　求　书 2/2 页 3 CN 115098881 A 3

专利 一种基于敏感等级划分的数据扰动方法及装置

专利一种基于敏感等级划分的数据扰动方法及装置