(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221070739 2.X (22)申请日 2022.06.21 (71)申请人 国网湖北省电力有限公司信息通信 公司 地址 430077 湖北省武汉市洪山区徐 东大 街341号 申请人 国家电网有限公司 (72)发明人 汪龙志 饶强 徐杰 余铮 蒋燕  詹鹏 孙志峰 陈家璘 赵婷  曾铮 隋璐捷 祝为 周智睿  胡晨 邱学晶 周敏 李熙 孙通  宋选安 陶磊 陈瑜婷 陈铈  赵青尧  (74)专利代理 机构 武汉楚天专利事务所 421 13 专利代理师 胡盛登(51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06F 21/62(2013.01) (54)发明名称 一种基于生成对抗网络的混合数据生成方 法 (57)摘要 本申请涉及一种基于生成对抗网络的混合 数据生成方法, 包括以下具体步骤: 预训练改进 的前置自编码器; 构建生成对抗模型mixGAN; 训 练所述生成对抗模型mixGAN; 通过完成训练的生 成对抗模型mixGAN生成所需混合数据。 本申请针 对目前数据科学领域对混合的异构类型数据(数 值类型和标签类型)的生成需求, 弥补现有模型 无法直接处理和生成相似分布的混合数据集的 缺陷, 本专利提出一个混合生成模型mixGAN。 该 模型利用生成对抗网络的生成器生成数据的潜 在连续的特征空间, 然后通过改进的前置多并行 自编码器将潜在特征空间映射回原始的混合空 间, 以此来生成混合数据, 有效弥补了当前对异 构数据的生成需求。 权利要求书1页 说明书7页 附图3页 CN 115115028 A 2022.09.27 CN 115115028 A 1.一种基于生成对抗网络的混合数据生成方法, 其特 征在于, 包括以下 具体步骤: 步骤1: 预训练改进的前置自编码器, 通过预训练改进的前置自编码器完成混合的异构 数据空间到低维连续空间的映射; 步骤2: 构建生成对抗模型mixGAN, mixGAN包括生成器和鉴别器以及 预训练改进的前置 自编码器的解码器, 解码器 看成是生成器一个预训练好的隐藏神经 单元; 步骤3: 训练所述 生成对抗模型mixGAN, 具体步骤为: 步骤3.1: 利用所述的生成器以及预训练改进的前置自编码器的解码器将输入的随机 噪声转换为 生成的混合数据; 步骤3.2: 将真实的混合数据和所述生成器以及解码器输出的生成的混合数据分别作 为所述鉴别器的输入, 并使用损失函数训练所述 鉴别器; 步骤3.3: 保持所述鉴别器的参数不变, 将生成的混合数据标签设置为真, 将更改标签 后的生成的混合数据送入所述 鉴别器进行判断, 并同时微调解码的参数; 步骤3.4: 将所述 鉴别器的判别误差结果进行梯度反向传播以训练所述 生成器; 步骤3.5: 按照步骤3.1至步骤3.4对所述 生成器和所述 鉴别器进行交替训练; 步骤4: 通过完成训练的生成对抗模型mixGAN 生成所需混合数据。 2.根据权利要求1所述的一种基于生成对抗网络的混合数据生成方法, 其特征在于, 所 述步骤1中通过预训练改进的前置自编 码器完成混合的异构数据空间到低维连续空间的映 射, 具体步骤为: 假设数据的每个记录包含数值和标签两种类型, 数据空间定义为S=(W ×V), 其中数值 空间W=W1×...×WM(W∈RM), 定义随机向量x=(x1,…, xM)∈W; 标签空间V=V1×…×VN, 其 中Vi为该属性所具有的所有类别, 每个标签的类别个数di=|Vi|, 定义随机变量v=(v1,…, vN)∈V, 对其中每个标签变量vi经过One‑Hot编码后记为向量 于是空间S中的 随机变量 也即是混合数据s表示 为s=(x, y)=(x1,…, xM, y1,…, yN), 其中 对自编码器的输出层进行修改, 将混合层的数据进行切割输出, 在其后放置N+1个并行 的属性输出层, 自编码器的Encoder网络将输入的混合数据s=[x1;…; xM; y1;…; yN]映射到 低维连续空间。 3.根据权利要求2所述的一种基于生成对抗网络的混合数据生成方法, 其特征在于, 利 用所述的生成器以及预训练改进的前置 自编码器的解码器将输入的随机噪声转换为生成 的混合数据的具体步骤为: 自编码器的Decoder网络将低维连续空间数据投影回原始数据 空间, 完成数据重建, Encoder网络是由两层全连接网络NN构成, Decoder网络从低维连续空 间获得输入, 通过两层全连接 网络NN后, 进入由[Dense0,…, DenseN]组成的N+1个 并列的数 据类型分离网络, 其中Dense0代表生成多数值向量x=[x1;…; xM], 经过Sigmoid层激活输 出, [Dense1,…, DenseN]代表生成N个One ‑Hot编码向量y=[y1,…, yN], 经过Gumbel ‑ Softmax层激活输出, 最终把所有的输出结果拼接在一起得到生成的混合数据 权 利 要 求 书 1/1 页 2 CN 115115028 A 2一种基于生成 对抗网络的混合数据生成方 法 技术领域 [0001]本申请涉及混合数据技术领域, 尤其涉及 一种基于生成对抗网络的混合数据生成 方法。 背景技术 [0002]在互联网时代, 随着信息技术和人类生产生活交汇融合, 大数据对经济发展、 社会 治理、 人民生活产生了重大影响, 数据信息的获取在其中扮演 了重要角色。 与此同时隐私泄 露问题日益凸显引起国家重视, 尤其在医疗大数据和金融大数据行业, 相关数据包含了个 人标签以及私密信息, 研究员也无法自由访问数据信息, 如果 随意提供给外界则会产生个 人隐私泄露问题。 为减轻隐私泄露带来的负面影响, 美 国、 欧盟、 中国等国家或组织正在不 断通过完善数据安全和隐私保护法律法规对企业以及个人进 行监管。 早期 针对数据隐私问 题, 有两类方法用来降低风险:(1)健康 医疗组织(HCOs)通过泛化、 抑制和随机化来干扰潜 在的可识别属 性等去识别的方法来降低数据 泄露的隐私风险。 然而, 不法分子通过剩余的 属性信息预判数据对应的个人标签, 从而恢复原始数据; (2)通过生成合 成数据来去除个人 身份识别信息。 训练生成模 型来准确捕捉数据集分布和潜在结构, 更好地理解数据。 但是一 般生成模型无法产生与 原始数据分布接近的合成数据, 很难代替真实数据进 行相关挖掘和 分析。 [0003]深度生成模型被证实是一种高度灵活和可表达的无监督学习方法, 能够捕获复杂 高维数据的潜在结构。 训练好的深度生成模型可以有效模拟 高维数据复杂分布, 生成与原 始数据相似的合成数据。 当前研究重点主要集中于基于先验或后验的变分自编码器 (Variational  Autoencoder,VAE) ,如变分有损自编码器(Variational  Lossy  Autoencoder)、 具有重叠变换的离散变分自编码器(DVA E++)、 形变化自编码器(ShapeVA E), 以及生成对抗网络(Generative  Adversarial  Network, GANs), 如生成匹配网络(MMD ‑ GAN)、 增强生成模型(AdaGAN)和Wasserstein  GAN(WGANs)。 生成对抗网络(GANs)近年在图 像生成方向取得了丰富的成果, 在生成逼真图像的性能上远超其他方法。 GANs模型采用对 抗博弈的思想, 由生成器G和鉴别器D两部分组成, 生成器学习样本的真实分布并生成相似 的合成数据, 鉴别器判别真实数据和合成数据的真伪, 两者进 行相互的对抗交替训练。 随着 生成对抗网络领域的实践应用与理论 发展,越来越多的学者将关注点转向对数据科学的研 究。 目前与GANs相关的研究大多针对连续数据集, 但是数据科学应用通常还涉及离散变量。 对于这些数据, GANs从离散分布层采样是不可微分的, 导致无法使用梯度反向传播训练模 型,因此无法直接训练出具有分类输出的网络。 Jang等人提出Gumbel ‑Softmax方法来解决 变分自编码器(VAE)生成离散数据问题, 与此同时Kingma等人也提出Concrete ‑ Distribution方法来解决这个问题。 在基于VAE所提出的方法中, Kusner等人将这些方法应 用到GANs模型来生成离散序列数据。 针对同样问题, seqGAN基于强化学习的思想提出随机 策略方法以避免离散序列反向传播问题。 另一种避免离散数据反向传播方法是 Adversarially  regularized autoencoders(ARA E), 作者将本申请学习中的离散词汇转换说 明 书 1/7 页 3 CN 115115028 A 3

PDF文档 专利 一种基于生成对抗网络的混合数据生成方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于生成对抗网络的混合数据生成方法 第 1 页 专利 一种基于生成对抗网络的混合数据生成方法 第 2 页 专利 一种基于生成对抗网络的混合数据生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:38:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。