(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210668021.5 (22)申请日 2022.06.14 (71)申请人 蚂蚁区块链科技 (上海) 有限公司 地址 200010 上海市黄浦区外马路618号8 层803室 (72)发明人 鲍梦瑶 刘佳伟 章鹏 张谦  殷雪梅  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 吴肖肖 (51)Int.Cl. G06F 21/62(2013.01) G06F 16/901(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 数据识别模型训练方法、 数据 识别方法以及 装置 (57)摘要 本说明书实施例提供数据识别模型训练方 法、 数据识别方法以及装置, 其中所述数据识别 模型训练方法包括: 获取多个数据节 点各自的元 数据, 其中, 元数据携带数据标签, 数据标签表征 数据节点保存的数据对应的类别; 利用元数据分 析所述数据节点之间的关系, 获得分析结果; 根 据所述分析结果构建数据节点关系图, 其中, 数 据节点关系图以数据节点为图的节 点, 数据节点 之间的关系为图的边; 针对数据节 点关系图中的 节点, 根据元数据的文本表示, 生成节点的节点 向量; 利用节点向量和数据节点关系图, 训练基 于图神经网络的数据识别模型, 获得训练后的数 据识别模型。 通过生成节点向量, 提高训练效率, 综合各节 点的元数据, 提高训练后的数据识别模 型的准确性。 权利要求书3页 说明书19页 附图8页 CN 114969823 A 2022.08.30 CN 114969823 A 1.一种数据识别模型训练方法, 包括: 获取多个数据节点各自的元数据, 其中, 所述元数据携带数据标签, 所述数据 标签表征 所述数据节点保存的数据对应的类别; 利用元数据分析 所述数据节点之间的关系, 获得分析 结果; 根据所述分析结果构建数据节点关系图, 其中, 所述数据节点关系图以所述数据节点 为图的节点, 所述数据节点之间的关系为图的边; 针对所述数据节点关系图中的节点, 根据所述元数据的文本表示, 生成所述节点的节 点向量; 利用所述节点向量和所述数据节点关系图, 训练基于 图神经网络的数据识别模型, 获 得训练后的数据识别模型。 2.根据权利要求1所述的方法, 所述针对所述数据节点关系图中的节点, 根据 所述元数 据的文本表示, 生成所述节点的节点向量的步骤, 包括: 针对所述数据节点关系图中的节点, 拼接所述节点的元数据, 生成所述元数据的文本 表示; 将所述文本表示映射 为所述节点的节点向量。 3.根据权利要求1所述的方法, 所述数据节点为数据库中的存储单元, 所述元数据为所 述存储单元的属性; 所述利用元数据分析所述数据 节点之间的关系, 获得分析结果的步骤, 包括: 利用所述存 储单元中的操作语句分析 所述数据节点之间的关系, 获得分析 结果。 4.根据权利要求3所述的方法, 所述获取多个数据节点各自的元 数据的步骤, 包括: 确定目标 数据库, 其中, 所述目标 数据库中包括多个存 储单元; 获取多个存储单元各自的元数据, 其中, 所述元数据包括数据名称、 数据类型、 数据注 释中的至少一种。 5.根据权利要求1所述的方法, 所述数据识别模型包括编码层、 实体表示层以及分类 层; 所述利用所述节点向量和所述数据 节点关系图, 训练基于图神经网络的数据识别模型, 获得训练后的数据识别模型的步骤, 包括: 将所述节点向量输入所述编码层, 生成所述节点向量对应的编码向量; 将所述编码向量输入所述实体表示层, 生成所述数据节点关系图中各节点的实体表 示; 将所述各节点的实体表示输入所述分类层, 生成所述元 数据对应的预测结果; 基于所述预测结果和所述元数据携带的数据标签, 调整所述数据识别模型的模型参 数, 获得训练后的数据识别模型。 6.根据权利要求5所述的方法, 所述将所述编码向量输入所述实体表示层, 生成所述数 据节点关系图中各节点的实体表示的步骤, 包括: 利用预先设置的相邻矩阵, 对所述编码向量进行线性变换, 生成线性变换后的编码向 量; 根据所述线性变换后的编码向量, 计算所述数据节点关系图中各节点的注意力系数; 根据所述各节点的注意力系数, 对所述节点向量进行加权平均, 生成所述各节点的实 体表示。权 利 要 求 书 1/3 页 2 CN 114969823 A 27.根据权利要求5所述的方法, 所述将所述各节点的实体表示输入所述分类层, 生成所 述元数据对应的预测结果的步骤, 包括: 利用预先设置的分类矩阵, 对所述实体表示进行线性变换, 生成线性变换后的实体表 示; 将所述线性变换后的实体表示输入所述分类层, 生成所述元 数据对应的预测结果。 8.根据权利要求5所述的方法, 所述基于所述预测结果和所述元数据携带的数据标签, 调整所述数据识别模型的模型参数, 获得训练后的数据识别模型的步骤, 包括: 根据所述预测结果和所述数据标签, 计算损失值; 若所述损 失值大于预设阈值, 则调整所述数据识别模型的模型参数, 并返回执行所述 将所述节点向量输入所述编码层, 生成所述节点向量对应的编码向量的步骤; 若所述损失值小于或等于所述预设阈值, 则停止训练, 获得训练后的数据识别模型。 9.一种数据识别方法, 包括: 获取待识别数据; 将所述待识别数据输入训练后的数据识别模型, 获得所述待识别数据对应的识别结 果, 其中, 所述数据识别模型为利用如权利要求1 ‑8任一项所述的方法训练得到 。 10.根据权利要求9所述的方法, 所述待识别数据包括隐私数据和非隐私数据; 所述将 所述待识别数据输入训练后的数据识别模型, 获得所述待识别数据对应的识别结果的步 骤, 包括: 将所述待识别数据输入训练后的数据识别模型, 获得所述待识别数据 是否为隐私数据 的识别结果。 11.一种数据识别模型训练装置, 包括: 第一获取模块, 被配置为获取多个数据节点各自的元数据, 其中, 所述元数据携带数据 标签, 所述数据标签表征 所述数据节点保存的数据对应的类别; 分析模块, 被 配置为利用元 数据分析 所述数据节点之间的关系, 获得分析 结果; 构建模块, 被配置为根据 所述分析结果构建数据节点关系图, 其中, 所述数据节点关系 图以所述数据节点 为图的节点, 所述数据节点之间的关系为图的边; 生成模块, 被配置为针对所述数据节点关系图中的节点, 根据 所述元数据的文本表示, 生成所述节点的节点向量; 训练模块, 被配置为利用所述节点向量和所述数据节点关系图, 训练基于 图神经网络 的数据识别模型, 获得训练后的数据识别模型。 12.一种数据识别装置, 包括: 第二获取模块, 被 配置为获取待识别数据; 识别模块, 被配置为将所述待识别数据输入训练后的数据识别模型, 获得所述待识别 数据对应的识别结果, 其中, 所述数据识别模型为利用如权利要求 1‑8任一项所述的方法训 练得到。 13.一种计算设备, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指 令, 该计算机可执行指令被处理器执行时实现权利要求1至8或权利要求9至10任意一项所权 利 要 求 书 2/3 页 3 CN 114969823 A 3

PDF文档 专利 数据识别模型训练方法、数据识别方法以及装置

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据识别模型训练方法、数据识别方法以及装置 第 1 页 专利 数据识别模型训练方法、数据识别方法以及装置 第 2 页 专利 数据识别模型训练方法、数据识别方法以及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:38:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。