(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210675022.2 (22)申请日 2022.06.15 (71)申请人 中网华信科技股份有限公司 地址 030082 山西省太原市山西综改示范 区太原学府园区南中环 街529号D座20 层3-6、 10号房间 (72)发明人 李晓林 杨旭东 赵睿 王大庆  辛伟平 邸宴龙 张舰  (74)专利代理 机构 北京维正专利代理有限公司 11508 专利代理师 张伟 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/284(2020.01) G06F 40/143(2020.01)G06F 21/62(2013.01) G06F 21/60(2013.01) (54)发明名称 敏感关键词组 处理方法、 装置、 设备及 介质 (57)摘要 本申请涉及一种敏感关键词组处理方法、 装 置、 设备及介质, 属于数据处理的技术领域, 其方 法包括获取文本信息, 提取所述文本信息中的所 有文字; 基于预设敏感关键词组确定所述所有文 字中的待检验文字组; 若所述待检验文字组与所 述预设敏感关键词组不一致, 则判断所述待检验 文字组中是否包含错别字; 若是, 则对所述错别 字进行更改。 解决了如果将敏感关键词组写错会 导致无法确定敏感词语, 因此不能对相应的敏 感 词语进行加密, 导致敏感词语发生泄露的问题, 本申请具有减小敏感数据发生泄露的可能性的 效果。 权利要求书2页 说明书9页 附图2页 CN 114943218 A 2022.08.26 CN 114943218 A 1.一种敏感关键词组 处理方法, 其特 征在于, 包括: 获取文本信息, 提取 所述文本信息中的所有 文字; 基于预设敏感关键词组确定所述所有文字中的待检验文字组, 其中所述待检验文字中 包括与所述预设敏感关键词组中读音相同的文字; 若所述待检验文字组与所述预设敏感关键词组不一致, 则判断所述待检验文字组中是 否包含错别字; 若是, 则对所述 错别字进行 更改。 2.根据权利要求1所述的方法, 其特征在于, 所述基于预设敏感关键词组确定所述所有 文字中的待检验文字组, 包括: 将所述所有 文字转换为第一 拼音组; 将每个所述敏感关键词组均转换为 一个第二 拼音组; 判断所述第一 拼音组中是否存在所述第二 拼音组; 若所述第一拼音组中存在所述第 二拼音组, 则获取所述文本信 息中与所述第二拼音组 对应的文字组, 并将所述文字组作为所述待检验文字组。 3.根据权利要求1或2所述的方法, 其特征在于, 所述判断所述待检验文字组中是否包 含错别字, 包括: 获取所述待检验文字组在所述文本信息的第一标记位置; 获取历史文本信息, 在所述历史文本信息查找与所述第一标记位置对应第二标记位 置; 基于所述第二标记位置确定对所述历史文本信息的文字 搜索范围; 若所述文字搜索范围内不包含所述待检验文字组, 则判定所述待检验文字组包含错别 字; 所述对所述 错别字进行 更改, 包括: 将所述待检验文字组更新 为所述预设敏感关键词组。 4.根据权利要求1或2所述的方法, 其特征在于, 所述判断所述待检验文字组中是否包 含错别字, 包括: 将所述待检验文字组在所述文本信 息中进行标记, 将标记后的文本信 息发送给输入所 述文本信息对应的账号, 以使用户对标记的待检验文字组进行核查; 所述对所述 错别字进行 更改, 包括: 响应于用户对所述标记后的文本信 息的修改操作, 将所述待检验文字组更新为所述预 设敏感关键词组。 5.根据权利要求3所述的方法, 其特征在于, 所述判断所述第 一拼音组中是否存在所述 第二拼音组, 包括: 获取每个所述第 二拼音组中每个字的拼音对应的首字母, 并将多个所述首字母按照每 个字在所述预设敏感关键词组的顺序进行排序, 得到 字母序列; 在所述第一 拼音组中查找多个所述首字母, 并对多个所述首字母进行 标记; 对多个标记的所述首字母进行遍历, 得到与所述字母序列一 致且连续的字母序列组; 提取第一拼音组中与 所述字母序列组中的多个所述首字母对应的字的所有字母, 并将 所述多个字母作为第三字拼音组;权 利 要 求 书 1/2 页 2 CN 114943218 A 2判断所述第三 拼音组与所述第二 拼音组中的所有字母是否一 致; 若是, 则判定所述第一 拼音组中包 含所述第二 拼音组。 6.根据权利要求3所述的方法, 其特征在于, 在将所述待检验文字组更新为所述预设敏 感关键词组之后, 还 包括: 对更新后的待检验文字组进行标记, 以使用户对所述更新后的待检验文字组进行核 查。 7.根据权利要求2所述的方法, 其特征在于, 在所述将所述所有文字转换为第 一拼音组 之后, 还包括: 获取相邻 两个文字对应的拼音的首字母和尾字母, 在不同字的相邻的所述首字母和所 述尾字母之间做标记; 在所述将每 个所述敏感关键词组均转换为 一个第二 拼音组之后, 还 包括: 获取所述敏感关键词组 的相邻两个文字对应的拼音的首字母和尾字母, 在不同字的相 邻的所述首字母和所述尾字母之间做标记。 8.一种敏感关键词组 处理装置, 其特 征在于, 包括: 获取模块, 用于获取文本信息, 提取 所述文本信息中的所有 文字; 确定模块, 用于基于预设敏感关键词组确定所述所有文字中的待检验文字组, 其中所 述待检验文字中包括与所述预设敏感关键词组中读音相同的文字; 判断模块, 用于若所述待检验文字组与所述预设敏感关键词组不一致, 则判断所述待 检验文字组中是否包 含错别字, 若是, 则对所述 错别字进行 更改。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有能够被处理 器加载并执 行如权利要求1至7中任一项所述方法的计算机程序。 10.一种计算机可读存储介质, 其特征在于, 存储有能够被处理器加载并执行如权利要 求1至7中任一项所述方法的计算机程序。权 利 要 求 书 2/2 页 3 CN 114943218 A 3

PDF文档 专利 敏感关键词组处理方法、装置、设备及介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 敏感关键词组处理方法、装置、设备及介质 第 1 页 专利 敏感关键词组处理方法、装置、设备及介质 第 2 页 专利 敏感关键词组处理方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:38:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。