国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210675022.2 (22)申请日 2022.06.15 (71)申请人 中网华信科技股份有限公司 地址 030082 山西省太原市山西综改示范 区太原学府园区南中环 街529号D座20 层3-6、 10号房间 (72)发明人 李晓林 杨旭东 赵睿 王大庆 辛伟平 邸宴龙 张舰 (74)专利代理 机构 北京维正专利代理有限公司 11508 专利代理师 张伟 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/284(2020.01) G06F 40/143(2020.01)G06F 21/62(2013.01) G06F 21/60(2013.01) (54)发明名称 敏感关键词组 处理方法、 装置、 设备及 介质 (57)摘要 本申请涉及一种敏感关键词组处理方法、 装 置、 设备及介质, 属于数据处理的技术领域, 其方 法包括获取文本信息, 提取所述文本信息中的所 有文字; 基于预设敏感关键词组确定所述所有文 字中的待检验文字组; 若所述待检验文字组与所 述预设敏感关键词组不一致, 则判断所述待检验 文字组中是否包含错别字; 若是, 则对所述错别 字进行更改。 解决了如果将敏感关键词组写错会 导致无法确定敏感词语, 因此不能对相应的敏 感 词语进行加密, 导致敏感词语发生泄露的问题, 本申请具有减小敏感数据发生泄露的可能性的 效果。 权利要求书2页 说明书9页 附图2页 CN 114943218 A 2022.08.26 CN 114943218 A 1.一种敏感关键词组 处理方法, 其特 征在于, 包括: 获取文本信息, 提取 所述文本信息中的所有 文字; 基于预设敏感关键词组确定所述所有文字中的待检验文字组, 其中所述待检验文字中 包括与所述预设敏感关键词组中读音相同的文字; 若所述待检验文字组与所述预设敏感关键词组不一致, 则判断所述待检验文字组中是 否包含错别字; 若是, 则对所述 错别字进行 更改。 2.根据权利要求1所述的方法, 其特征在于, 所述基于预设敏感关键词组确定所述所有 文字中的待检验文字组, 包括: 将所述所有 文字转换为第一 拼音组; 将每个所述敏感关键词组均转换为 一个第二 拼音组; 判断所述第一 拼音组中是否存在所述第二 拼音组; 若所述第一拼音组中存在所述第 二拼音组, 则获取所述文本信 息中与所述第二拼音组 对应的文字组, 并将所述文字组作为所述待检验文字组。 3.根据权利要求1或2所述的方法, 其特征在于, 所述判断所述待检验文字组中是否包 含错别字, 包括: 获取所述待检验文字组在所述文本信息的第一标记位置; 获取历史文本信息, 在所述历史文本信息查找与所述第一标记位置对应第二标记位 置; 基于所述第二标记位置确定对所述历史文本信息的文字 搜索范围; 若所述文字搜索范围内不包含所述待检验文字组, 则判定所述待检验文字组包含错别 字; 所述对所述 错别字进行 更改, 包括: 将所述待检验文字组更新 为所述预设敏感关键词组。 4.根据权利要求1或2所述的方法, 其特征在于, 所述判断所述待检验文字组中是否包 含错别字, 包括: 将所述待检验文字组在所述文本信 息中进行标记, 将标记后的文本信 息发送给输入所 述文本信息对应的账号, 以使用户对标记的待检验文字组进行核查; 所述对所述 错别字进行 更改, 包括: 响应于用户对所述标记后的文本信 息的修改操作, 将所述待检验文字组更新为所述预 设敏感关键词组。 5.根据权利要求3所述的方法, 其特征在于, 所述判断所述第 一拼音组中是否存在所述 第二拼音组, 包括: 获取每个所述第 二拼音组中每个字的拼音对应的首字母, 并将多个所述首字母按照每 个字在所述预设敏感关键词组的顺序进行排序, 得到 字母序列; 在所述第一 拼音组中查找多个所述首字母, 并对多个所述首字母进行 标记; 对多个标记的所述首字母进行遍历, 得到与所述字母序列一 致且连续的字母序列组; 提取第一拼音组中与 所述字母序列组中的多个所述首字母对应的字的所有字母, 并将 所述多个字母作为第三字拼音组;权 利 要 求 书 1/2 页 2 CN 114943218 A 2判断所述第三 拼音组与所述第二 拼音组中的所有字母是否一 致; 若是, 则判定所述第一 拼音组中包 含所述第二 拼音组。 6.根据权利要求3所述的方法, 其特征在于, 在将所述待检验文字组更新为所述预设敏 感关键词组之后, 还 包括: 对更新后的待检验文字组进行标记, 以使用户对所述更新后的待检验文字组进行核 查。 7.根据权利要求2所述的方法, 其特征在于, 在所述将所述所有文字转换为第 一拼音组 之后, 还包括: 获取相邻 两个文字对应的拼音的首字母和尾字母, 在不同字的相邻的所述首字母和所 述尾字母之间做标记; 在所述将每 个所述敏感关键词组均转换为 一个第二 拼音组之后, 还 包括: 获取所述敏感关键词组 的相邻两个文字对应的拼音的首字母和尾字母, 在不同字的相 邻的所述首字母和所述尾字母之间做标记。 8.一种敏感关键词组 处理装置, 其特 征在于, 包括: 获取模块, 用于获取文本信息, 提取 所述文本信息中的所有 文字; 确定模块, 用于基于预设敏感关键词组确定所述所有文字中的待检验文字组, 其中所 述待检验文字中包括与所述预设敏感关键词组中读音相同的文字; 判断模块, 用于若所述待检验文字组与所述预设敏感关键词组不一致, 则判断所述待 检验文字组中是否包 含错别字, 若是, 则对所述 错别字进行 更改。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有能够被处理 器加载并执 行如权利要求1至7中任一项所述方法的计算机程序。 10.一种计算机可读存储介质, 其特征在于, 存储有能够被处理器加载并执行如权利要 求1至7中任一项所述方法的计算机程序。权 利 要 求 书 2/2 页 3 CN 114943218 A 3
专利 敏感关键词组处理方法、装置、设备及介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-07 12:38:41
上传分享
举报
下载
原文档
(473.5 KB)
分享
友情链接
YD-T 3763.3-2021 研发运营一体化(DevOps)能力成熟度模型 第3部分:持续交付.pdf
T-BSIA 006—2022 知识图谱时空特性构建技术规范.pdf
T-ACEF 109—2023 公民绿色低碳行为温室气体减排量化指南 行:混合动力汽车出行.pdf
NB-T 13007—2021 生物柴油(BD100)原料 废弃油脂.pdf
GB-T 37124-2018 进入天然气长输管道的气体质量要求.pdf
HS-T 15-2006 微化锆英砂的鉴定方法.pdf
GB-T 30142-2013 平面型电磁屏蔽材料屏蔽效能测量方法.pdf
GB-T 38664.3-2020 信息技术 大数据 政务数据开放共享 第3部分:开放程度评价.pdf
DB50-T 1275.1-2022 生猪智慧养殖数字化应用与管理 第1部分:总则 重庆市.pdf
GB-T 43795-2024 磁性氧化物制成的磁心机械强度测试方法.pdf
GB-T 14846-2014 铝及铝合金挤压型材尺寸偏差.pdf
GB-T 39335-2020 信息安全技术 个人信息安全影响评估指南.pdf
T-CSTM 00591—2022 石墨烯-铜薄膜材料电导率测量 范德堡法.pdf
GB-T 40750-2021 农用沼液.pdf
GB-T 32169.1-2015 政务服务中心运行规范 第1部分:基本要求.pdf
T-CIECCPA 035—2023 浮选磷尾矿基生态修复基质土规范.pdf
T-CI 032—2022 矿山酸性污染全过程控制与治理技术指南.pdf
信通院 数字时代治理现代化研究报告 2023年 ——大模型在政务领域....pdf
GB-T 33134-2016 信息安全技术 公共域名服务系统安全要求.pdf
清华大学 AIGC发展研究1.0版0.92.pdf
1
/
14
评价文档
赞助2.5元 点击下载(473.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。