新闻脱敏处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:29978993 阅读:23 留言:0更新日期:2021-09-08 10:08
本发明专利技术涉及数据处理,揭露一种新闻脱敏处理方法,包括:将第一媒体发布的第一新闻存储至第一数据库;抽取第二媒体发布的第二新闻中的敏感人名及其属性信息,建立敏感人名对应的字典,并将字典存储至第二数据库;将第一数据库中的每条新闻分别与第二数据库中各个敏感人名对应的字典匹配,当某一指定新闻与某一指定敏感人名对应的字典匹配成功时,将指定新闻作为敏感新闻;对敏感新闻中含有指定敏感人名的句子执行句型识别,基于句型识别结果对敏感新闻执行脱敏处理。本发明专利技术还提供一种新闻脱敏处理装置、电子设备及可读存储介质。本发明专利技术提高了新闻脱敏处理效率及准确率。高了新闻脱敏处理效率及准确率。高了新闻脱敏处理效率及准确率。

【技术实现步骤摘要】
新闻脱敏处理方法、装置、电子设备及可读存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种新闻脱敏处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着信息时代的到来,新闻已融入人们的生活中,通过浏览新闻可了解各类资讯。例如,一些企业或组织机构的时事新闻中经常报道相关人员交流及参与会议等新闻内容,然而其中某些人员可能因为违反一些规定成为敏感人名,此时需要对包含敏感人名的新闻进行脱敏处理。
[0003]当前,通常采用人工方式识别包含敏感人名的新闻并进行脱敏处理,然而人工处理难以保证时效,且在工作量大的情况下,人工易出错,因此,亟需一种新闻脱敏处理方法,以提高新闻脱敏处理准确率及效率。

技术实现思路

[0004]鉴于以上内容,有必要提供一种新闻脱敏处理方法,旨在提高新闻脱敏处理准确率及效率。
[0005]本专利技术提供的新闻脱敏处理方法,包括:
[0006]响应用户基于客户端发出的针对第一媒体的新闻脱敏处理请求,将所述第一媒体发布的第一新闻存储至第一数据库;
[0007]获取第二媒体发布的第二新闻,抽取所述第二新闻中的敏感人名及其属性信息,基于所述敏感人名及其属性信息建立所述敏感人名对应的字典,并将所述字典存储至第二数据库;
[0008]将所述第一数据库中的每条新闻分别与所述第二数据库中各个敏感人名对应的字典匹配,当某一指定新闻与某一指定敏感人名对应的字典匹配成功时,将所述指定新闻作为敏感新闻;
[0009]对所述敏感新闻中含有所述指定敏感人名的句子执行句型识别,基于句型识别结果对所述敏感新闻执行脱敏处理。
[0010]可选的,所述抽取所述第二新闻中的敏感人名及其属性信息,基于所述敏感人名及其属性信息建立所述敏感人名对应的字典,包括:
[0011]对所述第二新闻的标题执行实体识别,得到敏感人名及其对应的地名及职务;
[0012]当判断所述第二新闻的正文中含有预设格式的句子时,对所述预设格式的句子执行实体识别,得到实体识别结果,基于所述实体识别结果获取所述敏感人名的属性信息;
[0013]汇总所述敏感人名对应的地名、职务及属性信息得到所述敏感人名对应的字典。
[0014]可选的,所述将所述字典存储至第二数据库,包括:
[0015]将所述敏感人名及其职务的组合作为关键字key,将所述敏感人名对应的字典作为关键字值value,得到所述敏感人名对应的键值对key

value;
[0016]当所述第二数据库中没有存储所述key对应的数据时,将所述键值对存储至第二数据库中。
[0017]可选的,所述当某一指定新闻与某一指定敏感人名对应的字典匹配成功时,将所述指定新闻作为敏感新闻,包括:
[0018]当判断某一指定新闻中含有某一指定敏感人名时,将所述指定新闻中含有所述指定敏感人名的句子的集合作为第一敏感句子集;
[0019]对所述第一敏感句子集中的每个句子执行人名实体识别,从所述第一敏感句子集中抽取识别得到的人名与指定敏感人名一致的句子,得到第二敏感句子集;
[0020]判断所述指定敏感人名对应的第二新闻与所述指定新闻的发布时间差是否小于预设阈值;
[0021]当判断所述指定敏感人名对应的第二新闻与所述指定新闻的发布时间差小于预设阈值时,对所述第二敏感句子集中的句子执行职务及地名实体识别,将所述敏感人名、识别得到的职务、地名及所述指定新闻的发布时间作为所述指定敏感人名对应的待匹配信息;
[0022]抽取所述第二敏感句子集中所述待匹配信息与所述指定敏感人名对应的字典匹配成功的句子,得到第三敏感句子集;
[0023]当所述第三敏感句子集中含有至少一个句子时,将所述指定新闻作为敏感新闻。
[0024]可选的,在所述判断所述指定敏感人名对应的第二新闻与所述指定新闻的发布时间差是否小于预设阈值之后,所述方法还包括:
[0025]若判断所述指定敏感人名对应的第二新闻与所述指定新闻的发布时间差大于或等于预设阈值,则认为所述指定新闻不是敏感新闻。
[0026]可选的,所述方法还包括:
[0027]实时监控所述第一媒体是否发布新的第一新闻,当监控到所述第一媒体发布新的第一新闻时,将所述新的第一新闻存储至第三数据库;
[0028]基于所述第二数据库中敏感人名对应的字典对所述第三数据库中的新闻执行敏感新闻识别处理及脱敏处理,并将处理后的新闻存储至所述第一数据库。
[0029]可选的,所述方法还包括:
[0030]实时监控所述第二媒体是否发布新的第二新闻,当监控到所述第二媒体发布新的第二新闻时,抽取所述新的第二新闻中的新敏感人名,建立所述新敏感人名对应的字典并存储至第二数据库;
[0031]基于所述新敏感人名对应的字典对所述第一数据库中的新闻执行敏感新闻识别处理及脱敏处理。
[0032]为了解决上述问题,本专利技术还提供一种新闻脱敏处理装置,所述装置包括:
[0033]响应模块,用于响应用户基于客户端发出的针对第一媒体的新闻脱敏处理请求,将所述第一媒体发布的第一新闻存储至第一数据库;
[0034]建立模块,用于获取第二媒体发布的第二新闻,抽取所述第二新闻中的敏感人名及其属性信息,基于所述敏感人名及其属性信息建立所述敏感人名对应的字典,并将所述字典存储至第二数据库;
[0035]匹配模块,用于将所述第一数据库中的每条新闻分别与所述第二数据库中各个敏
感人名对应的字典匹配,当某一指定新闻与某一指定敏感人名对应的字典匹配成功时,将所述指定新闻作为敏感新闻;
[0036]脱敏模块,用于对所述敏感新闻中含有所述指定敏感人名的句子执行句型识别,基于句型识别结果对所述敏感新闻执行脱敏处理。
[0037]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0038]至少一个处理器;以及,
[0039]与所述至少一个处理器通信连接的存储器;其中,
[0040]所述存储器存储有可被所述至少一个处理器执行的新闻脱敏处理程序,所述新闻脱敏处理程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述新闻脱敏处理方法。
[0041]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有新闻脱敏处理程序,所述新闻脱敏处理程序可被一个或者多个处理器执行,以实现上述新闻脱敏处理方法。
[0042]相较现有技术,本专利技术首先将第一媒体发布的第一新闻存储至第一数据库,抽取第二媒体发布的第二新闻中的敏感人名及其属性信息,建立敏感人名对应的字典并将字典存储至第二数据库;接着,将第一数据库中的每条新闻分别与第二数据库中各个敏感人名对应的字典匹配,当某一指定新闻与某一指定敏感人名对应的字典匹配成功时,将指定新闻作为敏感新闻;最后,对敏感新闻中含有指定敏感人名的句子执行句型识别,基于句型识别结果对敏感新闻执行脱敏处理,本专利技术通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新闻脱敏处理方法,其特征在于,所述方法包括:响应用户基于客户端发出的针对第一媒体的新闻脱敏处理请求,将所述第一媒体发布的第一新闻存储至第一数据库;获取第二媒体发布的第二新闻,抽取所述第二新闻中的敏感人名及其属性信息,基于所述敏感人名及其属性信息建立所述敏感人名对应的字典,并将所述字典存储至第二数据库;将所述第一数据库中的每条新闻分别与所述第二数据库中各个敏感人名对应的字典匹配,当某一指定新闻与某一指定敏感人名对应的字典匹配成功时,将所述指定新闻作为敏感新闻;对所述敏感新闻中含有所述指定敏感人名的句子执行句型识别,基于句型识别结果对所述敏感新闻执行脱敏处理。2.如权利要求1所述的新闻脱敏处理方法,其特征在于,所述抽取所述第二新闻中的敏感人名及其属性信息,基于所述敏感人名及其属性信息建立所述敏感人名对应的字典,包括:对所述第二新闻的标题执行实体识别,得到敏感人名及其对应的地名及职务;当判断所述第二新闻的正文中含有预设格式的句子时,对所述预设格式的句子执行实体识别,得到实体识别结果,基于所述实体识别结果获取所述敏感人名的属性信息;汇总所述敏感人名对应的地名、职务及属性信息得到所述敏感人名对应的字典。3.如权利要求1所述的新闻脱敏处理方法,其特征在于,所述将所述字典存储至第二数据库,包括:将所述敏感人名及其职务的组合作为关键字key,将所述敏感人名对应的字典作为关键字值value,得到所述敏感人名对应的键值对key

value;当所述第二数据库中没有存储所述key对应的数据时,将所述键值对存储至第二数据库中。4.如权利要求1所述的新闻脱敏处理方法,其特征在于,所述当某一指定新闻与某一指定敏感人名对应的字典匹配成功时,将所述指定新闻作为敏感新闻,包括:当判断某一指定新闻中含有某一指定敏感人名时,将所述指定新闻中含有所述指定敏感人名的句子的集合作为第一敏感句子集;对所述第一敏感句子集中的每个句子执行人名实体识别,从所述第一敏感句子集中抽取识别得到的人名与指定敏感人名一致的句子,得到第二敏感句子集;判断所述指定敏感人名对应的第二新闻与所述指定新闻的发布时间差是否小于预设阈值;当判断所述指定敏感人名对应的第二新闻与所述指定新闻的发布时间差小于预设阈值时,对所述第二敏感句子集中的句子执行职务及地名实体识别,将所述敏感人名、识别得到的职务、地名及所述指定新闻的发布时间作为所述指定敏感人名对应的待匹配信息;抽取所述第二敏感句子集中所述待匹配信息与所述指定敏感人名对应的字典匹配成功的句子,...

【专利技术属性】
技术研发人员:黄晨李翔刘屹沈志勇
申请(专利权)人:招商局金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1