网络信息识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:34446499 阅读:13 留言:0更新日期:2022-08-06 16:42
本发明专利技术公开了一种网络信息识别方法、装置、计算机设备及存储介质,方法包括:提取目标信息的文本数据;解析文本数据,得到文本数据的特征标签,特征标签包括情绪特征和类别特征;获取与类别特征对应的至少一个子类集合,并将子类集合作为对应目标信息的验证集合;获取情绪特征、类别特征及验证集合的权重值;基于权重值得到目标信息为虚假信息或真实信息的验证结果。本发明专利技术通过目标信息的类别特征提取与目标信息相同类别的子类集合,并筛选子类集合及相似信息,避免诈骗人更换欺诈话术或号码等行为导致无法对目标信息进行识别判断,同时通过分类可获取目标信息的信息类别,最后通过加权计算获取验证结果,进而获得目标信息的真假性及真假概率。真假性及真假概率。真假性及真假概率。

【技术实现步骤摘要】
网络信息识别方法、装置、计算机设备及存储介质


[0001]本专利技术涉及数据处理的
,尤其涉及一种网络信息识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着移动通信技术的不断发展,移动终端如手机、iPAD等变得越来越普及。但在移动通信技术给人们的生活带来便利的同时,也给犯罪活动带来了方便,如电话欺诈、网络聊天欺诈等。特别对于老年人和未成年人群体更容易上当受骗,给人们的生活造成很大的影响。
[0003]目前,针对电信欺诈的防范措施,主要是通过收集虚假信息如诈骗号码、谣言信息等,建立一个虚假信息数据库,在接收新信息时通过与数据库中对比以识别信息是否为虚假信息。然而,当数据库存储有大量虚假信息时,若每次接收新信息都遍历数据库进行对比,可能造成系统运行缓慢影响信息识别效率的现象发生。同时,若诈骗人更改信息如更换欺诈话术、更换欺诈号码等进行继续行骗,则无法与数据库中数据进行匹配,则无法达到防欺诈效果,并且现有技术中仅能识别出当前信息是否为虚假信息,并不能识别出具体的虚假类型。

技术实现思路

[0004]本专利技术的目的是提供一种网络信息识别方法、装置、计算机设备及存储介质,用于解决现有技术存在的问题。
[0005]为实现上述目的,本专利技术提供一种网络信息识别方法,包括:
[0006]提取目标信息的文本数据;
[0007]解析所述文本数据,得到所述文本数据对应的特征标签,所述特征标签包括情绪特征和类别特征;
[0008]获取与所述类别特征对应的至少一个子类集合,并将所述子类集合作为对应所述目标信息的验证集合;
[0009]获取所述情绪特征、类别特征及验证集合的权重值;
[0010]基于所述权重值得到所述目标信息的验证结果,所述验证结果用于表征所述目标信息为虚假信息或真实信息。
[0011]优选地,所述解析所述文本数据,得到所述文本数据对应的特征标签,所述特征标签包括情绪特征和类别特征,包括:
[0012]基于预设的关键字从所述文本数据中提取对应字段;
[0013]当同属一个分类的所述关键字提取的所述字段的次数大于预设的阈值时,将所述分类对应的属性作为所述目标信息的特征标签,所述属性用于表征情绪特征和类别特征。
[0014]优选地,所述获取与所述类别特征对应的至少一个子类集合,包括:
[0015]从预设的集合关系表中提取所述类别特征对应的子类集合;所述集合关系表中预
先存储有多个类别特征以及多个所述类别特征对应的子类集合的对应关系。
[0016]优选地,所述子类集合包括多个第一历史信息;
[0017]所述将多个所述子类集合作为对应所述目标信息的验证集合,包括:
[0018]提取多个所述子类集合中的多个所述第一历史信息;
[0019]对多个所述第一历史信息进行去重处理,得到多个第二历史信息;
[0020]将多个所述第二历史信息作为所述验证集合。
[0021]优选地,所述将多个所述第二历史信息作为所述验证集合,包括:
[0022]分别获取多个所述第二历史信息与所述目标信息的相似值;
[0023]对所述相似值进行降序排列,选取预设比例相似值对应的所述第二历史信息作为所述验证集合。
[0024]优选地,所述分别获取多个所述第二历史信息与所述目标信息的相似值,包括:
[0025]提取所述第二历史信息的第一词向量以及所述目标信息的第二词向量;
[0026]基于所述第一词向量及第二词向量获得对应的第一句向量及第二句向量;
[0027]获取所述第一句向量与所述第二句向量的相似度,将所述相似度作为对应所述第二历史信息与所述目标信息的相似值。
[0028]优选地,所述获取所述第一句向量与所述第二句向量的相似度,包括:
[0029]计算所述第一句向量与所述第二句向量的余弦距离;
[0030]根据所述余弦距离确定所述第一句向量与所述第二句向量的相似度。
[0031]为实现上述目的,本专利技术还提供一种网络信息识别装置,包括:
[0032]提取模块,用于提取目标信息的文本数据;
[0033]解析模块,用于解析所述文本数据,得到所述文本数据对应的特征标签;所述特征标签包括情绪特征和类别特征
[0034]第一获取模块,用于获取与所述类别特征对应的至少一个子类集合,并将所述子类集合作为对应所述目标信息的验证集合;
[0035]第二获取模块,用于获取所述情绪特征、类别特征及验证集合的权重值;
[0036]验证模块,用于基于所述权重值得到所述目标信息的验证结果,所述验证结果用于表征所述目标信息为虚假信息或真实信息。
[0037]为实现上述目的,本专利技术还提供一种计算机设备,包括:
[0038]存储器,存储至少有计算机程序;及
[0039]处理器,执行所述存储器中存储的计算机程序以实现上述任意一项所述的网络信息识别方法。
[0040]为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时以实现上述任意一项所述的网络信息识别方法。
[0041]上述技术方案的有益效果:
[0042]本专利技术提供的网络信息识别方法、装置、计算机设备及存储介质,基于关键字语义识别对历史信息预先分类形成多个子类集合,通过目标信息的特征标签提取与目标信息相同类别的子类集合,并从子类集合中抽取与目标信息相似度最接近的多个历史信息作为目标信息的验证集合,通过筛选类别集合及相似信息,避免诈骗人更换欺诈话术或号码等行
为导致无法对目标信息进行识别判断,同时通过分类可获取目标信息的信息类别,最后通过加权计算获取验证结果,进而获得目标信息的真假性及真假概率。
附图说明
[0043]图1为本专利技术实施例一网络信息识别方法的一个流程示意图;
[0044]图2为本专利技术实施例一网络信息识别方法的另一个流程示意图;
[0045]图3为本专利技术实施例二网络信息识别装置的功能模块图;
[0046]图4为本专利技术实施例三网络信息识别方法的计算机设备的结构示意图。
具体实施方式
[0047]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0048]实施例一
[0049]如图1所示,为本实施例一网络信息识别方法的一个流程示意图,从图中可以看出,包括S100

500步骤,具体如下:
[0050]S100:提取目标信息的文本数据。
[0051]在示例性的实施例中,目标信息由用户通过移动终端生成,移动终端包括但不限于智能手机、平本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络信息识别方法,其特征在于,包括:提取目标信息的文本数据;解析所述文本数据,得到所述文本数据对应的特征标签,所述特征标签包括情绪特征和类别特征;获取与所述类别特征对应的至少一个子类集合,并将所述子类集合作为对应所述目标信息的验证集合;获取所述情绪特征、类别特征及验证集合的权重值;基于所述权重值得到所述目标信息的验证结果,所述验证结果用于表征所述目标信息为虚假信息或真实信息。2.根据权利要求1所述的网络信息识别方法,其特征在于,所述解析所述文本数据,得到所述文本数据对应的特征标签,所述特征标签包括情绪特征和类别特征,包括:基于预设的关键字从所述文本数据中提取对应字段;当同属一个分类的所述关键字提取的所述字段的次数大于预设的阈值时,将所述分类对应的属性作为所述目标信息的特征标签,所述属性用于表征情绪特征和类别特征。3.根据权利要求1所述的网络信息识别方法,其特征在于,所述获取与所述类别特征对应的至少一个子类集合,包括:从预设的集合关系表中提取所述类别特征对应的子类集合;所述集合关系表中预先存储有多个类别特征以及多个所述类别特征对应的子类集合的对应关系。4.根据权利要求1所述的网络信息识别方法,其特征在于,所述子类集合包括多个第一历史信息;所述将多个所述子类集合作为对应所述目标信息的验证集合,包括:提取多个所述子类集合中的多个所述第一历史信息;对多个所述第一历史信息进行去重处理,得到多个第二历史信息;将多个所述第二历史信息作为所述验证集合。5.根据权利要求4所述的网络信息识别方法,其特征在于,所述将多个所述第二历史信息作为所述验证集合,包括:分别获取多个所述第二历史信息与所述目标信息的相似值;对所述相似值进行降序排列,...

【专利技术属性】
技术研发人员:戴冰波卫雨鑫
申请(专利权)人:平安资产管理有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1