一种信息识别方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:36763905 阅读:11 留言:0更新日期:2023-03-08 21:13
本申请公开了一种信息识别方法、装置、设备及计算机可读存储介质,该方法包括:获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果,能够基于端到端思想,在对待处理信息的文本数据和链接数据进行特征提取后,再进行融合得到识别结果,简化识别过程,并提升识别方法的普适性以及识别准确率。的普适性以及识别准确率。的普适性以及识别准确率。

【技术实现步骤摘要】
一种信息识别方法、装置、设备及计算机可读存储介质


[0001]本申请涉及信息处理领域,涉及但不限于一种信息识别方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着移动终端的不断普及,移动终端已经成为人们日常生活中必不可少的一部分,在移动终端带来高效、便捷的同时,也存在一些安全隐患,举例来说,手机短信成为接收银行、支付软件、云盘以及其他各种平台信息的重要通道,诈骗短信模仿官方机构通过发送包含诈骗网络链接的手机短信的方式对用户的金钱、支付密码及其他重要隐私进行诈骗。
[0003]在相关技术中,一些使用已知短信文本特征向量及其对应诈骗类别训练出一个文本多分类模型,并使用该模型对诈骗短信进行识别,该方法只利用了诈骗短信的文本信息特征,对文本信息和官方短信极为相似的诈骗短信容易漏判,从而影响诈骗短信的识别准确率;另一些使用Word2Vec将分词后的词语转换成词向量,对短信文本进行特征抽取,该方法只利用了诈骗短信的文本信息特征,并未利用诈骗短信的网络链接特征,从而影响诈骗短信的识别精度,且该方法使用长短期记忆(Long Short

Term Memory,LSTM)神经网络对文本进行处理,速度较慢,无法适用第五代移动通信技术(5th Generation Mobile Communication Technology,5G)海量数据场景下的诈骗短信识别;还有一些相关技术除短信文本外还需要获取包括发送侧地址、发送基站、发送频率、接收侧地址等等多个维度的特征,这些特征获取难度较大、成本较高,且未利用诈骗短信中的网络链接特征,从而导致诈骗短信识别过程复杂、识别速度慢、识别准确率低下的问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种信息识别方法、装置、设备及计算机可读存储介质。
[0005]本申请实施例的技术方案是这样实现的:
[0006]本申请实施例提供一种信息识别方法,包括:
[0007]获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;
[0008]分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;
[0009]基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;
[0010]基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果。
[0011]本申请实施例提供一种信息识别装置,所述信息识别装置包括:
[0012]获取模块,用于获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;
[0013]特征提取模块,用于分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;
[0014]第一确定模块,用于基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;
[0015]第二确定模块,用于基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果。
[0016]本申请实施例提供一种电子设备,所述电子设备包括:
[0017]处理器;以及
[0018]存储器,用于存储可在所述处理器上运行的计算机程序;
[0019]其中,所述计算机程序被处理器执行时实现上述信息识别方法。
[0020]本申请实施例提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,该计算机可执行指令配置为执行上述信息识别方法。
[0021]本申请实施例提供一种信息识别方法、装置、设备及计算机可读存储介质,先对获取到的待处理信息进行分离处理,得到该待处理信息的文本数据和链接数据;然后,再对文本数据进行特征提取,得到文本特征,还对链接数据也进行特征提取,得到链接特征;接着,确定链接数据与预先构建好的链接知识库之间的相似度属性信息;最后,基于文本特征、链接特征以及相似度属性信息确定待处理信息的识别结果。在识别过程中,不仅对文本数据进行特征提取,而且还对链接数据进行特征提取,并确定相似度属性信息,从而获取到针对待处理信息更全面的特征;最后基于文本特征、链接特征和相似度属性信息确定出待处理信息的识别结果,从而实现快速、高效地端到端识别,并能够基于更多的特征提升识别准确率。
附图说明
[0022]在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
[0023]图1为本申请实施例提供的信息识别方法的一种实现流程示意图;
[0024]图2为本申请实施例提供的训练模型方法的一种实现流程示意图;
[0025]图3为本申请实施例提供的特征提取方法的一种实现流程示意图;
[0026]图4为本申请实施例提供的文本特征提取方法的一种实现流程示意图;
[0027]图5为本申请实施例提供的相似度属相信息确定方法的一种实现流程示意图;
[0028]图6为本申请实施例提供的各个相似度值确定方法的一种实现流程示意图;
[0029]图7为本申请实施例提供的信息识别方法的另一种实现流程示意图;
[0030]图8为本申请实施例提供的链接知识库确定方法的一种实现流程示意图;
[0031]图9为本申请实施例提供的信息识别方法的再一种实现流程示意图;
[0032]图10为本申请实施例提供的识别模型架构示意图;
[0033]图11为本申请实施例提供的信息识别装置的一种组成结构示意图;
[0034]图12为本申请实施例提供的电子设备的组成结构示意图。
具体实施方式
[0035]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0036]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0037]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0038]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0039]基于相关技术所存在的问题,本申请实施例提供一种信息识别方法,本申请实施例提供的方法可以通过计算机程序来实现,该计算机程序在执行的时候,完成本申请实施例提供的信息识别方法中各个步骤。在一些实施例中,该计算机程序可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息识别方法,其特征在于,所述方法包括:获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据;分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征;基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息;基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果。2.根据权利要求1中所述的方法,其特征在于,在所述获取待处理信息,对所述待处理信息进行分离处理,得到文本数据和链接数据之前,所述方法还包括:获取训练好的识别模型,所述训练好的识别模型包括训练好的文本特征提取子模型、训练好的链接特征提取子模型、训练好的相似度处理子模型和训练好的融合特征子模型;所述分别对所述文本数据和所述链接数据进行特征提取,得到对应的文本特征和链接特征,包括:利用所述训练好的文本特征提取子模型,对所述文本数据进行特征提取,得到所述文本特征;利用所述训练好的链接特征提取子模型,对所述链接数据进行特征提取,得到所述链接特征;所述基于所述链接数据和预先构建好的链接知识库确定所述链接数据的相似度属性信息,包括:利用所述训练好的相似度处理子模型,对所述链接数据和所述链接知识库进行相似度处理,得到所述相似度属性信息;所述基于所述文本特征、所述链接特征和所述相似度属性信息确定所述待处理信息的识别结果,包括:利用所述训练好的融合特征子模型,对所述文本特征、所述链接特征和所述相似度属性信息进行融合处理,得到所述待处理信息的识别结果。3.根据权利要求2中所述的方法,其特征在于,所述利用所述训练好的文本特征提取子模型,对所述文本数据进行特征提取,得到所述文本特征,包括:对所述文本数据进行文本规范化处理,得到处理后的文本数据;对所述处理后的文本数据进行向量化处理,得到文本向量;对所述文本向量进行卷积、池化处理,得到所述文本特征。4.根据权利要求2中所述的方法,其特征在于,所述利用所述训练好的链接特征提取子模型,对所述链接数据进行特征提取,得到所述链接特征,包括:对所述链接数据进行卷积处理,得到卷积结果;对所述卷积结果进行池化处理,得到所述链接特征。5.根据权利要求2中所述的方法,其特征在于,所述链接知识库中包括多个参考链接数据,所述利用所述训练好的相似度处理子模型,对所述链接数据和所述链接知识库进行相似度处理,得到所述相似度属性信息,包括:确定所述链接知识库中包括与所述链接数据满足匹配条件的目标参考链接数据时,获取所述目标参考链接数据的第一标签信息;将所述链接数据和所述链接知识库之间的相似度值设置为预设值;将所述预设值和所述第一标签信息确定为所述相似度属性信息。6.根据权利要求5中所述的方法,其特征在于,所述利用所述训练好的相似度处理子模型,对所述链接数据和所述链接知识库进行相似度处理,得到所述相似度属性信息,还包
括:确定所述链接知识库中不包括与所述链接数据满足匹配条件的目标链接数据时,确定所述链接数据和所述链接知识库各个参考链接数据之间的各个相似度值;确定所述各个相似度值中的最大相似度值,并将所述最大相似度值对应的参...

【专利技术属性】
技术研发人员:孙祥训程宝平谢小燕
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1