System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种诈骗识别方法、装置、电子设备和存储介质制造方法及图纸_技高网

一种诈骗识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:40951607 阅读:2 留言:0更新日期:2024-04-18 20:26
本发明专利技术公开一种诈骗识别方法、装置、电子设备和存储介质,涉及信息处理技术,方法包括以下步骤:对语音转化的对话文本数据输入场景分类与实体预测模型输出实体类别和场景类别,对语音转化的对话文本数据输入训练好的敏感意图预测模型输出对话意图;制作以主叫、被叫以及呼叫场景为数据基础的知识图谱,所述知识图谱包括诈骗子图谱和非诈骗子图谱,所述诈骗子图谱和非诈骗子图谱的区别特征包括实体类别差异;将实体类别、场景类别和对话意图输入所述知识图谱中,若满足所述诈骗子图谱则判定为具有诈骗嫌疑。本发明专利技术提出了一种建模层次化信息的诈骗预识别方法,该方法借助外部知识库来弥补模型无法采样诈骗样本的全局性这一问题。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,尤其涉及人工智能技术,特别是一种诈骗识别方法、装置、电子设备和存储介质


技术介绍

1、随着互联网以及通信技术的发展,电信诈骗的方式越来越多样化,也遍布各个行业。互联网时代,人们频繁地注册账号,导致信息从各种途径泄露,这些泄露的信息越来越精准化,诈骗的场景就越来越真实。而犯罪分子利用最多的诈骗渠道为电话通信渠道。它能够有效地隐藏诈骗者的个人信息地理位置等,单纯地利用话术实施诈骗。

2、目前已经公开的一些防御方法是使用大数据技术通过利用主叫与被叫的电话号码,挂断率,通话长度等维度信息来构筑庞大的图网络然后通过使用图嵌入技术对节点(指电话号码)进行编码,然后利用深度神经网络的学习能力来预测某个电话为诈骗行为的概率。但随着诈骗分子伪造号码等诈骗技术不断提升这种防诈骗的方式并不能有效地实施精准预防,这也导致诈骗个例频发。另一种方法则是利用人工对固定单词设置敏感词标签,当对话中存在某个敏感词或敏感词组合时则判定此对话为诈骗对话。但由于敏感词难管理且需要大量的规则与实时更新,且敏感词无法实现精准定位,如:当下载为敏感词为“请你下载这个手机软件”与“我不想下载这个手机软件”均会提取,但这两句话的意思完全不同。这样无法过滤掉大部分正常对话以至于大大增加了后期的人工成本。其他例如基于自然语言理解的诈骗预防方案,这种方法需要提取每通对话的录音并精准分析对话意图并对对话进行分类。常用的方法是直接对对话进行编码,如一些深度学习算法,如:bert,textcnn等。然后对编码后的对话向量做分类任务来判断是否拥有诈骗意图。然而这存在一个巨大的挑战在于诈骗对话的稀缺性,并且由于诈骗的方式方法的多样性很难对诈骗进行定义。这就导致了模型只能采样到样本的局部特征而无法得到泛化,使得模型误识别率会非常大,这也是现阶段很难利用自然语言理解来识别诈骗的根本原因。


技术实现思路

1、本专利技术针对现有技术中的缺点,创新地提供了一种诈骗识别方法,包括以下步骤:

2、对语音转化的对话文本数据输入场景分类与实体预测模型输出实体类别和场景类别,对语音转化的对话文本数据输入训练好的敏感意图预测模型输出对话意图;

3、制作以主叫、被叫以及呼叫场景为数据基础的知识图谱,所述知识图谱包括诈骗子图谱和非诈骗子图谱,所述诈骗子图谱和非诈骗子图谱的区别特征包括实体类别差异;

4、将实体类别、场景类别和对话意图输入所述知识图谱中,若满足所述诈骗子图谱则判定为具有诈骗嫌疑。

5、优选地,训练敏感意图预测模型的方法包括:将预定义的意图匹配话术数据库的文本数据通过反向翻译生成平行语料,并使用随机采样制作不同句意的平行语料,输出意图匹配训练集;基于所述意图匹配训练集预训练文本匹配模型,设定相似度阈值并将意图匹配话术数据库与对话文本输入文本匹配模型训练文本匹配模型,训练后的模型本实施例将其定义为敏感意图预测模型。

6、优选的,所述场景分类与实体预测模型的训练方法包括:将电话语音通过语音识别系统转化为文本格式的对话文本;将对话文本中的主叫端和被叫端的对话文本的每一句话进行首尾拼接并用符号隔开,编辑对话文本中的每个字符生成向量为第二文本数据,标注第二文本数据的场景标签与实体名词标签制作场景分类与实体预测训练集,采用场景分类与实体预测训练集训练语言模型。

7、优选的,所述意图匹配话术数据库,包括一级意图类别标签和二级话术内容。

8、优选的,其中制作场景分类与实体预测训练集中定义场景分类方法中还包括标注行业标签,其中行业标签为一级标签,场景标签为二级标签。

9、本专利技术还提出一种诈骗识别装置,包括以下结构:

10、语音转换单元,用于将语音转化为文本数据;

11、敏感意图预测单元,用于对语音转化的第一文本数据输入训练好的敏感意图预测模型输出对话意图;

12、场景预测三元,用于接收对语音转化的第二文本数据并输出场景类别;

13、实体预测单元,用于接收对语音转化的第二文本数据并输出实体类别;

14、知识图谱单元,用于储存以主叫、被叫以及呼叫场景为数据基础的知识图谱,所述知识图谱包括诈骗子图谱和非诈骗子图谱,所述诈骗子图谱和非诈骗子图谱的区别特征包括实体类别差异;

15、诈骗识别单元,用于以实体类别、场景类别和对话意图搜索所述知识图谱,若满足所述诈骗子图谱则判定为具有诈骗嫌疑。

16、优选的,还包括响应单元,用于在诈骗识别后进行诈骗号码上报。

17、本专利技术还提出一种计算机存储介质,其存储有计算机程序,所述计算机程序被处理器调用实现所述诈骗识别方法。

18、本专利技术还提出一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现所述诈骗识别方法。

19、本专利技术的有益效果:

20、本专利技术提出了一种建模层次化信息的诈骗预识别方法,本方案具有很好的机动性可根据业务进行实时调整而不需要调整模型端,由多维度文本特征组成能够全面地提取文本特征和更精准地识别诈骗信息,通过引入知识图谱的方式定义诈骗框架,通过文本匹配结合场景、实体识别实现诈骗识别精准判断。

本文档来自技高网...

【技术保护点】

1.一种诈骗识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种诈骗识别方法,其特征在于,所述敏感意图预测模型的训练方法包括:

3.根据权利要求1所述的一种诈骗识别方法,其特征在于,所述场景分类与实体预测模型的训练方法包括:

4.根据权利要求2所述的一种诈骗识别方法,其特征在于,所述意图匹配话术数据库,包括一级意图类别标签和二级话术内容。

5.根据权利要求3所述的一种诈骗识别方法,其特征在于,其中制作场景分类与实体预测训练集中定义场景分类方法中还包括标注行业标签,其中行业标签为一级标签,场景标签为二级标签。

6.根据权利要求1所述的一种诈骗识别方法,其特征在于,制作以主叫、被叫以及呼叫场景为数据基础的知识图谱的方法包括:根据实体类别、场景类别和对话意图构建知识图谱。

7.一种诈骗识别装置,其特征在于,包括以下结构:

8.根据权利要求7所述的一种诈骗识别装置,其特征在于,还包括响应单元,用于在诈骗识别后进行诈骗号码上报。

9.一种计算机存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器调用实现权利要求1-6任一所述的一种诈骗识别方法。

10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-6中任一项所述的一种诈骗识别方法。

...

【技术特征摘要】

1.一种诈骗识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种诈骗识别方法,其特征在于,所述敏感意图预测模型的训练方法包括:

3.根据权利要求1所述的一种诈骗识别方法,其特征在于,所述场景分类与实体预测模型的训练方法包括:

4.根据权利要求2所述的一种诈骗识别方法,其特征在于,所述意图匹配话术数据库,包括一级意图类别标签和二级话术内容。

5.根据权利要求3所述的一种诈骗识别方法,其特征在于,其中制作场景分类与实体预测训练集中定义场景分类方法中还包括标注行业标签,其中行业标签为一级标签,场景标签为二级标签。

6.根据权利要求1所述的一种诈骗识别方法,其特征在...

【专利技术属性】
技术研发人员:戴寅寅祝鑫泉万水鱼李笑然郜冬冬
申请(专利权)人:杭州诚智天扬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1