一种基于通话文本词向量的终端诈骗电话识别方法技术

技术编号:25644060 阅读:22 留言:0更新日期:2020-09-15 21:35
一种基于通话文本词向量的终端诈骗电话识别方法,包括:用户在终端App中标记来话,当标记为诈骗类别时,经用户授权同意后转化为文本,由用户检视和脱敏,并在用户授权后上传服务器保存为文本样本;对文本样本进行分词和词性标注,获得分词的句法依存标签和词组合向量,再将词组合向量、词性标注和句法依存标签拼合构成分词的内容向量,计算分词所属的情景要素标签,以获得文本样本的语义向量;构建诈骗分类识别模型,使用服务器中文本样本作为训练样本,然后将训练好的模型从服务器端推送给App;App接收新的待识别通话后,根据模型获得其所属的涉诈类别,并提示用户。本发明专利技术属于信息技术领域,能基于通话文本准确识别诈骗电话。

【技术实现步骤摘要】
一种基于通话文本词向量的终端诈骗电话识别方法
本专利技术涉及一种基于通话文本词向量的终端诈骗电话识别方法,属于信息

技术介绍
当前境外发起的电信诈骗案件日益增加,手机用户对诈骗电话的过滤要求越来越高。但越来越多诈骗分子的通话行为趋于隐蔽化,通话行为相关的特征减弱,只有通过对通话文本进行分析识别,才可能进一步的提升手机系统对不良呼叫识别的精准率和召回率。目前,市面上基于手机终端系统的诈骗电话过滤方法还比较初级。主流厂商通常采用用户标记的手段,即依靠用户主动标记电话的类别上传至服务器,形成诈骗号码标记库,进而对诈骗号码进行过滤。这种方法的缺陷是无法实时发现诈骗电话,往往发现时受害人已经被骗。因此,如何基于通话文本来实现对诈骗电话的准确识别,已经成为各手机厂商和手机系统开发者普遍关注的技术问题。
技术实现思路
有鉴于此,本专利技术的目的是提供一种基于通话文本词向量的终端诈骗电话识别方法,能基于通话文本来实现对诈骗电话的准确识别。为了达到上述目的,本专利技术提供了一种基于通话文本词向量的终端诈骗电话识别方法,包括有:步骤一、用户在手机终端App中标记来话,对于用户标记为诈骗类别的来话,经用户授权同意后提取通话并转化为文本,然后将转化后的文本交由用户检视和脱敏,最后经用户授权同意后,将用户检视和脱敏后的文本上传至服务器保存为文本样本;步骤二、对服务器中的每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,然后计算文本样本中每个分词的词向量、字向量、拼音向量和笔画向量,以据此构成文本样本中每个分词的词组合向量,再将每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本样本对应的语义向量;步骤三、构建诈骗分类识别模型,诈骗分类识别模型的输入是文本对应的语义向量,输出是文本所属的涉诈类别,使用服务器中用户自行上传的文本样本作为训练样本对诈骗分类识别模型进行训练,然后将训练好的模型从服务器端推送给用户的手机终端App进行模型更新;步骤四、用户的手机终端App接收到新的待识别通话后,提取其内容文本进行分词,并生成文本中所有分词的词性标注、句话依存标签、词组合向量,然后根据手机终端App内的诈骗分类识别模型,获得待识别通话号码所属的涉诈类别,并通过App消息提示用户。与现有技术相比,本专利技术的有益效果是:本专利技术提供了一种快速将通话文本转换为数值化向量,并融合词向量、字向量、拼音向量、以及笔画向量,在词性标识的基础上,构造多种诈骗场景事件元素的通话文本识别方法,能够从事件描述、后续动作、双方态度等多个角度,实现对多种诈骗场景的针对性分析,充分保证用户隐私,并解决同音异形字或多音字造成的语义偏差问题,最大程度的提升了用户和厂商对不良呼叫的识别的精准率和召回率。附图说明图1是本专利技术一种基于通话文本词向量的终端诈骗电话识别方法的流程图。图2是图1步骤二中,对每个文本样本进行分词和词性标注,获得每个分词的句法依存标签的具体步骤流程图。图3是图1步骤二中,将文本样本中每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本样本对应的语义向量的具体步骤流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。如图1所示,本专利技术一种基于通话文本词向量的终端诈骗电话识别方法,包括有:步骤一、用户在手机终端App中标记来话,对于用户标记为诈骗类别的来话,经用户授权同意后提取通话并转化为文本,然后将转化后的文本交由用户检视和脱敏,最后经用户授权同意后,将用户检视和脱敏后的文本上传至服务器保存为文本样本,脱敏即去掉个人身份相关的敏感信息,如身份证号、姓名、手机号等;步骤二、对服务器中的每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,然后计算文本样本中每个分词的词向量、字向量、拼音向量和笔画向量,以据此构成文本样本中每个分词的词组合向量,再将每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本样本对应的语义向量;步骤三、构建诈骗分类识别模型,诈骗分类识别模型的输入是文本对应的语义向量,输出是文本所属的涉诈类别,使用服务器中用户自行上传的文本样本作为训练样本对诈骗分类识别模型进行训练,然后将训练好的模型从服务器端推送给用户的手机终端App进行模型更新;步骤四、用户的手机终端App接收到新的待识别通话后,提取其内容文本进行分词,并生成文本中所有分词的词性标注、句话依存标签、词组合向量,然后根据手机终端App内的诈骗分类识别模型,获得待识别通话号码所属的涉诈类别,并通过App消息提示用户。步骤一可以进一步包括有:步骤11、用户安装手机终端App后,获得对来话进行标记的功能,当用户使用该功能标记当前来话为诈骗类别后,在手机终端App内使用HMM算法对电话来话的前60秒进行内容提取,从而生成内容文本,然后基于通用规则去除内容文本中的个人身份相关信息,最后将手机终端App内脱敏后的文本推送交由用户检视;步骤12、用户对文本进行检视,可编辑文本以进一步完善脱敏,然后选择是否将用户标记为诈骗类别的脱敏文本上传至服务器,如果是,则在用户授权下将文本和诈骗类别的标记上传至服务器;步骤13、对服务器收到的文本执行文本清洗,包括去掉文本中除中文、英文和数字外的非正常字符,将换行符、占位符统一用空格代替,以及将多个空格分隔转化为一个空格;步骤14、对文本再次进行清洗,截取文本的前180个字,并去除文本量小于15个字的文本。如图2所示,步骤二中,对每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,可以进一步包括有:步骤21、基于汉语语法生成停用词词典;步骤22、基于诈骗场景,人工加入常用词作为自定义词典;步骤23、使用基于DAG词图的HMM算法,对文本样本进行分词和词性标注,同时输入自定义词典优化分词结果;步骤24、使用基于快速Offset的算法,对每个分词进行句法依存分析,输出每个分词的句法依存标签,如下表所示:步骤25、使用停用词词典,过滤掉文本样本中的停用词。步骤二中,计算每个分词的词向量、字向量、拼音向量和笔画向量,以据此构成文本样本中每个分词的词组合向量,可以进一步包括有:利用skip-Gram方法输出每个分词的词向量Cw0、字向量Cc、拼音向量Cp以及笔画向量Cb,然后构成每个分词的词组合向本文档来自技高网...

【技术保护点】
1.一种基于通话文本词向量的终端诈骗电话识别方法,其特征在于,包括有:/n步骤一、用户在手机终端App中标记来话,对于用户标记为诈骗类别的来话,经用户授权同意后提取通话并转化为文本,然后将转化后的文本交由用户检视和脱敏,最后经用户授权同意后,将用户检视和脱敏后的文本上传至服务器保存为文本样本;/n步骤二、对服务器中的每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,然后计算文本样本中每个分词的词向量、字向量、拼音向量和笔画向量,以据此构成文本样本中每个分词的词组合向量,再将每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本样本对应的语义向量;/n步骤三、构建诈骗分类识别模型,诈骗分类识别模型的输入是文本对应的语义向量,输出是文本所属的涉诈类别,使用服务器中用户自行上传的文本样本作为训练样本对诈骗分类识别模型进行训练,然后将训练好的模型从服务器端推送给用户的手机终端App进行模型更新;/n步骤四、用户的手机终端App接收到新的待识别通话后,提取其内容文本进行分词,并生成文本中所有分词的词性标注、句话依存标签、词组合向量,然后根据手机终端App内的诈骗分类识别模型,获得待识别通话号码所属的涉诈类别,并通过App消息提示用户。/n...

【技术特征摘要】
1.一种基于通话文本词向量的终端诈骗电话识别方法,其特征在于,包括有:
步骤一、用户在手机终端App中标记来话,对于用户标记为诈骗类别的来话,经用户授权同意后提取通话并转化为文本,然后将转化后的文本交由用户检视和脱敏,最后经用户授权同意后,将用户检视和脱敏后的文本上传至服务器保存为文本样本;
步骤二、对服务器中的每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,然后计算文本样本中每个分词的词向量、字向量、拼音向量和笔画向量,以据此构成文本样本中每个分词的词组合向量,再将每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本样本对应的语义向量;
步骤三、构建诈骗分类识别模型,诈骗分类识别模型的输入是文本对应的语义向量,输出是文本所属的涉诈类别,使用服务器中用户自行上传的文本样本作为训练样本对诈骗分类识别模型进行训练,然后将训练好的模型从服务器端推送给用户的手机终端App进行模型更新;
步骤四、用户的手机终端App接收到新的待识别通话后,提取其内容文本进行分词,并生成文本中所有分词的词性标注、句话依存标签、词组合向量,然后根据手机终端App内的诈骗分类识别模型,获得待识别通话号码所属的涉诈类别,并通过App消息提示用户。


2.根据权利要求1所述的方法,其特征在于,步骤一进一步包括有:
步骤11、用户安装手机终端App后,获得对来话进行标记的功能,当用户使用该功能标记当前来话为诈骗类别后,在手机终端App内使用HMM算法对电话来话的前60秒进行内容提取,从而生成内容文本,然后基于通用规则去除内容文本中的个人身份相关信息,最后将手机终端App内脱敏后的文本推送交由用户检视;
步骤12、用户对文本进行检视,编辑文本以进一步完善脱敏,然后选择是否将用户标记为诈骗类别的脱敏文本上传至服务器,如果是,则在用户授权下将文本和诈骗类别的标记上传至服务器;
步骤13、对服务器收到的文本执行文本清洗,包括去掉文本中除中文、英文和数字外的非正常字符,将换行符、占位符统一用空格代替,以及将多个空格分隔转化为一个空格;
步骤14、对文本再次进行清洗,截取文本的前180个字,并去除文本量小于15个字的文本。


3.根据权利要求1所述的方法,其特征在于,步骤二中,对每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,进一步包括有:
步骤21、基于汉语语法生成停用词词典;
步骤22、基于诈骗场景,人工加入常用词作为自定义词典;
步骤23、使用基于DAG词图的HMM算法,对文本样本进行分词和词性标注,同时输入自定义词典优化分词结果;
步骤24、使用基于快速Offset的算法,对每个分词进行句法依存分析,输出每个分词的句法依存标签;
步骤25、使用停用词词典,过滤掉文本样本中的...

【专利技术属性】
技术研发人员:孙晓晨宁珊林格平张之含侯炜洪永婷倪善金周书敏万辛沈亮
申请(专利权)人:国家计算机网络与信息安全管理中心杭州东信北邮信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1