【技术实现步骤摘要】
一种基于通话文本词向量的终端诈骗电话识别方法
本专利技术涉及一种基于通话文本词向量的终端诈骗电话识别方法,属于信息
技术介绍
当前境外发起的电信诈骗案件日益增加,手机用户对诈骗电话的过滤要求越来越高。但越来越多诈骗分子的通话行为趋于隐蔽化,通话行为相关的特征减弱,只有通过对通话文本进行分析识别,才可能进一步的提升手机系统对不良呼叫识别的精准率和召回率。目前,市面上基于手机终端系统的诈骗电话过滤方法还比较初级。主流厂商通常采用用户标记的手段,即依靠用户主动标记电话的类别上传至服务器,形成诈骗号码标记库,进而对诈骗号码进行过滤。这种方法的缺陷是无法实时发现诈骗电话,往往发现时受害人已经被骗。因此,如何基于通话文本来实现对诈骗电话的准确识别,已经成为各手机厂商和手机系统开发者普遍关注的技术问题。
技术实现思路
有鉴于此,本专利技术的目的是提供一种基于通话文本词向量的终端诈骗电话识别方法,能基于通话文本来实现对诈骗电话的准确识别。为了达到上述目的,本专利技术提供了一种基于通话文本词向量的终端诈骗电话识别方法,包括有:步骤一、用户在手机终端App中标记来话,对于用户标记为诈骗类别的来话,经用户授权同意后提取通话并转化为文本,然后将转化后的文本交由用户检视和脱敏,最后经用户授权同意后,将用户检视和脱敏后的文本上传至服务器保存为文本样本;步骤二、对服务器中的每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,然后计算文本样本中每个分词的词向量、字向量、拼 ...
【技术保护点】
1.一种基于通话文本词向量的终端诈骗电话识别方法,其特征在于,包括有:/n步骤一、用户在手机终端App中标记来话,对于用户标记为诈骗类别的来话,经用户授权同意后提取通话并转化为文本,然后将转化后的文本交由用户检视和脱敏,最后经用户授权同意后,将用户检视和脱敏后的文本上传至服务器保存为文本样本;/n步骤二、对服务器中的每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,然后计算文本样本中每个分词的词向量、字向量、拼音向量和笔画向量,以据此构成文本样本中每个分词的词组合向量,再将每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本样本对应的语义向量;/n步骤三、构建诈骗分类识别模型,诈骗分类识别模型的输入是文本对应的语义向量,输出是文本所属的涉诈类别,使用服务器中用户自行上传的文本样本作为训练样本对诈骗分类识别模型进行训练,然后将训练好的模型从服务器端推送给用户的手机终端App进行模型更新;/n步骤四、用户的手机终端App接收到新的 ...
【技术特征摘要】
1.一种基于通话文本词向量的终端诈骗电话识别方法,其特征在于,包括有:
步骤一、用户在手机终端App中标记来话,对于用户标记为诈骗类别的来话,经用户授权同意后提取通话并转化为文本,然后将转化后的文本交由用户检视和脱敏,最后经用户授权同意后,将用户检视和脱敏后的文本上传至服务器保存为文本样本;
步骤二、对服务器中的每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,然后计算文本样本中每个分词的词向量、字向量、拼音向量和笔画向量,以据此构成文本样本中每个分词的词组合向量,再将每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本样本对应的语义向量;
步骤三、构建诈骗分类识别模型,诈骗分类识别模型的输入是文本对应的语义向量,输出是文本所属的涉诈类别,使用服务器中用户自行上传的文本样本作为训练样本对诈骗分类识别模型进行训练,然后将训练好的模型从服务器端推送给用户的手机终端App进行模型更新;
步骤四、用户的手机终端App接收到新的待识别通话后,提取其内容文本进行分词,并生成文本中所有分词的词性标注、句话依存标签、词组合向量,然后根据手机终端App内的诈骗分类识别模型,获得待识别通话号码所属的涉诈类别,并通过App消息提示用户。
2.根据权利要求1所述的方法,其特征在于,步骤一进一步包括有:
步骤11、用户安装手机终端App后,获得对来话进行标记的功能,当用户使用该功能标记当前来话为诈骗类别后,在手机终端App内使用HMM算法对电话来话的前60秒进行内容提取,从而生成内容文本,然后基于通用规则去除内容文本中的个人身份相关信息,最后将手机终端App内脱敏后的文本推送交由用户检视;
步骤12、用户对文本进行检视,编辑文本以进一步完善脱敏,然后选择是否将用户标记为诈骗类别的脱敏文本上传至服务器,如果是,则在用户授权下将文本和诈骗类别的标记上传至服务器;
步骤13、对服务器收到的文本执行文本清洗,包括去掉文本中除中文、英文和数字外的非正常字符,将换行符、占位符统一用空格代替,以及将多个空格分隔转化为一个空格;
步骤14、对文本再次进行清洗,截取文本的前180个字,并去除文本量小于15个字的文本。
3.根据权利要求1所述的方法,其特征在于,步骤二中,对每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,进一步包括有:
步骤21、基于汉语语法生成停用词词典;
步骤22、基于诈骗场景,人工加入常用词作为自定义词典;
步骤23、使用基于DAG词图的HMM算法,对文本样本进行分词和词性标注,同时输入自定义词典优化分词结果;
步骤24、使用基于快速Offset的算法,对每个分词进行句法依存分析,输出每个分词的句法依存标签;
步骤25、使用停用词词典,过滤掉文本样本中的...
【专利技术属性】
技术研发人员:孙晓晨,宁珊,林格平,张之含,侯炜,洪永婷,倪善金,周书敏,万辛,沈亮,
申请(专利权)人:国家计算机网络与信息安全管理中心,杭州东信北邮信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。