一种发掘潜在风险词的方法、装置及设备制造方法及图纸

技术编号:19009176 阅读:46 留言:0更新日期:2018-09-22 09:02
本说明书实施例公开了一种发掘潜在风险词的方法、装置及设备。在本说明实施例中,建立包含的各顶点与各目标文本中的各词一一对应的点图,然后根据已知风险词的词向量与其他词的词向量的距离,确定所述点图中每个顶点的入边和/或出边,得到有向图。进而,可以根据所述有向图中每个顶点的入边和/或出边,计算各顶点分别对应的评分,针对每个顶点,根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多,该顶点对应的评分越高。可以根据评分大于指定阈值的顶点对应的词,确定潜在风险词。

Method, device and device for developing latent risk words

The embodiment of the manual discloses a method, device and device for developing potential risk words. In the present illustrative embodiment, a point graph containing vertices corresponding to each word in each target text is established, and then the entry and/or exit edges of each vertex in the point graph are determined according to the distance between the word vector of a known risk word and the word vector of another word, and a directed graph is obtained. Furthermore, according to the entry and/or exit edges of each vertex in the directed graph, the corresponding scoring of each vertex can be calculated. For each vertex, the more the number of other vertices contained in the paths starting from the vertex can be determined according to the directed graph, the higher the corresponding scoring of the vertex. Potential risk words can be determined based on the words corresponding to vertices greater than the specified threshold.

【技术实现步骤摘要】
一种发掘潜在风险词的方法、装置及设备
本说明书涉及信息
,尤其涉及一种发掘潜在风险词的方法、装置及设备。
技术介绍
在诸多行业,风险控制(简称风控)工作的重要性不言而喻。例如,电子支付平台的风控工作可以是从受理的转账业务中识别出涉嫌洗钱的转账业务。实践中,业务相关文本(如业务的附言)可以为风险识别工作提供线索。以业务的附言为例,业务的附言是用户发送业务请求时,附带发送的消息。例如,张三向电子支付平台发送向李四转账1000元的转账请求,并附言“请收米”,该附言即是张三向李四发送的消息。具体地,工作人员可以对已知存在风险的业务的业务相关文本进行分析,发掘出若干风险词,然后根据发掘出的风险词,对业务进行风险识别。以反洗钱的场景为例,电子支付平台的工作人员可以对已知涉嫌洗钱的转账业务的附言进行分析,将附言中包含的某些与洗钱较为相关的词,作为风险词(例如,上文中的“收米”是赌博犯罪分子进行洗钱时习惯使用的词,表达“收钱”的意思),并将之交由电子支付平台的业务系统进行保存。业务系统当受理一笔转账业务时,可以判断该转账业务的附言中是否包含自身保存的至少一个风险词,若是,则确定该转账业务涉嫌洗钱。实际上,人工所发掘出的风险词(本文将之称为已知风险词)往往较少。对于大量认定为无风险却实际存在风险的业务而言,这些业务的业务相关文本中包含大量的风险词未被发掘(本文将未被发掘的风险词称为潜在风险词),这些潜在风险词所表达的含义与已知风险词所表达的含义相近。例如,赌博犯罪分子在进行洗钱时,为了避开业务系统的风险识别,可以在的附言中使用“接水”一词,表达与“收米”相近的含义。为了使业务系统能够依据更多的风险词对受理的业务进行更为准确的风险识别,可以将已知风险词作为样本,训练模型,训练得到的模型可以判断一个词是否与已知风险词的含义相近,可以将所述模型认定的与已知风险词含义相近的词作为潜在风险词。基于现有技术,需要一种更为准确的发掘潜在风险词的方法。
技术实现思路
本说明书实施例提供一种发掘潜在风险词的方法、装置及设备,以解决现有的发掘潜在风险词的方法存在的准确性较低的问题。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种发掘潜在风险词的方法,包括:获取若干目标文本,各目标文本中的部分词为已知风险词;对各目标文本进行处理,得到各目标文本中的各词的词向量;确定包含的各顶点与各词一一对应的点图;根据已知风险词的词向量与其他词的词向量的距离,确定所述点图中每个顶点的入边和/或出边,得到有向图;根据所述有向图中每个顶点的入边和/或出边,计算各顶点分别对应的评分;针对每个顶点,根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多,该顶点对应的评分越高;根据评分大于指定阈值的顶点对应的词,确定潜在风险词。本说明书实施例提供的一种发掘潜在风险词的装置,包括:获取模块,获取若干目标文本,各目标文本中的部分词为已知风险词;处理模块,对各目标文本进行处理,得到各目标文本中的各词的词向量;点图生成模块,确定包含的各顶点与各词一一对应的点图;有向图生成模块,根据已知风险词的词向量与其他词的词向量的距离,确定所述点图中每个顶点的入边和/或出边,得到有向图;计算模块,根据所述有向图中每个顶点的入边和/或出边,计算各顶点分别对应的评分;针对每个顶点,根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多,该顶点对应的评分越高;确定模块,根据评分大于指定阈值的顶点对应的词,确定潜在风险词。本说明书实施例提供的一种发掘潜在风险词的设备,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:获取若干目标文本,各目标文本中的部分词为已知风险词;对各目标文本进行处理,得到各目标文本中的各词的词向量;确定包含的各顶点与各词一一对应的点图;根据已知风险词的词向量与其他词的词向量的距离,确定所述点图中每个顶点的入边和/或出边,得到有向图;根据所述有向图中每个顶点的入边和/或出边,计算各顶点分别对应的评分;针对每个顶点,根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多,该顶点对应的评分越高;根据评分大于指定阈值的顶点对应的词,确定潜在风险词。由以上本说明书实施例提供的技术方案可见,在本说明书实施例中,建立包含的各顶点与各目标文本中的各词一一对应的点图,然后根据已知风险词的词向量与其他词的词向量的距离,确定所述点图中每个顶点的入边和/或出边,得到有向图。进而,可以根据所述有向图中每个顶点的入边和/或出边,计算各顶点分别对应的评分,针对每个顶点,根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多,该顶点对应的评分越高。可以根据评分大于指定阈值的顶点对应的词,确定潜在风险词。通过本说明书实施例,可以仅使用较少的已知风险词,就确定出表征各目标文本中每个词与已知风险词含义近似程度的有向图,进而可以根据所述有向图,计算得到每个词对应评分,每个词对应的评分是每个词与已知风险词含义近似程度的量化表示。如此一来,无需使用识别准确性不高的模型进行潜在风险词的发掘,而是通过所述有向图的方式进行潜在风险词的发掘,有效提升了发掘潜在风险词的方法的准确性。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本说明书实施例提供的一种发掘潜在风险词的方法流程图;图2a~2j是本说明书实施例提供的得到有向图的过程示意图;图3是本说明书实施例提供的一种发掘潜在风险词的装置示意图;图4是本说明书实施例提供的一种发掘潜在风险词的设备示意图。具体实施方式在现有技术中,为了发掘出潜在风险词,通常以若干已知风险词为黑样本(可以将每个已知风险词标注为0),以若干无风险词(与已知风险词的含义相差很远的词)为白样本(可以将每个已知风险词标注为1),训练用于判断一个词是否为风险词的模型(也就是分类器)。实际使用所述模型时,将待识别的词输入到所述模型,由所述模型输出待识别的词是否为风险词的结果。众所周知,若要求训练得到的分类器的识别准确性较高,则需要使用海量的已标注样本(即需要使用海量的已知风险词)进行训练。然而,实践中,已知风险词往往较少(一般为十几个),以这些已知风险词为黑样本不足以训练得到足够准确的分类器。不够准确的分类器用于识别潜在风险词的准确性较低。而本专利技术的核心思想是,根据已知风险词的词向量与其他词的词向量的距离,仅凭少量已知风险词,就可以确定出表征各目标文本中每个词与已知风险词含义近似程度的有向图。进而可以根据所述有向图,计算得到每个词对应评分,每个词对应的评分是每个词与已知风险词含义近似程度的量化表示。如此,就可以仅使用少量已知风险词就实现对潜在风险词的发掘。为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的本文档来自技高网
...
一种发掘潜在风险词的方法、装置及设备

【技术保护点】
1.一种发掘潜在风险词的方法,包括:获取若干目标文本,各目标文本中的部分词为已知风险词;对各目标文本进行处理,得到各目标文本中的各词的词向量;确定包含的各顶点与各词一一对应的点图;根据已知风险词的词向量与其他词的词向量的距离,确定所述点图中每个顶点的入边和/或出边,得到有向图;根据所述有向图中每个顶点的入边和/或出边,计算各顶点分别对应的评分;针对每个顶点,根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多,该顶点对应的评分越高;根据评分大于指定阈值的顶点对应的词,确定潜在风险词。

【技术特征摘要】
1.一种发掘潜在风险词的方法,包括:获取若干目标文本,各目标文本中的部分词为已知风险词;对各目标文本进行处理,得到各目标文本中的各词的词向量;确定包含的各顶点与各词一一对应的点图;根据已知风险词的词向量与其他词的词向量的距离,确定所述点图中每个顶点的入边和/或出边,得到有向图;根据所述有向图中每个顶点的入边和/或出边,计算各顶点分别对应的评分;针对每个顶点,根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多,该顶点对应的评分越高;根据评分大于指定阈值的顶点对应的词,确定潜在风险词。2.如权利要求1所述的方法,对各目标文本进行处理,得到各目标文本中的各词的词向量,具体包括:对各目标文本进行分词处理,得到各目标文本中的各词;初始化各词的词向量;根据各目标文本,确定若干异常文本;以各目标文本和各异常文本为样本,针对每个样本,根据该样本包含的词的词向量,确定该样本对应的特征矩阵;以各样本对应的特征矩阵为输入,采用神经网络算法训练用于识别文本是否异常的模型;针对训练过程中的每次迭代,判断该次迭代中确定的训练效果表征值是否满足第一指定条件;若是,则结束训练,并输出各词的词向量;否则,根据该次迭代中确定的训练效果表征值调整模型参数和各词的词向量,并开始下一次迭代。3.如权利要求2所述的方法,根据各目标文本,确定若干异常文本,具体包括:对各目标文本进行若干次随机的编辑操作,得到若干异常文本;其中,所述编辑操作包括从文本中删除词的操作、更换文本中词的操作、将文本中任意两个词的位置进行交换的操作中的至少一种。4.如权利要求1所述的方法,根据已知风险词的词向量与其他词的词向量的距离,确定所述点图中每个顶点的入边和/或出边,具体包括:将一个已知风险词对应的顶点作为目标顶点;根据所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离,从其他顶点中确定出满足第一指定条件的待连接顶点;确定所述目标顶点指向每个待连接顶点的边,作为所述目标顶点的出边;选择一个顶点重新作为目标顶点,直至所述点图中所有顶点皆具有出边,或所述点图中具有出边的顶点的数量达到指定数量。5.如权利要求4所述的方法,根据所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离,从其他顶点中确定出满足第一指定条件的待连接顶点,具体包括:按所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离由小到大的顺序,依次选择N个其他顶点,作为待连接顶点;N为大于0的自然数。6.如权利要求4所述的方法,选择一个顶点重新作为目标顶点,具体包括:将各已知风险词对应的顶点中不具有出边的顶点作为备选顶点,以及,将各仅具有入边的顶点作为备选顶点;针对每个备选顶点,根据该备选顶点对应的词向量与所述目标顶点对应的词向量的距离以及该备选顶点对应的特征数,确定该备选顶点对应的参考值;其中,若该备选顶点为已知风险词对应的顶点,则该备选顶点对应的特征数为指定自然数,若该备选顶点不是已知风险词对应的顶点,则该备选顶点对应的特征数是根据分别从各已知风险词对应的顶点到该备选顶点的各路径中包含的出边的数量确定的;备选顶点对应的词向量与所述目标顶点对应的词向量的距离越小,备选顶点对应的参考值越小;备选顶点对应的特征数越小,备选顶点对应的参考值越小;将参考值最小的备选顶点重新作为目标顶点。7.如权利要求6所述的方法,针对每个备选顶点,若该备选顶点不是已知风险词对应的顶点,则该备选顶点对应的特征数是分别从各已知风险词对应的顶点到该备选顶点的最短路径中包含的出边数量与所述指定自然数的和。8.如权利要求6所述的方法,根据该备选顶点对应的词向量与所述目标顶点对应的词向量的距离以及该备选顶点对应的特征数,确定该备选顶点对应的参考值,具体包括:将该备选顶点对应的词向量与所述目标顶点对应的词向量的距离乘该备选顶点对应的特征数得到的乘积,作为该备选顶点对应的参考值;所述指定自然数为0。9.如权利要求1所述的方法,根据所述有向图中每个顶点的入边和/或出边,计算各顶点分别对应的评分,具体包括:初始化所述有向图中各顶点对应的评分;针对每个顶点,根据该顶点的评分,确定该顶点的每个入边对应的分值;根据该顶点的各出边和入边对应的分值,对该顶点对应的评分进行更新;根据更新后的该顶点对应的评分,重新确定该顶点的每个入边对应的分值,直至指定数量的顶点对应的评分满足第二指定条件。10.如权利要求9所述的方法,针对每个顶点,当确定更新后的该顶点对应的评分与更新前的该顶点对应的评分的差的绝对值小于指定值时,确定该顶点对应的评分满足所述第二指定条件。11.如权利要求9所述的方法,根据该顶点的评分,确定该顶点的每个入边对应的分值,具体包括:将该顶点的评分与该顶点的入边的数量的商,作为该顶点的每个入边对应的分值。12.如权利要求9~11任一项所述的方法,采用以下公式计算更新后的顶点对应的评分:S=M-X+Y;其中,S是更新后的顶点对应的评分,M是更新前的顶点对应的评分,X是顶点的各入边对应的分值的和,Y是顶点的各出边对应的分值的和。13.如权利要求1所述的方法,根据评分大于指定阈值的顶点对应的词,确定潜在风险词,具体包括:将评分大于指定阈值的顶点对应的词中除已知风险词之外的词确定为潜在风险词。14.一种发掘潜在风险词的装置,包括:获取模块,获取若干目标文本,各目标文本中的...

【专利技术属性】
技术研发人员:张鹏高民权王嘉浩
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1