一种发掘潜在风险词的方法、装置及设备制造方法及图纸

技术编号：19009176 阅读：46 留言：0更新日期：2018-09-22 09:02

本说明书实施例公开了一种发掘潜在风险词的方法、装置及设备。在本说明实施例中，建立包含的各顶点与各目标文本中的各词一一对应的点图，然后根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，得到有向图。进而，可以根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分，针对每个顶点，根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多，该顶点对应的评分越高。可以根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

Method, device and device for developing latent risk words

The embodiment of the manual discloses a method, device and device for developing potential risk words. In the present illustrative embodiment, a point graph containing vertices corresponding to each word in each target text is established, and then the entry and/or exit edges of each vertex in the point graph are determined according to the distance between the word vector of a known risk word and the word vector of another word, and a directed graph is obtained. Furthermore, according to the entry and/or exit edges of each vertex in the directed graph, the corresponding scoring of each vertex can be calculated. For each vertex, the more the number of other vertices contained in the paths starting from the vertex can be determined according to the directed graph, the higher the corresponding scoring of the vertex. Potential risk words can be determined based on the words corresponding to vertices greater than the specified threshold.

全部详细技术资料下载

【技术实现步骤摘要】
一种发掘潜在风险词的方法、装置及设备
本说明书涉及信息
，尤其涉及一种发掘潜在风险词的方法、装置及设备。
技术介绍
在诸多行业，风险控制(简称风控)工作的重要性不言而喻。例如，电子支付平台的风控工作可以是从受理的转账业务中识别出涉嫌洗钱的转账业务。实践中，业务相关文本(如业务的附言)可以为风险识别工作提供线索。以业务的附言为例，业务的附言是用户发送业务请求时，附带发送的消息。例如，张三向电子支付平台发送向李四转账1000元的转账请求，并附言“请收米”，该附言即是张三向李四发送的消息。具体地，工作人员可以对已知存在风险的业务的业务相关文本进行分析，发掘出若干风险词，然后根据发掘出的风险词，对业务进行风险识别。以反洗钱的场景为例，电子支付平台的工作人员可以对已知涉嫌洗钱的转账业务的附言进行分析，将附言中包含的某些与洗钱较为相关的词，作为风险词(例如，上文中的“收米”是赌博犯罪分子进行洗钱时习惯使用的词，表达“收钱”的意思)，并将之交由电子支付平台的业务系统进行保存。业务系统当受理一笔转账业务时，可以判断该转账业务的附言中是否包含自身保存的至少一个风险词，若是，则确定该转账业务涉嫌洗钱。实际上，人工所发掘出的风险词(本文将之称为已知风险词)往往较少。对于大量认定为无风险却实际存在风险的业务而言，这些业务的业务相关文本中包含大量的风险词未被发掘(本文将未被发掘的风险词称为潜在风险词)，这些潜在风险词所表达的含义与已知风险词所表达的含义相近。例如，赌博犯罪分子在进行洗钱时，为了避开业务系统的风险识别，可以在的附言中使用“接水”一词，表达与“收米”相近的含义。为...
一种发掘潜在风险词的方法、装置及设备

【技术保护点】
1.一种发掘潜在风险词的方法，包括：获取若干目标文本，各目标文本中的部分词为已知风险词；对各目标文本进行处理，得到各目标文本中的各词的词向量；确定包含的各顶点与各词一一对应的点图；根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，得到有向图；根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分；针对每个顶点，根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多，该顶点对应的评分越高；根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

【技术特征摘要】
1.一种发掘潜在风险词的方法，包括：获取若干目标文本，各目标文本中的部分词为已知风险词；对各目标文本进行处理，得到各目标文本中的各词的词向量；确定包含的各顶点与各词一一对应的点图；根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，得到有向图；根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分；针对每个顶点，根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多，该顶点对应的评分越高；根据评分大于指定阈值的顶点对应的词，确定潜在风险词。2.如权利要求1所述的方法，对各目标文本进行处理，得到各目标文本中的各词的词向量，具体包括：对各目标文本进行分词处理，得到各目标文本中的各词；初始化各词的词向量；根据各目标文本，确定若干异常文本；以各目标文本和各异常文本为样本，针对每个样本，根据该样本包含的词的词向量，确定该样本对应的特征矩阵；以各样本对应的特征矩阵为输入，采用神经网络算法训练用于识别文本是否异常的模型；针对训练过程中的每次迭代，判断该次迭代中确定的训练效果表征值是否满足第一指定条件；若是，则结束训练，并输出各词的词向量；否则，根据该次迭代中确定的训练效果表征值调整模型参数和各词的词向量，并开始下一次迭代。3.如权利要求2所述的方法，根据各目标文本，确定若干异常文本，具体包括：对各目标文本进行若干次随机的编辑操作，得到若干异常文本；其中，所述编辑操作包括从文本中删除词的操作、更换文本中词的操作、将文本中任意两个词的位置进行交换的操作中的至少一种。4.如权利要求1所述的方法，根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，具体包括：将一个已知风险词对应的顶点作为目标顶点；根据所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离，从其他顶点中确定出满足第一指定条件的待连接顶点；确定所述目标顶点指向每个待连接顶点的边，作为所述目标顶点的出边；选择一个顶点重新作为目标顶点，直至所述点图中所有顶点皆具有出边，或所述点图中具有出边的顶点的数量达到指定数量。5.如权利要求4所述的方法，根据所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离，从其他顶点中确定出满足第一指定条件的待连接顶点，具体包括：按所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离由小到大的顺序，依次选择N个其他顶点，作为待连接顶点；N为大于0的自然数。6.如权利要求4所述的方法，选择一个顶点重新作为目标顶点，具体包括：将各已知风险词对应的顶点中不具有出边的顶点作为备选顶点，以及，将各仅具有入边的顶点作为备选顶点；针对每个备选顶点，根据该备选顶点对应的词向量与所述目标顶点对应的词向量的距离以及该备选顶点对应的特征数，确定该备选顶点对应的参考值；其中，若该备选顶点为已知风险词对应的顶点，则该备选顶点对应的特征数为指定自然数，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是根据分别从各已知风险词对应的顶点到该备选顶点的各路径中包含的出边的数量确定的；备选顶点对应的词向量与所述目标顶点对应的词向量的距离越小，备选顶点对应的参考值越小；备选顶点对应的特征数越小，备选顶点对应的参考值越小；将参考值最小的备选顶点重新作为目标顶点。7.如权利要求6所述的方法，针对每个备选顶点，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是分别从各已知风险词对应的顶点到该备选顶点的最短路径中包含的出边数量与所述指定自然数的和。8.如权利要求6所述的方法，根据该备选顶点对应的词向量与所述目标顶点对应的词向量的距离以及该备选顶点对应的特征数，确定该备选顶点对应的参考值，具体包括：将该备选顶点对应的词向量与所述目标顶点对应的词向量的距离乘该备选顶点对应的特征数得到的乘积，作为该备选顶点对应的参考值；所述指定自然数为0。9.如权利要求1所述的方法，根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分，具体包括：初始化所述有向图中各顶点对应的评分；针对每个顶点，根据该顶点的评分，确定该顶点的每个入边对应的分值；根据该顶点的各出边和入边对应的分值，对该顶点对应的评分进行更新；根据更新后的该顶点对应的评分，重新确定该顶点的每个入边对应的分值，直至指定数量的顶点对应的评分满足第二指定条件。10.如权利要求9所述的方法，针对每个顶点，当确定更新后的该顶点对应的评分与更新前的该顶点对应的评分的差的绝对值小于指定值时，确定该顶点对应的评分满足所述第二指定条件。11.如权利要求9所述的方法，根据该顶点的评分，确定该顶点的每个入边对应的分值，具体包括：将该顶点的评分与该顶点的入边的数量的商，作为该顶点的每个入边对应的分值。12.如权利要求9～11任一项所述的方法，采用以下公式计算更新后的顶点对应的评分：S＝M-X+Y；其中，S是更新后的顶点对应的评分，M是更新前的顶点对应的评分，X是顶点的各入边对应的分值的和，Y是顶点的各出边对应的分值的和。13.如权利要求1所述的方法，根据评分大于指定阈值的顶点对应的词，确定潜在风险词，具体包括：将评分大于指定阈值的顶点对应的词中除已知风险词之外的词确定为潜在风险词。14.一种发掘潜在风险词的装置，包括：获取模块，获取若干目标文本，各目标文本中的...

【专利技术属性】
技术研发人员：张鹏，高民权，王嘉浩，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人