本发明专利技术公开了一种基于自然语言处理的风控识别方法,其特征在于,包括以下步骤:1)对输入的风险数据进行预处理;2)将风险文本以向量空间模型表示出来,得到分布式词向量;3)计算风险相似度,当得到的风险文本相似度接近的时候,则归为一条风险,否则不归类,通过使用步骤1、2、3解决了Word2Vec可以计算setence之间的相似度,从而实现风险的判定。
【技术实现步骤摘要】
一种基于自然语言处理的风控识别方法
:本专利技术涉及风险管控系统识别
,具体涉及一种基于自然语言处理的风控识别方法。
技术介绍
:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。风险控制是指风险管理者采取各种措施和方法,消灭或减少风险事件发生的各种可能性,或风险控制者减少风险事件发生时造成的损失。在风险管控系统识别的过程中,我们需要对不同人员输入的不同风险进行相似度判定,以确定2条风险事项是否相似,如果相似则归为一条风险,因此需要对我们采用了自然语言处理的文本相似算法来实现。Word2Vec的基本思想是把自然语言中的每一个词,表示成一个统一意义统一维度的短向量,只能计算词之间的相似度,不能计算setence之间的相似度。传统算法通常使用one-hot形式表示一个词,维度爆炸,词表通常会非常大,导致词向量维度也会非常大。损失语义信息,onehot随机给每个词语进行编号映射,无法表示词语之间的关系。传统sentenceembedding做法:Bag-of-words,即将sentence中每个vector的one-hotvector进行求平均,这样会忽略了文本的语序。专利技术内容:现有技术难以满足人们的需要,为了解决上述存在的问题,本专利技术提出了一种基于自然语言处理的风控识别方法。为实现上述目的,本专利技术提供如下技术方案:一种基于自然语言处理的风控识别方法,其特征在于,包括以下步骤:1)对输入的风险数据进行预处理;2)将风险文本以向量空间模型表示出来,得到分布式词向量;3)计算风险相似度,当得到的风险文本相似度接近的时候,则归为一条风险,否则不归类。优选的,所述步骤1中风险数据进行预处理包括以下步骤:(1)对句子文本中所有词的wordvector求平均,获得sentenceembedding;(2)加入了bag-of-ngrams,将sentence中每个vector的one-hotvector进行求平均;(3)对句子中的word的vector进行加权求和,来表示句子;如上(1)中求平均时每个单词都为one-hot,会导致文本缺失语义性,因此对句子中的word的vector进行加权求和,来表示句子。(4)对n-gram同样求embedding之后对n-gram也进行加权。优选的,所述步骤2中将风险文本以向量空间模型表示出来,得到分布式词向量包括以下步骤:(1)以每个词的tf-idf为权重,对所有词的wordvector加权平均,获得sentenceembedding;(2)以smoothinversefrequency[1](简称SIF)为权重,对所有词的wordvector加权平均,最后从中减掉principalcomponent,得到sentenceembedding;优选的,所述步骤3中计算风险相似度包括以下步骤:(1)求词i与词j的词向量的欧式距离,距离值为C(i,j)=|(vecI-vecJ)|;(2)通过WordMover’sDistance[2](简称WMD),直接度量句子之间的相似度;(3)通过所得相似度对风险进行归类处理。优选的,所述步骤3中风险相似度计算方式还可以采用编辑距离计算、杰卡德系数计算、TF计算、TFIDF计算、Word2Vec计算中的一种。与现有技术相比,本专利技术的有益效果是:通过使用步骤1、2、3解决了Word2Vec可以计算setence之间的相似度;传统sentenceembedding做法:Bag-of-words,即将sentence中每个vector的one-hotvector进行求平均,这样会忽略了文本的语序;因此通过加入了bag-of-ngrams.考虑了词序,使得文本更加语义化;通过对句子中的word的vector进行加权求和,来表示句子;但是这样会同样丢失了order的信息,因此把n-gram同样求embedding之后对n-gram也进行加权,一定程度上解决order的问题。附图说明:图1为本专利技术的整体流程示意图;具体实施方式:为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合图示,进一步阐述本专利技术。实施例1一种基于自然语言处理的风控识别方法,其特征在于,包括以下步骤:1)对输入的风险数据进行预处理;2)将风险文本以向量空间模型表示出来,得到分布式词向量;3)计算风险相似度,当得到的风险文本相似度接近的时候,则归为一条风险,否则不归类。实施例2与实施例1相同之处不再重述,与实施例1不同之处在于:优选的,所述步骤1中风险数据进行预处理包括以下步骤:(1)对句子文本中所有词的wordvector求平均,获得sentenceembedding;(2)加入了bag-of-ngrams,将sentence中每个vector的one-hotvector进行求平均;(3)对句子中的word的vector进行加权求和,来表示句子;(4)对n-gram同样求embedding之后对n-gram也进行加权。实施例3与实施例1相同之处不再重述,与实施例1不同之处在于:优选的,所述步骤2中将风险文本以向量空间模型表示出来,得到分布式词向量包括以下步骤:(1)以每个词的tf-idf为权重,对所有词的wordvector加权平均,获得sentenceembedding;(2)以smoothinversefrequency[1](简称SIF)为权重,对所有词的wordvector加权平均,最后从中减掉principalcomponent,得到sentenceembedding。实施例4与实施例1相同之处不再重述,与实施例1不同之处在于:优选的,所述步骤3中计算风险相似度包括以下步骤:(1)求词i与词j的词向量的欧式距离,距离值为C(i,j)=|(vecI-vecJ)|;(2)通过WordMover’sDistance[2](简称WMD),直接度量句子之间的相似度;(3)通过所得相似度对风险进行归类处理。实施例4与实施例1相同之处不再重述,与实施例1不同之处在于:优选的,所述风险相似度计算包括以下步骤:(1)求词i与词j的词向量的欧式距离,距离值为C(i,j)=|(vecI-vecJ)|;(2)通过WordMover’sDistance[2](简称WMD),直接度量句子之间的相似度;(3)通过所得相似度对风险进行归类处理。实施例5与实施例1相同之处不再重述,与实施例1不同之处在于:优选的,所述步骤3中风险相似度计算方式采用Word2Vec计算。实施例6一种基于自然语言处理的风控识别方法,其特征在于,包括以下步骤:1)对输入的风险数据进行预处理;2)将风险文本以向量空间模型表示出来,得到分布式词向量;3)计算风险相似度,当得到的风险文本相似度接近的时候,则归为一条风险,否则不本文档来自技高网...
【技术保护点】
1.一种基于自然语言处理的风控识别方法,其特征在于,包括以下步骤:1)对输入的风险数据进行预处理;2)将风险文本以向量空间模型表示出来,得到分布式词向量;3)计算风险相似度,当得到的风险文本相似度接近的时候,则归为一条风险,否则不归类。
【技术特征摘要】
1.一种基于自然语言处理的风控识别方法,其特征在于,包括以下步骤:1)对输入的风险数据进行预处理;2)将风险文本以向量空间模型表示出来,得到分布式词向量;3)计算风险相似度,当得到的风险文本相似度接近的时候,则归为一条风险,否则不归类。2.根据权利要求1所述的基于自然语言处理的风控识别方法,其特征在于:所述步骤1中风险数据进行预处理包括以下步骤:(1)对句子文本中所有词的wordvector求平均,获得sentenceembedding;(2)加入了bag-of-ngrams,将sentence中每个vector的one-hotvector进行求平均;(3)对句子中的word的vector进行加权求和,来表示句子;(4)对n-gram同样求embedding之后对n-gram也进行加权,来表示句子。3.根据权利要求1所述的基于自然语言处理的风控识别方法,其特征在于:所述步骤2中将风险文本以向量空间模型表示出来,得到分布式词向量包括以下步骤:...
【专利技术属性】
技术研发人员:陈绪龙,张超,
申请(专利权)人:安徽经邦软件技术有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。