一种基于短文本特征提取的风控处理方法及设备技术

技术编号:32466315 阅读:12 留言:0更新日期:2022-02-26 09:29
本申请提供了一种基于短文本特征提取的风控处理方法及设备,属于信息安全防护技术领域。该方法通过获取风控主体的待处理短文本,将待处理短文本输入短文本识别模型,确定待处理短文本的第一意图。确定风控主体的若干待测信息。根据用户画像模型以及各待测信息,生成风控主体所对应的用户画像数据。根据用户画像数据、各待测信息以及短文本识别模型,确定风控主体的若干第二意图。将第一意图与各第二意图进行匹配,以确定第一意图是否存在匹配度大于第一预设阈值的第二意图。若存在,根据各待测信息中的短文本,生成待处理短文本相应的风控聊天短文本。将风控聊天短文本与待处理短文本进行比对,以根据比对结果,确定风控主体是否为风险用户。否为风险用户。否为风险用户。

【技术实现步骤摘要】
一种基于短文本特征提取的风控处理方法及设备


[0001]本申请涉及信息安全防护
,尤其涉及一种基于短文本特征提取的风控处理方法及设备。

技术介绍

[0002]风险控制(风控)是指风险管理者采用各种措施和方法,消灭或减少风险事件发生的各种可能性,或风险控制者减少风险事件发生时造成的损失。但是,总会有些事情是不能控制的,风险总是存在的。作为管理者会采取各种措施减小风险事件发生的可能性,或者把可能的损失控制在一定的范围内,以避免在风险事件发生时带来的难以承担的损失。
[0003]目前,互联网的发展,带动了经济的迅速发展,同时也给风控带来了巨大挑战。互联网大数据时代的到来,使得每个人所能够掌握的信息存在严重的不对称现象,人们在线上进行的活动、业务等,往往存在各种风险。在线上聊天过程中,双方都不能确定是否是本人正在与自己聊天,而进行转账或私密文件传输或私密信息交互时,为了确认对方是否本人往往需要进行电话或者视频通话的方式。但是,在一些不方便的场景下,对方可能不能进行电话或视频通话,这样的增加了信息传输的风险。
[0004]基于此,亟需一种能够在线上聊天过程中,对聊天内容的风控处理方法,通过识别对方身份,提高聊天中双方的信息交换的安全性。

技术实现思路

[0005]本申请实施例提供了一种基于短文本特征提取的风控处理方法及设备,用于解决线上聊天的信息交互存在风险,线上聊天的安全性低的技术问题。
[0006]一方面,本申请提供了一种基于短文本特征提取的风控处理方法,该方法包括:获取风控主体的待处理短文本。将待处理短文本输入预设的短文本识别模型,确定待处理短文本的第一意图。确定风控主体的若干待测信息。其中,待测信息来自风控主体发表的动态、历史聊天记录。根据预设的用户画像模型以及各待测信息,生成风控主体所对应的用户画像数据。根据用户画像数据、各待测信息以及短文本识别模型,确定风控主体的若干第二意图。将第一意图与各第二意图进行匹配,以确定第一意图是否存在匹配度大于第一预设阈值的第二意图。在确定第一意图存在匹配度大于第一预设阈值的第二意图的情况下,根据各待测信息中的短文本,生成待处理短文本相应的风控聊天短文本。其中,风控聊天短文本用于表达第一意图。将风控聊天短文本与待处理短文本进行比对,以根据风控聊天短文本与待处理短文本的比对结果,确定风控主体是否为风险用户。
[0007]在本申请的一种实现方式中,将各待测信息进行分词处理,并确定分词处理后的各待测信息中的第一关键词。确定各待测信息中第一关键词相应的共现邻接词。其中,共现邻接词为各待测信息中第一关键词以外的关键词。根据各第一关键词及其共现邻接词,生成若干关键词三元组。其中,关键词三元组由一个第一关键词及其相应的两个共现邻接词,在各待测信息中的两两之间的共现次数组成。根据各关键词三元组,生成若干主题词语集。
其中,主题词语集包括第一关键词相应的各关键词三元组中,两个共现邻接词组成的词对。基于待测信息中的词语在主题词语集的词对共现次数,确定待测信息的主题分布概率。根据主题分布概率,确定待测信息的主题标签,以通过各主题标签,生成若干第一待定意图,以根据各第一待定意图及用户画像数据,确定若干第二意图。
[0008]在本申请的一种实现方式中,通过短文本识别模型,确定用户画像数据相应的若干第二待定意图。其中,短文本识别模型为预先训练好的用于语义意图识别的神经网络模型。基于预设意图类型库以及第二待定意图,确定风控主体的若干第二意图。
[0009]在本申请的一种实现方式中,确定风控主体在区块链平台的主体账户。通过区块链平台中的第三方节点,获取主体账户的若干待测信息。其中,待测信息至少包括以下一项或多项:发表文章摘要、网站评论、聊天记录。确定风控主体是否为风险用户之后,方法还包括:将风控聊天短文本与待处理短文本比对结果,发送至区块链平台的第三方节点。接收第三方节点基于比对结果生成的反馈信息。其中,反馈信息包括:短信、语音。确定反馈信息是否为可信比对结果,以确定比对结果的可信度。其中,可信度用于确定风控主体是否为风险用户。
[0010]在本申请的一种实现方式中,通过互联网爬取技术,获取待处理短文本的来源平台的若干用户特征数据。其中,用户特征数据包括:用户评论、发表文章、发表动态。或者,通过预设特征样本库,确定若干用户特征数据。将用户特征数据进行短文本特征提取,并将短文本特征提取后的用户特征数据输入用户画像模型,对用户画像模型进行训练,直至通过用户画像模型,输出用户特征数据的用户画像数据的准确度大于预设值。
[0011]在本申请的一种实现方式中,根据风控主体相应的信息交互终端的选取操作,确定风控主体的各聊天文本。基于信息交互终端的记录时间戳,将各聊天文本中满足预设要求的文本进行归类处理,得到若干文本块。其中,预设要求为各聊天文本相应的记录时间戳的间隔小于预设时间值。确定各文本块中各词语的出现频率是否满足预设条件。预设条件为文本块中词语的出现频率为文本块中各词语的出现频率的最大值。根据满足预设条件的各词语,生成待关联序列。确定待关联序列中各词语的余弦相似度大于第二预设阈值的各词语,相应的文本块,作为待处理文本块。根据待处理文本块相应的记录时间戳,生成待处理短文本。
[0012]在本申请的一种实现方式中,根据各待测信息中的短文本中,各待测词语的分类属性及各待测标点符号的使用频率,对各待测词语及各待测标点符号分别进行分类处理。其中,分类属性至少包括:词性、词语频率、词语情感。分类处理后的各待测词语以及各待测标点符号,输入预先训练的编码器,得到编码向量。将编码向量输入训练好的解码器,确定风控聊天短文本。其中,解码器用于输出与第一意图相应的风控聊天短文本。
[0013]在本申请的一种实现方式中,生成分享控件,并发送分享控件至待处理短文本相应的信息交互终端的显示界面。基于信息交互终端的用户对分享控件的操作,将待处理短文本的比对结果,发送至第三方节点相应平台。
[0014]在本申请的一种实现方式中,将风控聊天短文本与待处理短文本分别进行分词处理,得到两组待比对文本组。将两组待比对文本组,按照语序,比对待比对文本组中各词语及各标点符号的相似度。其中,相似度至少包括以下一项或多项:词语或标点符号在文本中的位置数据的相似度、词语或标点符号的使用频率的相似度。在相似度大于第三预设阈值
的情况下,确定风控主体不是风险用户。
[0015]另一方面,本申请实施例还提供了一种基于短文本特征提取的风控处理设备,该设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:获取风控主体的待处理短文本。将待处理短文本输入预设的短文本识别模型,确定待处理短文本的第一意图。确定风控主体的若干待测信息。其中,待测信息来自风控主体发表的动态、历史聊天记录。根据预设的用户画像模型以及各待测信息,生成风控主体所对应的用户画像数据。根据用户画像数据、各待测信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于短文本特征提取的风控处理方法,其特征在于,所述方法包括:获取风控主体的待处理短文本;将所述待处理短文本输入预设的短文本识别模型,确定所述待处理短文本的第一意图;确定所述风控主体的若干待测信息;其中,所述待测信息来自所述风控主体发表的动态、历史聊天记录;根据预设的用户画像模型以及各所述待测信息,生成所述风控主体所对应的用户画像数据;根据所述用户画像数据、各所述待测信息以及所述短文本识别模型,确定所述风控主体的若干第二意图;将所述第一意图与各所述第二意图进行匹配,以确定所述第一意图是否存在匹配度大于第一预设阈值的所述第二意图;若存在,根据各所述待测信息中的短文本,生成所述待处理短文本相应的风控聊天短文本;其中,所述风控聊天短文本用于表达所述第一意图;将所述风控聊天短文本与所述待处理短文本进行比对,以根据所述风控聊天短文本与所述待处理短文本的比对结果,确定所述风控主体是否为风险用户。2.根据权利要求1所述方法,其特征在于,确定所述风控主体的若干第二意图,具体包括:将各所述待测信息进行分词处理,并确定分词处理后的各所述待测信息中的第一关键词;确定各所述待测信息中所述第一关键词相应的共现邻接词;其中,所述共现邻接词为各所述待测信息中所述第一关键词以外的关键词;根据各所述第一关键词及其所述共现邻接词,生成若干关键词三元组;其中,所述关键词三元组由一个所述第一关键词及其相应的两个所述共现邻接词,在各所述待测信息中的两两之间的共现次数组成;根据各所述关键词三元组,生成若干主题词语集;其中,所述主题词语集包括所述第一关键词相应的各所述关键词三元组中,两个所述共现邻接词组成的词对;基于所述待测信息中的词语在所述主题词语集的词对共现次数,确定所述待测信息的主题分布概率;根据所述主题分布概率,确定所述待测信息的主题标签,以通过各所述主题标签,生成若干第一待定意图,以根据各所述第一待定意图及所述用户画像数据,确定若干所述第二意图。3.根据权利要求1所述方法,其特征在于,根据所述用户画像数据、各所述待测信息以及所述短文本识别模型,确定所述风控主体的若干第二意图,具体包括:通过所述短文本识别模型,确定所述用户画像数据相应的若干第二待定意图;其中,所述短文本识别模型为预先训练好的用于语义意图识别的神经网络模型;基于预设意图类型库以及所述第二待定意图,确定所述风控主体的若干所述第二意图。4.根据权利要求1所述方法,其特征在于,所述方法应用于预先搭建的区块链平台,所
述风控主体对应于所述区块链平台的任一节点;确定所述风控主体的若干待测信息,具体包括:确定所述风控主体在所述区块链平台的主体账户;通过所述区块链平台中的第三方节点,获取所述主体账户的若干待测信息;其中,所述待测信息至少包括以下一项或多项:发表文章摘要、网站评论、聊天记录;确定所述风控主体是否为风险用户之后,所述方法还包括:将所述风控聊天短文本与所述待处理短文本比对结果,发送至所述区块链平台的第三方节点;接收所述第三方节点基于所述比对结果生成的反馈信息;其中,所述反馈信息包括:短信、语音;确定所述反馈信息是否为可信比对结果,以确定所述比对结果的可信度;其中,所述可信度用于确定所述风控主体是否为风险用户。5.根据权利要求1所述方法,其特征在于,根据预设的用户画像模型以及各所述待测信息,生成所述风控主体所对应的用户画像数据之前,所述方法还包括:通过互联网爬取技术,获取所述待处理短文本的来源平台的若干用户特征数据;其中,所述用户特征数据包括:用户评论、发表文章、发表动态;或者,通过预设特征样本库,确定若干用户特征数据;将所述用户特征数据进行短文本特征提取,并将短文本特征提取后的所述用户特征数据输入所述用户画像模型,对所述用户...

【专利技术属性】
技术研发人员:周维浩
申请(专利权)人:杭银消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1