一种贷款中介的识别方法、系统、设备及存储介质技术方案

技术编号:23512799 阅读:15 留言:0更新日期:2020-03-18 00:06
本发明专利技术实施例公开了一种贷款中介的识别方法、系统、设备及存储介质。该贷款中介的识别方法包括:构建第一记账数据的文本特征向量;基于K‑Means算法从所述文本特征向量中聚类出第一中介用户集;通过LDA模型从所述第一中介用户集中提取第二中介用户集。本发明专利技术实施例实现了提高贷款中介的识别准确率。

An identification method, system, equipment and storage medium of loan intermediary

【技术实现步骤摘要】
一种贷款中介的识别方法、系统、设备及存储介质
本专利技术实施例涉及互联网信息技术,尤其涉及一种贷款黑中介的识别方法、系统、设备及存储介质。
技术介绍
随着互联网金融的快速发展,基于互联网开展的借贷业务越来越多,由于信息上的不对称,出现越来越多的中介代办行为,随着中介高额返利的吸引出现越来越多的黑中介团伙骗贷行为。有报导指出当前金融科技领域坏账率约在10%-15%,其中60%-70%的坏账就是由黑中介“创造”;甚至多家金融科技平台借款申请人里,10%-15%都由黑中介“幕后操纵”。360金融发布的《2018智能反欺诈洞察报告》指出,黑中介存在以推荐贷款口子为由,骗取用户信息、购买用户信息进行骗贷,而信用意识相对薄弱的三四线城市人群以及偏远地区,如农村的用户往往成为黑中介骗贷受害者。现有技术中,中介的识别方法大多来源于人工标识,主要来源有客服,公开的网络数据爬虫等。上述方法都属于已知用户是中介,主要动作是采集人工标注结合传统朴素贝叶斯等有监督分类模型训练人工标注数据来识别黑中介,有监督学习方法只能学习到样本知识,无法学习样本以外的知识,这对训练样本提出了较高要求,训练样本直接决定模型泛化效果,实际操作较复杂,且识别的准确率较低。
技术实现思路
本专利技术实施例提供一种贷款黑中介的识别方法、系统、设备及存储介质,以实现提高贷款中介的识别准确率。为达此目的,本专利技术实施例提供了一种贷款黑中介的识别方法,该识别方法包括:构建第一记账数据的文本特征向量;基于K-Means算法从所述文本特征向量中聚类出第一中介用户集;通过LDA模型从所述第一中介用户集中提取第二中介用户集。进一步的,所述构建第一记账数据的文本特征向量包括:获取中介用户的记账行为模式和第一记账数据;通过结巴分词方法和关键词过滤技术过滤所述第一记账数据中的混淆语义脏数据以得到第一文本数据;根据所述记账行为模式通过结巴分词方法构建所述第一文本数据的文本特征向量。进一步的,所述通过LDA模型从所述第一中介用户集中提取第二中介用户集包括:通过LDA模型对第一中介用户集的记账数据进行文本主题识别;从所述第一中介用户集中提取所述文本主题为中介主题的概率高于预设值的用户作为第二中介用户集。进一步的,所述通过LDA模型从所述第一中介用户集中提取第二中介用户集之后包括:从所述第二中介用户集中识别出黑中介用户。进一步的,所述从所述第二中介用户集中识别出黑中介用户包括:建立用户团伙信息;根据所述用户团伙信息对全部用户进行团伙划分;获取每个团伙内用户的贷后数据并根据所述贷后数据计算出每个团伙的欺诈率;将所述欺诈率大于预设值的团伙作为黑中介团伙,将所述黑中介团伙内属于所述第二中介用户集的用户作为黑中介用户。进一步的,所述建立用户团伙信息包括:获取全部用户的个人信息;根据所述个人信息通过社群划分算法建立用户团伙信息。进一步的,所述将所述欺诈率大于预设值的团伙作为黑中介团伙之后包括:根据所述黑中介团伙的欺诈率对所述黑中介团伙划分风险等级。一方面,本专利技术实施例还提供了一种贷款黑中介的识别系统,该识别系统包括:向量构建模块,用于构建第一记账数据的文本特征向量;用户集聚类模块,用于基于K-Means算法从所述文本特征向量中聚类出第一中介用户集;用户集提取模块,用于通过LDA模型从所述第一中介用户集中提取第二中介用户集。另一方面,本专利技术实施例还提供了一种贷款黑中介的识别设备,该识别设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例提供的识别方法。又一方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任一实施例提供的识别方法。本专利技术实施例通过构建第一记账数据的文本特征向量;基于K-Means算法从所述文本特征向量中聚类出第一中介用户集;通过LDA模型从所述第一中介用户集中提取第二中介用户集,解决了现有的贷款中介识别准确率不高的问题,实现了提高贷款中介的识别准确率的效果。附图说明图1是本专利技术实施例一提供的一种贷款中介的识别方法的流程示意图;图2是本专利技术实施例二提供的一种贷款中介的识别方法的流程示意图;图3是本专利技术实施例三提供的一种贷款中介的识别系统的结构示意图;图4为本专利技术实施例四提供的一种贷款中介的识别设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一模块称为第二模块,且类似地,可将第二模块称为第一模块。第一模块和第二模块两者都是模块,但其不是同一模块。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。实施例一如图1所示,本专利技术实施例一提供了一种贷款中介的识别方法,该识别方法包括:S110、构建第一记账数据的文本特征向量。本实施例中,第一记账数据可以包括多个用户的记账数据。示例性的,用户A的第一文本数据包括“甲宇友信批款9万返点”、“乙放款5万丙返点”和“丁放款5千1千费用250中介费”,通过结巴分词方法可以得到用户A的词语“甲”、“宇友信”、“批款”、“9万”、“返点”、“乙”、“放款”、“5万”、“丙”、“返点”、“丁”、“放款”、“5千”、“1千”、“费用”、“250”和“中介费”,可构建例如“中文姓名个数”和“贷款中介词个数”两个不同维度的特征向量,其中中文姓名个数有4个,贷款中介词个数有6个,那么用户A的文本特征向量就是【4,6】。S120、基于K-Means算法从所述文本特征向量中聚类出第一中介本文档来自技高网...

【技术保护点】
1.一种贷款中介的识别方法,其特征在于,包括:/n构建第一记账数据的文本特征向量;/n基于K-Means算法从所述文本特征向量中聚类出第一中介用户集;/n通过LDA模型从所述第一中介用户集中提取第二中介用户集。/n

【技术特征摘要】
1.一种贷款中介的识别方法,其特征在于,包括:
构建第一记账数据的文本特征向量;
基于K-Means算法从所述文本特征向量中聚类出第一中介用户集;
通过LDA模型从所述第一中介用户集中提取第二中介用户集。


2.根据权利要求1所述的识别方法,其特征在于,所述构建第一记账数据的文本特征向量包括:
获取中介用户的记账行为模式和第一记账数据;
通过结巴分词方法和关键词过滤技术过滤所述第一记账数据中的混淆语义脏数据以得到第一文本数据;
根据所述记账行为模式通过结巴分词方法构建所述第一文本数据的文本特征向量。


3.根据权利要求1所述的识别方法,其特征在于,所述通过LDA模型从所述第一中介用户集中提取第二中介用户集包括:
通过LDA模型对第一中介用户集的记账数据进行文本主题识别;
从所述第一中介用户集中提取所述文本主题为中介主题的概率高于预设值的用户作为第二中介用户集。


4.根据权利要求1所述的识别方法,其特征在于,所述通过LDA模型从所述第一中介用户集中提取第二中介用户集之后包括:
从所述第二中介用户集中识别出黑中介用户。


5.根据权利要求4所述的识别方法,其特征在于,所述从所述第二中介用户集中识别出黑中介用户包括:
建立用户团伙信息;
根据所述用户团伙信息对全部用户进行团伙划分;
获取每个团伙内用户的贷后数...

【专利技术属性】
技术研发人员:韦雪碧
申请(专利权)人:随手北京信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1