【技术实现步骤摘要】
基于嵌套命名实体识别技术的个人信用评估方法及系统
[0001]本专利技术涉及个人信用评估
,特别涉及一种基于嵌套命名实体识别技术的个人信用评估方法及系统。
技术介绍
[0002]传统的个人信用评分仅利用少量的数据,通过人工手段建立规则及审核,或者利用结构化数据建模,而对社交媒体文本数据的利用较少。随着互联网技术的发展,个人在互联网上的活动痕迹越发频繁,存在大量未被利用的社交媒体文本数据。社交媒体文本数据内涵丰富,不仅包含个人的生活细节、兴趣爱好、时事态度、语言习惯,而且还隐含了用户的受教育程度、消费状态、道德水平。针对海量社交媒体文本数据的信用建模,目前大多采用基于文本的向量化技术,建立文本评分模型,或者使用关键词提取技术,提取重要词汇进入规则审核。在利用社交媒体文本数据的技术方案中,基于黑盒模型建模的方案居多,信息抽取类的方案较少。基于黑盒模型的方案,通常是将词汇转化为词向量,利用历史数据训练模型,预测个人的信用分和逾期概率。基于信息抽取的方案,指的是以关键词提取、实体识别、句法分析为主,抽取模型中的关键词汇、关键实 ...
【技术保护点】
【技术特征摘要】
1.一种基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,包括:清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;统计所述复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。2.根据权利要求1所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述清洗获取的用户社交媒体文本数据的步骤具体包括:在取得用户授权后,获取用户社交媒体文本数据;去除所述社交媒体文本数据中的表情符号,拆分所述社交媒体文本数据中的链接文本,纠正所述社交媒体文本数据中的错误文本,判定所述社交媒体文本数据中的句子、字词和词性,利用字转向量技术将所述社交媒体文本数据中的字生成字向量。3.根据权利要求2所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体的步骤具体包括:利用二部平面图网络,识别出所述社交媒体文本数据中具有最大覆盖范围且与个人信用相关的命名实体;在所述具有最大覆盖范围的命名实体内部构造实体图和对整句文本构造邻接图,并根据所述实体图和邻接图的传入节点及传出节点的属性,构建所述实体图和邻接图的当前节点的特征;整合所述实体图和邻接图的当前节点的特征,并根据整合后的所述具有最大覆盖范围的命名实体内部当前节点的特征,建立文字片段构成各类命名实体的概率函数;将概率最大的类型作为所述文字片段的可能类型,并推断出所述具有最大覆盖范围的命名实体是复合命名实体或简单命名实体;如果所述具有最大覆盖范围的命名实体是复合命名实体,那么还需要再根据所述文字片段可能类型的概率及概率比较结果,确定所述文字片段是否为简单命名实体及其类型。4.根据权利要求3所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述复合命名实体或简单命名实体至少包括公司名称、旅游景点、美食小吃、职业或疾病。5.根据权利要求3所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述识别出具有最大覆盖范围的命名实体采用的是双向长短期记忆网络与条件随机场组合的模式,通过如下步骤获得:将标注标签的训练数据和所述字向量,输入所述双向长短期记忆网络,获得上下文有关的、基于字的命名实体标签向量,再利用所述条件随机场增添约束,获得具有最大覆盖范围的命名实体。6.根据权利要求5所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述复合命名实体和简单命名实体的特征包括实体内容、嵌套模式和实体类型;其中,所述实体内容指的是所述复合命名实体和简单命名实体的具体内容;所述嵌套模式为所述
复合命名实体和简单命名实体的组成模式;所述实体类型为机构类实体或地点类实体。7.根据权利要求6所述的基于嵌套命名实体识别技术的个人信用评估方法,其特征在于,所述...
【专利技术属性】
技术研发人员:龙泉,林悦贤,姜辉,武广柱,
申请(专利权)人:北京微聚智汇科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。