一种基于语义分析技术的赌博人员识别方法技术

技术编号:21547886 阅读:24 留言:0更新日期:2019-07-06 21:26
本发明专利技术公开了一种基于语义分析技术的赌博人员识别方法,属于移动通信网及外部大数据技术领域。本发明专利技术的基于语义分析技术的赌博人员识别方法,该方法采用爬虫技术爬取失信人员信息,构建失信人员行为数据库;采用自然语言处理技术和文本挖掘技术进行失信事实数据处理,得到分词结果,与赌博关键词进行短语相似度匹配,匹配成功则保留分词结果完善赌博关键词库,抽取赌博人员关键信息,依据抽取的赌博人员关键信息进行赌博用户多维验真。该发明专利技术的基于语义分析技术的赌博人员识别方法能够为金融征信、反欺诈等提供高价值的基础数据支撑,从而促进社会稳定、经济发展,具有很好的推广应用价值。

A Gambling Personnel Recognition Method Based on Semantic Analysis Technology

【技术实现步骤摘要】
一种基于语义分析技术的赌博人员识别方法
本专利技术涉及移动通信网及外部大数据
,具体提供一种基于语义分析技术的赌博人员识别方法。
技术介绍
赌博具有很大的不确定性,赌博成为了社会公害之一。特别是近年来,赌博群体数量、区域分布、群体结构均呈现蔓延发展的态势,由赌博滋生的金融欺诈更是层出不穷,给社会的稳定及经济发展带来了很多的不良影响。现今的金融征信评估维度大而全,但是缺少细化的特性的评估维度,无法应对不同场景的特殊需求,例如,创业失败导致的贷款未还失信人群和赌博导致的贷款未还失信人群,同样为失信,但是在借贷场景下,创业失败导致的贷款未还失信的征信等级应高于赌博导致的贷款未还失信的征信等级,在金融征信等经济领域不能很好的分辨出征信等级,导致社会中诈骗等情况的发生,给社会带来诸多不稳定因素。
技术实现思路
本专利技术的技术任务是针对上述存在的问题,提供一种能够为金融征信、反欺诈等提供高价值的基础数据支撑,从而促进社会稳定、经济发展的基于语义分析技术的赌博人员识别方法。为实现上述目的,本专利技术提供了如下技术方案:一种基于语义分析技术的赌博人员识别方法,该方法采用爬虫技术爬取失信人员信息,构建失信人员行为数据库;采用自然语言处理技术和文本挖掘技术进行失信事实数据处理,得到分词结果,与赌博关键词进行短语相似度匹配,匹配成功则保留分词结果完善赌博关键词库,抽取赌博人员关键信息,依据抽取的赌博人员关键信息进行赌博用户多维验真。该基于语义分析技术的赌博人员识别方法在深入分析金融征信传统分析维度和效果上的壁垒后,引入大量失信数据,通过自然语言处理和文本挖掘技术实现赌博用户精准识别,为金融征信、反欺诈等提供基础数据支撑。作为优选,该方法具体包括以下步骤:S1、失信人员行为数据库构建;S2、失信事实语义分析;S3、赌博用户识别;S4、赌博关键信息抽取;S5、赌博用户多维验真。作为优选,步骤S1中,失信人员行为数据库构建过程中,通过爬虫技术对公开的失信人员信息进行数据爬取,获取失信人员信息,构建失信人员行为数据库。通过爬虫技术,对公开的失信黑名单、失信被执行人、人民法院、检察院公式的法律文书、重要案件进行数据爬取、处理,获取失信人员信息,包括姓名、性别、身份证号码、家庭地址、出生日期、失信事实、失信时间、公示截止时间、认定单位,建立失信人员行为数据库。其中,针对部分图片格式的数据,需要采用OCR技术进行图片转文本。作为优选,步骤S2中,针对爬虫技术进行数据爬取的失信人员信息,利用自然语言统计模式,从失信事实数据中提取赌博关键信息,进行格式化处理,具体过程为:1)中文分词库构建;2)分词处理;3)分词向量构建。针对非格式化的、无法通过固定规则提取有效信息的失信事实数据,利用自然语言的统计模式,使用分词算法、文本挖掘技术从失信事实数据中提取赌博关键信息,并进行格式化处理。作为优选,中文分词库构建利用公开词库收集中文通用词语,基于预处理后的中文通用词语,进行赌博关键词添加。该过程中,利用搜狗输入法、高校公开词库、互联网公开词库收集中文通用词语,基于预处理后的中文通用词语,进行赌博关键词添加,以hash结构构件中文分词词库,作为分词的基础。作为优选,分词处理过程针对中文分词库,使用中文分词算法对失信事实数据进行分词处理,分词向量构建过程中将分词结果中的词转化为稠密向量,挖掘出具有类似语义的关键信息,完善赌博关键词库。针对中文分词词库,使用基于隐马尔科夫模型的中文分词算法对失信事实文本数据进行分词处理,将文本分为主语、谓语、宾语、语气词等。在分词过程中,进行词法歧义、句法歧义、语义歧义、语音歧义消除,提高分词准确率;歧义消除后,为分词结果中的每个单词标注一个正确的词性,即确定每个词是名词、动词、形容词或者其他词性。词性标注后,根据赌博用户识别场景,把一些没有意义的词去掉,包括句号、语气词、形容词等。作为优选,步骤S3中赌博用户识别中,通过已构建的赌博关键词库,与分词后的结果进行短语相似度匹配,匹配符合赌博特征,则保留分词结果,进行信息抽取。若不匹配赌博特性,则不进行处理。作为优选,步骤S4中,赌博关键信息抽取包括实体抽取和实体关系抽取。实体抽取包括地点、人物、组织、时间、数量词等,抽取赌博人员的姓名、性别、身份号码、居住地址、所属地市、关键时间地点。实体关系抽取包括抽取赌博人员的行为信息,如哪个人在什么时间、什么地方进行赌博。作为优选,步骤S5中,赌博用户多维验真基于抽取的赌博关键信息,结合运营商数据进行多维度校验。包括姓名、性别、身份证对比、居住地址和常驻位置对比,所述地市和归属地对比,关键事件地点时空交叉验证,支撑赌博用户多维验真。与现有技术相比,本专利技术的基于语义分析技术的赌博人员识别方法具有以下突出的有益效果:所述基于语义分析技术的赌博人员识别方法深度分析赌博影响、金融欺诈、金融征信的矛盾与冲突,创新实现了基于爬虫技术、自然语言处理技术和文本挖掘技术的赌博用户识别,再结合关键信息抽取与多维验真手段,有效提高赌博样本准确性,为金融征信、反欺诈等提供高价值的基础数据支撑,具有良好的推广应用价值。附图说明图1是本专利技术所述基于语义分析技术的赌博人员识别方法的流程图。具体实施方式下面将结合附图和实施例,对本专利技术的基于语义分析技术的赌博人员识别方法作进一步详细说明。实施例如图1所示,本专利技术的基于语义分析技术的赌博人员识别方法,采用爬虫技术爬取失信人员信息,构建失信人员行为数据库;采用自然语言处理技术和文本挖掘技术进行失信事实数据处理,得到分词结果,与赌博关键词进行短语相似度匹配,匹配成功则保留分词结果完善赌博关键词库,抽取赌博人员关键信息,依据抽取的赌博人员关键信息进行赌博用户多维验真。具体包括以下步骤:S1、失信人员行为数据库构建。通过爬虫技术,对公开的失信黑名单、失信被执行人、人民法院、检察院公式的法律文书、重要案件进行数据爬取、处理,获取失信人员信息,包括姓名、性别、身份证号码、家庭地址、出生日期、失信事实、失信时间、公示截止时间、认定单位,建立失信人员行为数据库。其中,针对部分图片格式的数据,需要采用OCR技术进行图片转文本。S2、失信事实语义分析。针对非格式化的,无法通过固定规则提取有效信息的失信事实数据,利用自然语言统计模式,使用分词算法、文本挖掘技术从失信事实数据中提取赌博关键信息,进行格式化处理。具体过程为:1)中文分词库构建;2)分词处理;3)分词向量构建。中文分词库构建利用搜狗输入法、高校公开词库、互联网公开词库收集中文通用词语,基于预处理后的中文通用词语,进行赌博关键词添加,以hash结构构件中文分词词库,作为分词的基础。分词处理过程针对中文分词库,使用基于隐马尔科夫模型的中文分词算法对失信事实文本数据进行分词处理,将文本分为主语、谓语、宾语、语气词等。在分词过程中,进行词法歧义、句法歧义、语义歧义、语音歧义消除,提高分词准确率;歧义消除后,为分词结果中的每个单词标注一个正确的词性,即确定每个词是名词、动词、形容词或者其他词性。词性标注后,根据赌博用户识别场景,把一些没有意义的词去掉,包括句号、语气词、形容词等。分词向量构建将分词结果中的词转化为稠密向量,借助于词向量距离远近的特性,可以挖掘出具有类似语义的一组关键本文档来自技高网...

【技术保护点】
1.一种基于语义分析技术的赌博人员识别方法,其特征在于:该方法采用爬虫技术爬取失信人员信息,构建失信人员行为数据库;采用自然语言处理技术和文本挖掘技术进行失信事实数据处理,得到分词结果,与赌博关键词进行短语相似度匹配,匹配成功则保留分词结果完善赌博关键词库,抽取赌博人员关键信息,依据抽取的赌博人员关键信息进行赌博用户多维验真。

【技术特征摘要】
1.一种基于语义分析技术的赌博人员识别方法,其特征在于:该方法采用爬虫技术爬取失信人员信息,构建失信人员行为数据库;采用自然语言处理技术和文本挖掘技术进行失信事实数据处理,得到分词结果,与赌博关键词进行短语相似度匹配,匹配成功则保留分词结果完善赌博关键词库,抽取赌博人员关键信息,依据抽取的赌博人员关键信息进行赌博用户多维验真。2.根据权利要求1所述的基于语义分析技术的赌博人员识别方法,其特征在于:该方法具体包括以下步骤:S1、失信人员行为数据库构建;S2、失信事实语义分析;S3、赌博用户识别;S4、赌博关键信息抽取;S5、赌博用户多维验真。3.根据权利要求2所述的基于语义分析技术的赌博人员识别方法,其特征在于:步骤S1中,失信人员行为数据库构建过程中,通过爬虫技术对公开的失信人员信息进行数据爬取,获取失信人员信息,构建失信人员行为数据库。4.根据权利要求3所述的基于语义分析技术的赌博人员识别方法,其特征在于:步骤S2中,针对爬虫技术进行数据爬取的失信人员信息,利用自然语言统计模式,从失信事实数据中提取赌博关键信息,进行格式化处理,具体过...

【专利技术属性】
技术研发人员:沈林江张笑笑
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1