【技术实现步骤摘要】
用户地理信息分析与文本挖掘方法和装置
本专利技术涉及数据处理
,具体涉及一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法和装置。
技术介绍
随着科技的进步和发展,大数据的应用越来越广泛,大数据时代最显著的特征是整个社会中信息化数据量的急剧增加。用户地理信息反映了用户的住宅地址、通讯地址和实时地址等,其中,住宅地址和通讯地址可以反映用户的居住信息,而通过解析用户IP地址(InternetProtocolAddress,又译为网际协议地址)获得的实时地址反映了用户发起需求时的位置信息。随着移动互联网的迅速普及,用户随时随地均可以发起需求,用户地理信息以指数级的速度增长。而用户地理信息非结构化数据,多以汉字文本的形式存储,给数据处理增加了难度。此外,现有用户地理信息分析不够充分,无法反映用户的社群特征。
技术实现思路
有鉴于此,提供一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法和装置,以解决现有技术中用户地理信息分析不够充分以及无法反应用户的社群特征的问题。本专利技术采用如下技术方案:第一方面,本申请实施例提供了一种基于自然语言处理的用户地理信息分析 ...
【技术保护点】
1.一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法,其特征在于,包括:获取输入的地址语句;若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。
【技术特征摘要】
1.一种基于自然语言处理的用户地理信息分析与文本挖掘研究方法,其特征在于,包括:获取输入的地址语句;若所述地址语句为英文地址语句,则进行分词处理,获取所述英文地址语句的词向量,根据预先构造的翻译词典,对所述词向量中的每个词元素进行翻译,以将所述每个词元素转换成对应的中文词汇的拼音字符串;针对所述拼音字符串,根据预先计算的词元素索引向量生成对应的权值分配规则,以确定权值向量;根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句;应用所述目标地址语句,分析用户地理信息和挖掘对应的文本信息。2.根据权利要求1所述的方法,其特征在于,获取输入的地址语句之后,还包括:若所述地址语句为中文地址语句,则将所述中文地址语句转换成拼音字符串。3.根据权利要求1所述的方法,其特征在于,以确定目标地址语句,包括:将相似度与预设相似度阈值进行比较,确定大于预设相似度阈值的任意两个地址语句为目标地址语句。4.根据权利要求1所述的方法,其特征在于,根据所述权值向量和所述词元素的存在性向量,计算任意两个地址语句的相似度,以确定目标地址语句,之前,还包括:计算所述词元素的存在性向量。5.根据权利要求4所述的方法,其特征在于,计算所述词元素的存在性向量,包括:遍历所述英文地址语句对应的词向量;判断在所述中文地址语句对应的拼音字符串中是否存在所述词向量;若是,则将所述词向量确定为存在性向量,并将所述词向量中的词元素值确定为所述词向量在所述拼音字符串中的起始索引位置。6.一种基于自然语言处理的用户地理信息分析与文本挖掘研究装置...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:哈尔滨哈银消费金融有限责任公司,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。