基于语义特性提取位置指示词的位置推断方法技术

技术编号：21432331 阅读：62 留言：0更新日期：2019-06-22 11:57

本发明专利技术公开了一种基于多重干扰词过滤的位置推断方法，包括如下步骤数据预处理、词语筛选、位置指示词提取、分类器训练和最后的用户位置推断。本发明专利技术首先对文本数据进行预处理，得到词语集；其次，根据信息增益率对词语进行初筛；然后，利用word2vec构建词向量，通过聚类将语义相似的词语聚到一起，并利用序列后向的包裹式特征选择方式从聚类形成的簇中提取位置指示词；接着，利用位置指示词训练朴素贝叶斯分类器；最后，利用训练好的分类器进行用户位置推断。本发明专利技术充分利用word2vec来表述词语的语义特性，可有效提升位置指示词提取的准确性，从而提升位置推断的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义特性提取位置指示词的位置推断方法
本专利技术涉及位置推断
，尤其涉及基于语义特性提取指示位置词的位置推断方法。
技术介绍
目前，近年来,以Twitter、Facebook和新浪微博等为代表的国内外社交媒体，发展十分迅猛,为用户提供了如发布动态、位置签到、评论互动等服务，给人们的生活带来了极大的便利。这些服务形成的数据具有极高的使用价值，其中蕴含的位置信息可以将虚拟用户与现实世界关联起来，应用于监测居民的健康状况、推荐周边活动、识别紧急状况发生地、检测地区性社团、预测各地区的选举结果等方面。然而，由于社交媒体对用户发布的位置数据没有严格的要求，用户可能不提供位置或提供错误的位置。相关文献的统计结果表明，美国的Twitter数据集中只有21％的用户在注册资料中提供了位置，而且这些位置也不完全准确。此外，社交媒体用户发布的文本中带有位置签到标签的数据也十分稀疏，Ryoo等人观察到其数据集中只有大约0.4％的推文带有位置签到标签，类似的观察结果也出现在文中。然而，用户位置可以通过文本中出现的某些词语，如方言、当地建筑名、特色小吃名、城市名等进行推断。除了文本，其他类型的社交媒体数据，如关注/粉丝、教育信息、职业信息等也可以推断用户位置。如何利用社交媒体数据推断用户位置是一个非常值得研究的问题，也具有重要的理论和现实意义。目前，社交媒体用户位置推断的粒度一般在城市级，有时在州级或国家级。社交媒体用户位置推断的方法主要有基于朋友关系的位置推断、基于用户文本的位置推断和基于多种社交媒体数据融合的位置推断等。文假设互相关注的用户之间是真实位置邻近的朋友关系，...

【技术保护点】
1.基于语义特性提取位置指示词的位置推断方法，其特征在于：包括如下步骤：A：数据预处理，对所有用户发布的所有推文数据进行预处理；B：词语筛选，基于信息增益率对词语进行初步筛选；C：位置指示词提取，利用word2vec构建词向量，基于语义特性提取位置指示词；D:分类器训练，利用位置指示词训练朴素贝叶斯分类器；E：用户位置推断，利用训练好的朴素贝叶斯分类器推断用户位置。

【技术特征摘要】
1.基于语义特性提取位置指示词的位置推断方法，其特征在于：包括如下步骤：A：数据预处理，对所有用户发布的所有推文数据进行预处理；B：词语筛选，基于信息增益率对词语进行初步筛选；C：位置指示词提取，利用word2vec构建词向量，基于语义特性提取位置指示词；D:分类器训练，利用位置指示词训练朴素贝叶斯分类器；E：用户位置推断，利用训练好的朴素贝叶斯分类器推断用户位置。2.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法，其特征在于：所述步骤A中,数据预处理具体包括如下步骤：A1，聚合推文：将每个用户发布的所有推文聚合为一个文本，有多少个用户就有多少个文本；A2，对标记后的用户文本进行分词：英文按空格分隔划分词语；中文利用现有的汉语分词工具进行分词；A3,移除停用词：对于使用不同语言的社交媒体用户文本，需要根据相应的语言构建相应的停用词词表，基于构建的停用词词表，移除停用词：A4,移除低频词：移除词频小于阈值N1的词语。3.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法，其特征在于：所述步骤B中,词语初步筛选具体包括如下步骤：B1,计算信息增益率；B2,词语排序：按照词语信息增益率的大小，对词语进行降序排序；B3,设置阈值筛选词语：设置百分比阈值，选出信息增益率前N2％的词语。4.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法，其特征在于：所述步骤C中,词语提取具体包括如下步骤：C1,计算词向量：将训练集用户的tweets作为语料库，利用word2vec计算语料库中每个词语的词向量；C2,聚类词语：利用现有的聚类算法基于词向量将筛选得到的词语聚为k个簇，语义相似的词语会被聚到一起，每一个簇内的词语可看作...

【专利技术属性】
技术研发人员：刘粉林，田合婵，乔亚琼，朱玛，罗向阳，
申请(专利权)人：罗向阳，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人