当前位置: 首页 > 专利查询>罗向阳专利>正文

基于语义特性提取位置指示词的位置推断方法技术

技术编号:21432331 阅读:62 留言:0更新日期:2019-06-22 11:57
本发明专利技术公开了一种基于多重干扰词过滤的位置推断方法,包括如下步骤数据预处理、词语筛选、位置指示词提取、分类器训练和最后的用户位置推断。本发明专利技术首先对文本数据进行预处理,得到词语集;其次,根据信息增益率对词语进行初筛;然后,利用word2vec构建词向量,通过聚类将语义相似的词语聚到一起,并利用序列后向的包裹式特征选择方式从聚类形成的簇中提取位置指示词;接着,利用位置指示词训练朴素贝叶斯分类器;最后,利用训练好的分类器进行用户位置推断。本发明专利技术充分利用word2vec来表述词语的语义特性,可有效提升位置指示词提取的准确性,从而提升位置推断的准确性。

【技术实现步骤摘要】
基于语义特性提取位置指示词的位置推断方法
本专利技术涉及位置推断
,尤其涉及基于语义特性提取指示位置词的位置推断方法。
技术介绍
目前,近年来,以Twitter、Facebook和新浪微博等为代表的国内外社交媒体,发展十分迅猛,为用户提供了如发布动态、位置签到、评论互动等服务,给人们的生活带来了极大的便利。这些服务形成的数据具有极高的使用价值,其中蕴含的位置信息可以将虚拟用户与现实世界关联起来,应用于监测居民的健康状况、推荐周边活动、识别紧急状况发生地、检测地区性社团、预测各地区的选举结果等方面。然而,由于社交媒体对用户发布的位置数据没有严格的要求,用户可能不提供位置或提供错误的位置。相关文献的统计结果表明,美国的Twitter数据集中只有21%的用户在注册资料中提供了位置,而且这些位置也不完全准确。此外,社交媒体用户发布的文本中带有位置签到标签的数据也十分稀疏,Ryoo等人观察到其数据集中只有大约0.4%的推文带有位置签到标签,类似的观察结果也出现在文中。然而,用户位置可以通过文本中出现的某些词语,如方言、当地建筑名、特色小吃名、城市名等进行推断。除了文本,其他类型的社交媒体数据,如关注/粉丝、教育信息、职业信息等也可以推断用户位置。如何利用社交媒体数据推断用户位置是一个非常值得研究的问题,也具有重要的理论和现实意义。目前,社交媒体用户位置推断的粒度一般在城市级,有时在州级或国家级。社交媒体用户位置推断的方法主要有基于朋友关系的位置推断、基于用户文本的位置推断和基于多种社交媒体数据融合的位置推断等。文假设互相关注的用户之间是真实位置邻近的朋友关系,基于用户的关注/粉丝数据推断用户位置。然而,这种假设与事实不完全符合。Kong等人发现,两个互相关注的用户如果有一半以上的共同朋友,则距离邻近的概率为83%;如果仅有10%的共同朋友,距离邻近的概率则下降到2.4%。与Kong等人的结论相似,研究表明相互关注的用户之间的真实位置不一定邻近。大多数基于朋友关系推断用户位置的方法都依赖于用户的全部关注/粉丝数据的获取。然而,随着隐私保护力度的加强,已经无法获取用户的全部关注/粉丝数据,现有的基于朋友关系推断用户位置的方法受到极大的限制。由于用户文本的丰富性和可获取性,基于用户文本的位置推断方法一直被广泛研究。Cheng等人识别文本中的地标名词,并对词语的地理属性建模推断用户位置。但是,Cheng等人的方法需要人工标注构建分类器来识别地标名词;同时,该方法将各城市中心点坐标作为参照点来计算词语与位置的关系,参照点过少且与实际位置的偏差较大。Ryoo等人改进了Cheng等人的方法,利用推文中签到位置的坐标作为参照点,减少了与实际位置的偏差。但是,Ryoo等人的专利技术仅利用带位置签到标签的推文进行建模,忽略了不带位置签到标签推文中蕴含的位置信息。另一些专利技术基于用户文本提取能够指示位置的词语进行位置推断。相关文献中通常将这样的词语称为位置指示词或本地词语。一种位置指示词是直接指示位置的词语,如城市名、特有街道名、地标建筑名等;另一种是间接暗示特定位置的词语,如特色小吃名“烩面”,方言词语“合计”。例如,Ren等人基于词语的反向位置频率提取位置指示词推断用户位置。但是,提取的词语中仍存在大量反向位置频率较高的干扰词。受信息论的启发,Han等人认为位置指示词的分布应该比普通词更有偏向性,他们分别基于词语的信息增益率和最大熵提取位置指示词训练朴素贝叶斯分类器推断用户位置。相比词语的反向位置频率,词语的信息增益率和最大熵能够更好地提取位置指示词。现有研究比较了现有的基于位置指示词的位置推断方法,实验结果表明基于词语的信息增益率推断位置的方法表现最好。然而,现有方法都没有考虑词语上下文的特点,提取的词语中仍存在影响位置推断准确性的干扰词。此外,Chi等人将用户文本的特征细分为位置指示词、国家/城市名、#hashtag#、@mention四种,并基于信息增益率提取位置指示词,再基于频次选择特征训练朴素贝叶斯分类器推断位置。然而,Chi等人基于频次选择特征不能过滤高频的噪音,会影响位置推断的准确性,即现有的方法基于词语的词频、信息增益率、最大熵等提取位置指示词,没有考虑词语上下文的特点,存在大量干扰词,影响了位置推断的准确性。基于文本的方法往往将用户位置推断问题看作文本分类问题,将用户位置作为分类标签,从文本中提取位置指示词训练分类器进行位置推断。位置推断的准确性主要依赖于位置指示词提取的好坏。现有的方法基于词语的反向位置频率、最大熵、信息增益率等提取位置指示词。尽管这些方法考虑了位置指示词在统计分布上的特点,能够较好地提取词语实现位置推断。但是,这些方法可能忽略了一些与位置指示词统计分布相似的普通词语,干扰词的存在往往会影响位置推断的准确性。
技术实现思路
本专利技术的目的是提供一种基于语义特性提取位置指示词的位置推断方法,能够充分利用word2vec表述词语的语义特性,更准确地提取位置指示词,提高位置推断的准确性。本专利技术采用的技术方案为:基于语义特性提取位置指示词的位置推断方法,包括如下步骤:A:数据预处理,对所有用户发布的所有推文数据进行预处理;B:词语筛选,基于信息增益率对词语进行初步筛选;C:位置指示词提取,利用word2vec构建词向量,基于语义特性提取位置指示词;D:分类器训练,利用位置指示词训练朴素贝叶斯分类器;E:用户位置推断,利用训练好的朴素贝叶斯分类器推断用户位置。所述步骤A中,数据预处理具体包括如下步骤:A1,聚合推文:将每个用户发布的所有推文聚合为一个文本,有多少个用户就有多少个文本;A2,对标记后的用户文本进行分词:英文按空格分隔划分词语;中文利用现有的汉语分词工具进行分词;A3,移除停用词:对于使用不同语言的社交媒体用户文本,需要根据相应的语言构建相应的停用词词表,基于构建的停用词词表,移除停用词:A4,移除低频词:移除词频小于阈值N1的词语。所述步骤B中,词语初步筛选具体包括如下步骤:B1,计算信息增益率;B2,词语排序:按照词语信息增益率的大小,对词语进行降序排序;B3,设置阈值筛选词语:设置百分比阈值,选出信息增益率前N2%的词语。所述步骤C中,词语提取具体包括如下步骤:C1,计算词向量:将训练集用户的tweets作为语料库,利用word2vec计算语料库中每个词语的词向量;C2,聚类词语:利用现有的聚类算法基于词向量将筛选得到的词语聚为k个簇,语义相似的词语会被聚到一起,每一个簇内的词语可看作同一类词语;C3,词语提取:基于聚类形成的k个簇,把每一个簇看作一个整体,将位置指示词提取的过程看作是特征选择的过程;因此,位置指示词的提取过程,就是从k个簇中选出最佳的子集。所述的步骤C3中,词语提取具体包括如下步骤:C3.1,从k个簇构成的全集开始搜索簇子集,当前的簇子集记为Wo;在训练集上,利用5折交叉验证法估计基于簇子集Wo训练的分类器的平均分类错误率,记为Eo;C3.2,从当前的簇子集Wo中,依次任意地删除一个簇,得到一个新的簇子集;在训练集上,利用五折交叉验证法估计基于新的簇子集训练的分类器的平均分类错误率;将平均分类错误率最小的新的簇子集记为W#,其平均分类错误率记为E#;C3.3,如果本文档来自技高网
...

【技术保护点】
1.基于语义特性提取位置指示词的位置推断方法,其特征在于:包括如下步骤:A:数据预处理,对所有用户发布的所有推文数据进行预处理;B:词语筛选,基于信息增益率对词语进行初步筛选;C:位置指示词提取,利用word2vec构建词向量,基于语义特性提取位置指示词;D:分类器训练,利用位置指示词训练朴素贝叶斯分类器;E:用户位置推断,利用训练好的朴素贝叶斯分类器推断用户位置。

【技术特征摘要】
1.基于语义特性提取位置指示词的位置推断方法,其特征在于:包括如下步骤:A:数据预处理,对所有用户发布的所有推文数据进行预处理;B:词语筛选,基于信息增益率对词语进行初步筛选;C:位置指示词提取,利用word2vec构建词向量,基于语义特性提取位置指示词;D:分类器训练,利用位置指示词训练朴素贝叶斯分类器;E:用户位置推断,利用训练好的朴素贝叶斯分类器推断用户位置。2.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法,其特征在于:所述步骤A中,数据预处理具体包括如下步骤:A1,聚合推文:将每个用户发布的所有推文聚合为一个文本,有多少个用户就有多少个文本;A2,对标记后的用户文本进行分词:英文按空格分隔划分词语;中文利用现有的汉语分词工具进行分词;A3,移除停用词:对于使用不同语言的社交媒体用户文本,需要根据相应的语言构建相应的停用词词表,基于构建的停用词词表,移除停用词:A4,移除低频词:移除词频小于阈值N1的词语。3.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法,其特征在于:所述步骤B中,词语初步筛选具体包括如下步骤:B1,计算信息增益率;B2,词语排序:按照词语信息增益率的大小,对词语进行降序排序;B3,设置阈值筛选词语:设置百分比阈值,选出信息增益率前N2%的词语。4.根据权利要求1所述的基于语义特性提取位置指示词的位置推断方法,其特征在于:所述步骤C中,词语提取具体包括如下步骤:C1,计算词向量:将训练集用户的tweets作为语料库,利用word2vec计算语料库中每个词语的词向量;C2,聚类词语:利用现有的聚类算法基于词向量将筛选得到的词语聚为k个簇,语义相似的词语会被聚到一起,每一个簇内的词语可看作...

【专利技术属性】
技术研发人员:刘粉林田合婵乔亚琼朱玛罗向阳
申请(专利权)人:罗向阳
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1