【技术实现步骤摘要】
顾及地理空间分布的文本情感分类方法及装置
[0001]本专利技术涉及文本情感分析领域,具体涉及一种顾及地理空间分布的文本情感分类方法及装置。
技术介绍
[0002]情感分析也称为意见挖掘,是自然语言处理的经典任务,也是文本分类的任务之一。其目的是分析人们对于诸如时事、个人、商品、服务、组织等实体及其属性的情感类别或情感倾向。其在舆论检测,舆情分析,电影评论分析等领域有着广泛的应用。
[0003]由于情感分析在日常业务中的重要性,近年来涌现了大量有关情感分析的工作。其中图神经网络因为其在文本分类领域的高效而被广泛关注。例如GCN等一系列使用图神经网络进行文本分类的工作,都取得了较为理想的效果。但这些工作均只从文本语义以及词频的角度去考虑,采用语法依赖,外部知识补充,知识图谱等方式进行文本分类以提高性能。而忽略了文本本身地理空间分布特征的隐含信息。地理第一定律指出:“任何事物都是与其他事物相关的,只不过相近的事物关联更紧密“。例如餐厅评论文本,旅游景点推荐文本等,除了文本自身内容所蕴含的信息外,文本的位置信息也是值得关注的。
[0004]因此,传统的文本分类方法忽略了文本本身地理空间分布特征的隐含信息是亟待解决的技术问题。
技术实现思路
[0005]为了解决传统文本分类方法忽略了文本本身地理空间分布特征的隐含信息的技术问题,本专利技术创新性地引入地理空间位置关系来建模文本与文本之间的信息,可以更加深入地捕获文本间的相似性,从而能够更好的对文本的情感进行分析预测。
[0006]为了实 ...
【技术保护点】
【技术特征摘要】
1.一种顾及地理空间分布的文本情感分类方法,其特征在于,包括以下步骤:根据文本间的地理位置距离设定文本的空间位置权重矩阵;根据所述空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图;将所述文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1;根据所述文本语义信息和所述文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图;将所述文本语义图和所述文本地理空间分布图分别进行传播更新,并进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2;将所述文本空间关系语义图的向量表示X1和所述融合语义与文本地理空间关系的文本向量表示X2进行融合,得到融合后的文本向量表示X;根据所述融合后的文本向量表示X进行文本情感预测,得到文本的情感分类结果。2.如权利要求1所述的顾及地理空间分布的文本情感分类方法,其特征在于,在所述根据文本间的地理位置距离设定文本的空间位置权重矩阵的步骤之前,还包括:使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值d
τ
;根据所述空间自相关性得到文本地理空间分布关系。3.如权利要求2所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值d
τ
的步骤,包括:将文本的情感得分作为莫兰指数的属性值a;根据文本的经纬度坐标计算得到的文本间的空间距离;将所述空间距离的倒数的平方作为莫兰指数的空间权重矩阵w
ij
;根据莫兰指数计算公式计算得到文本情感得分的空间自相关性,以及距离阈值d
τ
;所述莫兰指数计算公式为:其中,I为莫兰指数值,其取值通常在[
‑
1,1]之间,越接近于1表示文本情感得分在空间上分布越聚集,即相关性越强;下标i与j表示的是第i个与第j个文本;表示属性值a的平均值;U表示文本集合;N表示文本的总数。4.如权利要求1所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述根据文本间的地理位置距离设定文本的空间位置权重矩阵的步骤,包括:由文本的经纬度坐标计算文本间的空间距离;将所述空间距离的倒数进行归一化处理,作为文本间的空间位置权重矩阵。5.如权利要求2所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述根据空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图的步骤,包括:统计单词与单词之间的共现情况,用tf
‑
idf计算结果作为边e
ww
的权重;
统计单词与文本之间的共现情况,用pmi计算结果作为边e
wd
的权重;统计文本与文本之间的地理距离,若小于所述距离阈值d
τ
,则建立边e
dd
,并用空间位置权重矩阵作为边e
dd
的权重,否则不建立边,最终得到一个文本空间关系语义图。6.如权利要求1所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述将文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1的步骤,包括:分别设置所述文本空间...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。