顾及地理空间分布的文本情感分类方法及装置制造方法及图纸

技术编号:31371907 阅读:12 留言:0更新日期:2021-12-15 10:12
本发明专利技术提供了一种顾及地理空间分布的文本情感分类方法及装置,该方法包括:使用莫兰指数对文本情感得分在空间中的自相关性进行分析;根据文本间的地理位置距离设定文本空间位置权重矩阵;使用两种不同的构图方式对文本的语义信息和地理空间分布信息进行融合;在顾及地理空间位置信息的同时进行文本的表示学习,得到融合后的文本向量表示;将融合后的文本向量表示进行文本情感预测。本发明专利技术引入地理空间位置关系来建模文本与文本之间的信息,可以更加深入地捕获文本间的相似性,从而能够更好的对文本的情感进行分析预测。好的对文本的情感进行分析预测。好的对文本的情感进行分析预测。

【技术实现步骤摘要】
顾及地理空间分布的文本情感分类方法及装置


[0001]本专利技术涉及文本情感分析领域,具体涉及一种顾及地理空间分布的文本情感分类方法及装置。

技术介绍

[0002]情感分析也称为意见挖掘,是自然语言处理的经典任务,也是文本分类的任务之一。其目的是分析人们对于诸如时事、个人、商品、服务、组织等实体及其属性的情感类别或情感倾向。其在舆论检测,舆情分析,电影评论分析等领域有着广泛的应用。
[0003]由于情感分析在日常业务中的重要性,近年来涌现了大量有关情感分析的工作。其中图神经网络因为其在文本分类领域的高效而被广泛关注。例如GCN等一系列使用图神经网络进行文本分类的工作,都取得了较为理想的效果。但这些工作均只从文本语义以及词频的角度去考虑,采用语法依赖,外部知识补充,知识图谱等方式进行文本分类以提高性能。而忽略了文本本身地理空间分布特征的隐含信息。地理第一定律指出:“任何事物都是与其他事物相关的,只不过相近的事物关联更紧密“。例如餐厅评论文本,旅游景点推荐文本等,除了文本自身内容所蕴含的信息外,文本的位置信息也是值得关注的。
[0004]因此,传统的文本分类方法忽略了文本本身地理空间分布特征的隐含信息是亟待解决的技术问题。

技术实现思路

[0005]为了解决传统文本分类方法忽略了文本本身地理空间分布特征的隐含信息的技术问题,本专利技术创新性地引入地理空间位置关系来建模文本与文本之间的信息,可以更加深入地捕获文本间的相似性,从而能够更好的对文本的情感进行分析预测。
[0006]为了实现上述目的,本专利技术提供了一种顾及地理空间分布的文本情感分类方法,包括以下步骤:
[0007]根据文本间的地理位置距离设定文本的空间位置权重矩阵;
[0008]根据所述空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图;
[0009]将所述文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1;
[0010]根据文本语义信息和文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图;
[0011]将所述文本语义图和所述文本地理空间分布图分别进行传播更新,并进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2;
[0012]将所述文本空间关系语义图的向量表示X1和所述融合语义与文本地理空间关系的文本向量表示X2进行融合,得到融合后的文本向量表示X;
[0013]根据所述融合后的文本向量表示X进行文本情感预测,得到文本的情感分类结果。
[0014]优选地,在所述根据文本间的地理位置距离设定文本的空间位置权重矩阵的步骤之前,还包括:
[0015]使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值d
τ

[0016]根据所述空间自相关性得到文本地理空间分布关系。
[0017]优选地,所述使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值d
τ
的步骤,包括:
[0018]将文本的情感得分作为莫兰指数的属性值a;
[0019]根据文本的经纬度坐标计算得到的文本间的空间距离;
[0020]将所述空间距离的倒数的平方作为莫兰指数的空间权重矩阵w
ij

[0021]根据莫兰指数计算公式计算得到文本情感得分的空间自相关性,以及距离阈值d
τ

[0022]所述莫兰指数计算公式为:
[0023][0024]其中,I为莫兰指数值,其取值通常在[

1,1]之间,越接近于1表示文本情感得分在空间上分布越聚集,即相关性越强;下标i与j表示的是第i个与第j个文本;表示属性值a的平均值;U表示文本集合;N表示文本的总数。
[0025]优选地,所述根据文本间的地理位置距离设定文本的空间位置权重矩阵的步骤,包括:
[0026]由文本的经纬度坐标计算文本间的空间距离;
[0027]将所述空间距离的倒数进行归一化处理,作为文本间的空间位置权重矩阵。
[0028]优选地,所述根据空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图的步骤,包括:
[0029]统计单词与单词之间的共现情况,用tf

idf计算结果作为边e
ww
的权重;
[0030]统计单词与文本之间的共现情况,用pmi计算结果作为边e
wd
的权重;
[0031]统计文本与文本之间的地理距离,若小于所述距离阈值d
τ
,则建立边e
dd
,并用空间位置权重矩阵作为边e
dd
的权重,否则不建立边,最终得到一个文本空间关系语义图。
[0032]优选地,所述将文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1的步骤,包括:
[0033]分别设置所述文本空间关系语义图的参数矩阵W1,W2,W3,由于构建的为异构图,所有参数矩阵相互独立,且邻接矩阵分别为A1,A2,A3;
[0034]其中,A1表示由单词之间的共现关系构建的邻接矩阵,A2表示单词与文本之间共现关系构成的邻接矩阵,A3为由地理空间分布关系构建的邻接矩阵,取值范围为[0,1],由经纬度坐标距离计算结果的倒数归一化得到;
[0035]将所述文本空间关系语义图进行传播更新,根据公式得到每个节点更新后的向量表示X1;
[0036]其中,表示第l层第i种类型关系下的向量表示,表示第i种类型关系下的归一
化后的邻接矩阵,W
i
表示第i个参数矩阵。
[0037]优选地,所述根据文本语义信息和所述文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图的步骤,包括:
[0038]根据单词,文本两类节点中的词共现关系和文本词频关系,构建一个文本语义图;
[0039]文本作为唯一节点,文本与文本之间根据地理空间分布关系建立边:首先计算文本与文本之间的经纬度坐标的距离,若大于所述距离阈值d
τ
,则在文本与文本之间建立边,并将所述空间位置权重矩阵作为边权重;若小于距离阈值d
τ
,则不建立边;
[0040]最终构建一个同构无向的文本地理空间分布图。
[0041]优选地,所述将文本语义图和所述文本地理空间分布图分别进行传播更新,并进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2的步骤,包括:
[0042]将所述文本语义图进行节点更新,得到文本语义图的文本向量表示;
[0043]文本地理空间分布图将所述空间位置权重矩阵作为邻接矩阵A的值,通过图卷积算法进行节点更新,得到文本地理空间分布图的文本节点向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种顾及地理空间分布的文本情感分类方法,其特征在于,包括以下步骤:根据文本间的地理位置距离设定文本的空间位置权重矩阵;根据所述空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图;将所述文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1;根据所述文本语义信息和所述文本地理空间分布关系分别构建得到一个文本语义图和一个文本地理空间分布图;将所述文本语义图和所述文本地理空间分布图分别进行传播更新,并进行文本向量融合,得到融合语义与文本地理空间关系的文本向量表示X2;将所述文本空间关系语义图的向量表示X1和所述融合语义与文本地理空间关系的文本向量表示X2进行融合,得到融合后的文本向量表示X;根据所述融合后的文本向量表示X进行文本情感预测,得到文本的情感分类结果。2.如权利要求1所述的顾及地理空间分布的文本情感分类方法,其特征在于,在所述根据文本间的地理位置距离设定文本的空间位置权重矩阵的步骤之前,还包括:使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值d
τ
;根据所述空间自相关性得到文本地理空间分布关系。3.如权利要求2所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述使用莫兰指数对文本情感得分在空间中的自相关性进行分析,得到文本情感得分的空间自相关性和距离阈值d
τ
的步骤,包括:将文本的情感得分作为莫兰指数的属性值a;根据文本的经纬度坐标计算得到的文本间的空间距离;将所述空间距离的倒数的平方作为莫兰指数的空间权重矩阵w
ij
;根据莫兰指数计算公式计算得到文本情感得分的空间自相关性,以及距离阈值d
τ
;所述莫兰指数计算公式为:其中,I为莫兰指数值,其取值通常在[

1,1]之间,越接近于1表示文本情感得分在空间上分布越聚集,即相关性越强;下标i与j表示的是第i个与第j个文本;表示属性值a的平均值;U表示文本集合;N表示文本的总数。4.如权利要求1所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述根据文本间的地理位置距离设定文本的空间位置权重矩阵的步骤,包括:由文本的经纬度坐标计算文本间的空间距离;将所述空间距离的倒数进行归一化处理,作为文本间的空间位置权重矩阵。5.如权利要求2所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述根据空间位置权重矩阵,融合文本语义信息和文本地理空间分布关系构建得到一个文本空间关系语义图的步骤,包括:统计单词与单词之间的共现情况,用tf

idf计算结果作为边e
ww
的权重;
统计单词与文本之间的共现情况,用pmi计算结果作为边e
wd
的权重;统计文本与文本之间的地理距离,若小于所述距离阈值d
τ
,则建立边e
dd
,并用空间位置权重矩阵作为边e
dd
的权重,否则不建立边,最终得到一个文本空间关系语义图。6.如权利要求1所述的顾及地理空间分布的文本情感分类方法,其特征在于,所述将文本空间关系语义图进行传播更新,得到所述文本空间关系语义图的文本向量表示X1的步骤,包括:分别设置所述文本空间...

【专利技术属性】
技术研发人员:程旭阳李圣文
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1