【技术实现步骤摘要】
一种基于环结构网格标记的隐式情感三元组抽取方法
[0001]本专利技术涉及一种文本标记的情感三元组抽取方法,特别是一种基于环结构网格标记的隐式情感三元组抽取方法。
技术介绍
[0002]随着互联网的不断普及,人们习惯了在网络上发表各自的观点与评价。而如何从海量的评论文本中分析出有益的信息是现在急需解决的问题。现今,餐饮、购物等服务平台上存在着大量附有感情色彩的用户评价,通过对这些评论文本进行情感分析可以给舆情监控,用户分析等应用带来有效的帮助。
[0003]以往的情感分析旨在提取篇章或短句中存在的主要情感,并且一般表示为积极的,消极的,中性的这三类情感极性。这种分析方法忽略了文本中用户对不同实体可能存在的不同态度,而情感三元组抽取(Aspect Sentiment Triplet Extraction),其旨在抽取(方面项,评价项,情感极性)情感三元组来获取用户对不同方面项产生的评价项与情感极性,是一种细粒度的情感分析。例如:评论文本“发货速度很快,外观也是绝绝子”,抽取的情感三元组结果为(发货速度,快,积极的),( ...
【技术保护点】
【技术特征摘要】
1.一种基于环结构网格标记的隐式情感三元组抽取方法,其特征在于,包括以下步骤:步骤1,构建人工标注的情感三元组数据集,所述数据集中包含待抽取的文本以及情感三元组信息;对所述数据集进行划分,分为:训练集、验证集和测试集;步骤2,使用基于环的网格标签标注方法,结合情感三元组信息对步骤1中所述的数据集中的文本进行网格标签标注,得到实体标签和网格标签;步骤3,结合训练集中得到的实体标签与网格标签对环结构网格标记模型进行训练;步骤4,验证评估环结构网格标记模型,使用验证集中的数据输入至环结构网格标记模型,预测出实体标签与网格标签,并抽取对应的情感三元组;步骤5,重复步骤3和步骤4直至模型收敛,使用验证集对模型进行验证,保留验证集中最优模型作为最终模型,使用最终模型进行测试集上的F1分数评估;步骤6,利用最终模型,对网络上的真实文本数据进行隐式情感三元组抽取。2.根据权利要求1中所述的一种基于环结构网格标记的隐式情感三元组抽取方法,其特征在于,步骤1中所述的三元组,包括:方面项Aspect、评价项Opinion以及情感极性Sentiment,表示如下:(Aspect,Opinion,Sentiment)其中,方面项Aspect和评价项Opinion为文本中抽取的一段短语或隐式表达None,Sentiment为情感极性。3.根据权利要求2中所述的一种基于环结构网格标记的隐式情感三元组抽取方法,其特征在于,步骤2中所述的进行网格标签标注,具体方法包括:步骤2
‑
1,一维实体标签构造;步骤2
‑
2,二维网格标签构造。4.根据权利要求3中所述的一种基于环结构网格标记的隐式情感三元组抽取方法,其特征在于,步骤2
‑
1中所述的一维实体标签构造,具体包括:将方面项和评价项作为一维实体标签构造的依据,在抽取文本中所有词时,若当前词属于某项方面项中,则当前词的标签为1,若当前词属于评价项,则标签为2,否则标签为0;所述一维实体标签集合为{0,1,2}。5.根据权利要求4中所述的一种基于环结构网格标记的隐式情感三元组抽取方法,其特征在于,步骤2
‑
2中所述的二维网格标签构造,具体包括:将文本中的每个词看成一个节点构成二维网格,所述网格中R
i,j
表示第i个词与第j个词存在的有向边关系,在方面项和评价项构成的顺序索引列表间建立有向边,方法如下:当长度为n的方面项Aspect位于长度为m的评价项Opinion前面时,其中Aspect={A1,A2,
…
,A
n
},A
n
为Aspect中第n个词,Opinion={O1,O2,
…
,O
m
},O
m
为Opinion中第m个词,构建顺序索引列表{A1,A2,
…
,A
n
,O1,O2,
…
,O
m
};从左到右依次在A1与A2,A2与A3,
…
,A
n
与O1,O1与O2,
…
建立有向边,即实体关联有向边;根据上述实体关联有向边构造网格标签,所述实体关联有向边标签分为四类:{A
‑
A,A
‑
O,O
‑
O,O
‑
A},其中,A
‑
A表示是一个方面项中的词指向方面项中的词,A
‑
O表示是一个方面项词指向评价项词,O
‑
A标签以及O
‑
A标签同理;将顺序索引列表中最后一个词与第一个词建立一条有向边,即情感关联有向边,根据上述情感关联有向边构造网格标签,所述情感关联有向边标签分为三类:{Pos,Neg,Neu},表示三元组蕴含的情感极性,Neg为消极的,Neu为中性的,Pos为积极的,顺序索引列表若只
存在唯一项,则只建立情感极性的有向边;当方面项Aspect位于评价项Opinion后,或三元组中存在隐式表达,三元组同理可以表示成唯一的有向环;网格标签中对于无有向边的标记为None;得到网格标签集合为{A
‑
A...
【专利技术属性】
技术研发人员:吴震,王仁杰,戴新宇,何亮,张建兵,黄书剑,陈家骏,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。