融合汉越关联关系的多语言事件观点对象识别方法技术

技术编号:38438522 阅读:10 留言:0更新日期:2023-08-11 14:22
本发明专利技术涉及融合汉越关联关系的多语言事件观点对象识别方法,属自然语言处理领域。本发明专利技术包括:构建观点对象识别数据集;使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征;将评论文本和其中的关键词作为异构图的节点,并基于评论文本中词共现、词对齐、词频信息和语义相似度的关系构边;利用图卷积网络对节点特征进行学习;识别出评论文本中的观点对象。本发明专利技术利用中文和越南语事件间的要素共现和整体语义关联构建汉越多语言事件表征网络,得到同一语义空间下汉越两种语言的公共表征,实现汉越事件观点对象的对齐与识别,为把握汉越两国对公共事件的观点看法提供支撑。提供支撑。提供支撑。

【技术实现步骤摘要】
融合汉越关联关系的多语言事件观点对象识别方法


[0001]本专利技术涉及融合汉越关联关系的多语言事件观点对象识别方法,属于自然语言处理领域。

技术介绍

[0002]互联网的快速发展推动了中越两国交流,从社交媒体评论文本中挖掘两国用户的观点,掌握用户对事件的关注,对处理好与越南的国际关系、区域经济发展和文化交流有着重要的作用,同时为政府及企业正确把握汉越舆情动态并及时做出应对措施提供有效保障。
[0003]如图2所示的是汉越“事件A”数据集中有关不同观点对象的评论句。通过观察可以发现中文和越南语评论在针对同一事件时讨论的内容较为接近,关注的重点也较为相似,利用这种关联特征可以较好地捕获汉越双语评论的全局特征(汉越评论之间的关联关系)和局部特征(评论中关键词所携带的语义信息)。通过对关联关系和语义信息进行建模,能够得到信息互补的特征表示学习模型,从而较好地完成迁移任务,解决越南语标注资源稀缺的问题。
[0004]目前,在多语言观点对象识别的研究中,主要通过基于传统机器学习的方法和基于深度学习的方法进行观点对象识别,根据每个领域的评论表征来学习特定的观点对象分类器。基于传统机器学习的方法通过制定相关规则并融入领域相关信息等外部知识利用算法提升识别性能,基于深度学习的方法通过使用神经网络提取数据特征进行观点对象的识别。这些模型利用传统的特征编码模式只能考虑到单语语料库中各评论文本的局部特征,不能很好的做到多语言间的知识迁移,因此,本专利技术提出一种融合汉越关联关系的多语言事件观点对象识别方法。
专利技术内容
[0005]本专利技术提供了融合汉越关联关系的多语言事件观点对象识别方法,以用于通过将汉越评论文本和其中的关键词作为节点构建异构图,结合评论文本节点的输入表征,通过图卷积网络准确地捕获汉越双语评论间观点对象的关联信息,提高观点对象表征学习和识别性能。
[0006]本专利技术的技术方案是:融合汉越关联关系的多语言事件观点对象识别方法,所述方法的具体步骤如下:
[0007]Step1、获取事件相关的汉越双语评论文本,经过筛选后再形成json格式文件,再进行标注得到汉越双语观点对象识别数据集;
[0008]作为本专利技术的进一步方案,所述Step1的具体步骤为:
[0009]Step1.1、采用基于Scrapy框架的网络爬虫从新浪微博和推特上爬取热点事件事件A和事件B相关的微博及推特汉越双语评论文本;
[0010]Step1.2、对微博及推特的汉越双语评论文本进行过滤筛选,过滤筛选的方式如下
所示:通过语种识别方法删除非汉越数据,其中,语种识别方法采用通过fastText中的cbow模型进行语种识别来删除非汉越数据,利用emoji数据包和正则表达式删除文本中的表情、符号以及超链接,删除#话题#结构,删除相同的评论文本;经过过滤筛选后再形成json格式文件;
[0011]Step1.3、采用人工标注,获得事件A和事件B汉越双语观点对象识别数据集:以一条汉越双语评论文本为单位进行标注工作,对“事件A”和“事件B”事件中的观点对象所属类别进行标注,三人盲判取交集。
[0012]Step2、使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征,将事件相关的汉越双语评论文本和其中的关键词作为异构图的节点,并基于事件相关的汉越双语评论文本中词共现、词对齐、词频信息和语义相似度的关系构边,利用图卷积网络对节点特征进行学习,并对节点进行线性转换输出评论文本节点的预测,得到事件相关的汉越双语评论文本的观点对象。
[0013]作为本专利技术的进一步方案,所述Step2的具体步骤如下:
[0014]Step2.1、使用多语言预训练语言模型XLM

R来获得事件相关的汉越双语评论文本的嵌入,即得到事件相关的汉越双语评论文本的节点特征,并将它们作为异构图中评论文本节点的输入表示;
[0015](1)
[0016]其中,、、和分别表示中文评论文本数量、越南语评论文本数量、中文关键词数量和越南语关键词数量,中文评论文本和越南语评论文本节点嵌入分别由和表示,其中d是文本嵌入的维度,由于不考虑关键词节点的特征表示,因此将中文关键词和越南语关键词嵌入置为0;
[0017]Step2.2、使用事件相关的汉越双语评论文本数据集中的评论句和其中的关键词作为异构图的节点构建汉越双语异构图,其中关键词之间、评论句和关键词之间以及评论句之间均有不同的关系种类,包括关键词之间的词共现和词对齐关系,评论句和关键词的词频关系,评论句之间的语义相似度关系;
[0018]Step2.3、在构建汉越双语异构图后,将不同关系类别的子图进行融合,嵌入到一个多层图卷积网络GCN中;图卷积网络是一种多层神经网络,可以根据节点的领域属性引入节点的嵌入向量。GCN可以通过一层卷积来捕获关于近邻节点的信息,当堆叠多个GCN层时,图上更多的信息就会被整合起来。两层GCN允许信息在最多两步长的节点之间传递信息,对于一层GCN,新的维节点特征矩阵为:
[0019](2)
[0020]其中表示标准化对称邻接矩阵,表示权重矩阵,是RELU激活函数,是邻接矩阵,是邻接矩阵的度矩阵、是第j层权重矩阵;通过叠加多个GCN层来学习合并更高阶的领域信息,学习更深层的节点特征,表示为:
[0021](3)
[0022]其中表示层数,而表示原始邻接矩阵;
[0023]Step2.4、观点对象识别过程是判断当前节点属于哪一类别,属于分类过程,在图神经网络的第二层将汉越双语评论文本嵌入维度映射成与类别标签相同的维度大小,然后送入到分类器中:
[0024](4)
[0025]其中,而,是第一层权重矩阵、是第i个评论文本节点的概率分布输出值;
[0026]Step2.5、最终模型的目标函数使用交叉熵损失进行计算;
[0027](5)
[0028]其中是具有标签的评论索引集,F表示输出特征的维度,与类别数量相同,是标签矩阵,是汉越双语评论文本属于观点对象类别的预测概率值。
[0029]作为本专利技术的进一步方案,所述Step2.2中的关键词之间的词共现和词对齐关系为:
[0030]为了更好的利用单语关键词的共现信息,通过基于词共现关系构建关键词节点之间的边,对语料库中所有的评论句使用一个固定大小的滑动窗口来收集词的共现信息,分别在汉越双语评论文本上使用点互信息PMI计算两个关键词节点之间的权重,单语关键词对的PMI值计算公式为:
[0031](6)(7)(8)(9)其中、分别表示滑动窗口中包含关键词、的数量,是语料库中所有滑动窗口的数量;当PMI值为正时表示两个词之间的语义相关性较高,而PMI值为负时表示两个词之间的语义相关性很少或没有,只在PMI值为正的关键词对之间添加边;
[0032]考虑挖掘汉越双语关键词之间的关系,基于双语词对齐构建关键词节点之间的边,对于汉越双语观点对象识别研究中,汉越双语关键词对相较本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合汉越关联关系的多语言事件观点对象识别方法,其特征在于:所述方法的具体步骤如下:Step1、获取事件相关的汉越双语评论文本,经过筛选后再形成json格式文件,再进行标注得到汉越双语观点对象识别数据集;Step2、使用多语言预训练语言模型获取事件相关的汉越双语评论文本的节点特征,将事件相关的汉越双语评论文本和其中的关键词作为异构图的节点,并基于事件相关的汉越双语评论文本中词共现、词对齐、词频信息和语义相似度的关系构边,利用图卷积网络对节点特征进行学习,并对节点进行线性转换输出评论文本节点的预测,得到事件相关的汉越双语评论文本的观点对象。2.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法,其特征在于:所述Step1的具体步骤为:Step1.1、采用基于Scrapy框架的网络爬虫从新浪微博和推特上爬取热点事件事件A和事件B相关的微博及推特汉越双语评论文本;Step1.2、对微博及推特的汉越双语评论文本进行过滤筛选,过滤筛选的方式如下所示:通过语种识别方法删除非汉越数据,其中,语种识别方法采用通过fastText中的cbow模型进行语种识别来删除非汉越数据,利用emoji数据包和正则表达式删除文本中的表情、符号以及超链接,删除#话题#结构,删除相同的评论文本;经过过滤筛选后再形成json格式文件;Step1.3、采用人工标注,获得事件A和事件B汉越双语观点对象识别数据集:以一条汉越双语评论文本为单位进行标注工作,对“事件A”和“事件B”事件中的观点对象所属类别进行标注,三人盲判取交集。3.根据权利要求1所述的融合汉越关联关系的多语言事件观点对象识别方法,其特征在于:所述Step2的具体步骤如下:Step2.1、使用多语言预训练语言模型XLM

R来获得事件相关的汉越双语评论文本的嵌入,即得到事件相关的汉越双语评论文本的节点特征,并将它们作为异构图中评论文本节点的输入表示;(1)其中,、、和分别表示中文评论文本数量、越南语评论文本数量、中文关键词数量和越南语关键词数量,中文评论文本和越南语评论文本节点嵌入分别由和表示,其中d是文本嵌入的维度,由于不考虑关键词节点的特征表示,因此将中文关键词和越南语关键词嵌入置为0;Step2.2、使用事件相关的汉越双语评论文本数据集中的评论句和其中的关键词作为异构图的节点构建汉越双语异构图,其中关键词之间、评论句和关键词之间以及评论句之间均有不同的关系种类,包括关键词之间的词共现和词对齐关系,评论句和关键词的词频关系,评论句之间的语义相似度关系;Step2.3、在构建汉越双语异构图后,将不同关系类别的子图进行融合,嵌入到一个多
层图卷积网络GCN中;两层GCN允许信息在最多两步长的节点之间传...

【专利技术属性】
技术研发人员:余正涛李格格郭军军相艳
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1