结合聚类与图注意力机制的多粒度语义融合文本匹配方法组成比例

技术编号:34945684 阅读:11 留言:0更新日期:2022-09-17 12:21
本发明专利技术涉及结合聚类与图注意力机制的多粒度语义融合文本匹配方法,属于自然语言处理与机器学习领域。本发明专利技术首先对实体、句子和主题三种不同粒度的语义信息分别建模得到相应的嵌入向量,实体和主题建模过程中引入外部语义知识;然后分别聚类实体、主题嵌入向量,使用聚类中心作为所在聚类中所有向量的统一表示;接着,利用图注意力机制学习句子级语义与实体、主题级语义之间的关联权重;最后,将训练后的句子向量作为句子的最终表示,进一步进行文本匹配任务。本发明专利技术能够有效提高特定领域短文本句子对的匹配效果,在一定程度上解决了待匹配文本过短且包含特定领域词汇导致语义稀疏,匹配准确率低的问题。匹配准确率低的问题。匹配准确率低的问题。

【技术实现步骤摘要】
结合聚类与图注意力机制的多粒度语义融合文本匹配方法


[0001]本专利技术涉及基于图注意力机制的多粒度语义分析文本匹配方法,属于自然语言处理与机器学习领域。

技术介绍

[0002]在文本匹配任务中,文本简短且包含特定领域词汇会导致语义稀疏,匹配准确率低的问题。解决方案通常是通过引入外部知识来补充语义信息,具体包括外部知识引入和多粒度语义信息建模两个步骤。
[0003]1.引入外部语义知识的方法
[0004]引入外部语义知识的方法引入通用领域的语法、语义知识作为模型输入的补充,完善语义信息,改善文本匹配性能。BERT预训练模型引入大量通用领域的知识,补充短文本的语境信息,极大地提升了文本表示质量,对通用领域文本有更好的表征能力。但是针对特定领域的文本匹配问题,由于包含特定领域词汇,BERT的建模能力有待提高。
[0005]2.多粒度语义信息建模方法
[0006]多粒度语义信息建模方法指的是从不同的粒度对句子建模,如实体级粒度、句子级粒度和主题级粒度。建模后需要合并多粒度语义表示,形成最终语义表示,具体方法包括拼接、结构树和图神经网络三种。拼接的方法将提取到的不同粒度语义特征与原句子向量进行拼接,这种方法会破坏句子原有意义,建模能力差;语法结构树的方法结构相对固化,难以表示灵活的多粒度语义信息;图神经网络的模型能够建模不同粒度语义向量间的依存信息,但是在实际应用中存在节点数目过大,计算复杂,且低频词汇关联边过少,语义稀疏等问题。
[0007]综上所述,近年来针对语义稀疏问题的解决方案通常是通过大型预训练模型引入外部知识,进一步通过语法树等结构补充语义信息。然而这些方法对特定领域的语义建模能力较弱,且不能充分挖掘多粒度语义信息之间的关联。关于在特定领域短文本匹配任务中如何充分利用多粒度语义信息的相关研究相对较少。现有的特定领域短文本匹配方法存在以下问题:(1)通用的预训练模型对特定领域的文本建模能力有限;(2)拼接和语法结构树的多粒度语义建模方法不能充分挖掘多粒度语义之间的文本依存关系,充分表示语义信息;图神经网络的多粒度建模方法存在图节点数目过大,计算复杂,且低频词汇语义稀疏等问题。

技术实现思路

[0008]本专利技术的目的是针对待匹配文本简短且包含特定领域词汇导致语义稀疏,文本匹配准确率低的问题,提出了结合聚类与图神经网络的多粒度语义融合文本匹配方法。
[0009]本专利技术的设计原理为:首先,通过特定领域语料库学习句子在实体级和主题级粒度的向量表示,通过Bert预训练模型得到句子级粒度的向量表示;其次,将实体级和主题级两种粒度的向量表示分别聚类,使用聚类中心作为所在聚类中所有向量的统一表示;然后
将不同粒度的语义表示视为图节点,句子通过图注意力机制学习强化句子级粒度与实体级、主题级粒度表示之间的关联;最后将训练后的句子级向量表示作为句子的最终表示,进一步进行文本匹配任务。
[0010]本专利技术的技术方案是通过如下步骤实现的:
[0011]步骤1,对句子进行实体级、句子级和主题级的语义向量表示。
[0012]步骤1.1,结合特定领域语料库,通过TagMe工具进行实体抽取,利用word2vec方法得到实体的向量表示。
[0013]步骤1.2,通过Bert模型得到句子级的向量表示。
[0014]步骤1.3,在特定领域语料库中通过LDA/GSDMM方法学习语料库中的主题信息,利用word2vec方法得到主题的向量表示。
[0015]步骤2,聚类实体级和主题级的向量表示,使用聚类中心作为所在聚类中所有向量的统一表示。
[0016]步骤3,基于GAT图注意力机制学习句子表示与实体、主题表示之间的关联关系。
[0017]步骤4,输出训练后的多粒度的句子语义建模向量,进行文本匹配任务。
[0018]有益效果
[0019]相比于只建模单粒度的语义信息的方法,本专利技术融合了实体、句子和主题三种不同粒度的语义信息,分别引入外部知识缓解短文本语义稀疏问题,并通过GAT图注意力机制强化不同粒度语义信息之间的关联,可以有效提高短文本匹配的准确率。
[0020]相比于通用领域的Bert句子建模方法,本专利技术在实体、主题级语义建模过程中引入了特定领域的语料库信息,提高特定领域的语义表征能力;此外模型对实体、主题两种粒度的向量表达进行了聚类,将聚类中心向量作为所在类中所有向量的替代表示,聚类操作可以将低频词汇归入到某个类,补充了低频词汇的语义信息,进而增强特定领域下的文本匹配效果,同时聚类可以显著减少图节点数量,提高运算效率。
附图说明
[0021]图1为本专利技术的结合聚类与图神经网络的多粒度语义融合文本匹配算法原理图。
具体实施方式
[0022]为了更好的说明本专利技术的目的和优点,下面结合附图和实例对本专利技术方法的实施方式做进一步详细说明。
[0023]实验数据包括MSRP和Quora两个数据集。
[0024]MSRP(微软研究释义语料库)数据来源于网页新闻,通过人工二分类标注了每对文本的语义是否等价关系。Quora数据来源于Quora社区问答网站,意图相近的两个问题被标注为匹配。
[0025]特定领域的短文本匹配实验数据详细信息见表1。
[0026]表1.融合多粒度语义信息的特定领域短文本匹配实验数据
[0027][0028]实验采用F1值(Accuracy)评价文本匹配的结果,见公式1。
[0029][0030]其中,Precision精确度表示被划分为正例的样本中实际正例的比例,Recall召回率表示在所有正例中有多大比例被正确分类。F1值综合了精确率和召回率两个指标,F1值越高,模型的效果越好。
[0031]本次实验在一台计算机上进行,计算机的具体配置为:Intel i7

6700,CPU 2.40GHz,内存8G,操作系统是windows 10,64位,显卡为GTX 1080Ti,显存10.92G。
[0032]本次实验的具体流程为:
[0033]步骤1,抽取实体、句子和主题三种粒度语义信息,并嵌入为向量表示。
[0034]步骤1.1,通过特定领域的语料库学习实体表示,使用TagMe工具抽取待匹配句子中的实体信息,经过实体链接和解释,模型学习到特定领域的实体表示,增强在包含特定领域词汇时的文本匹配效果,最后经过word2vec将实体表示嵌入为向量,向量嵌入维度为200。
[0035]步骤1.2,利用Bert预训练模型生成待匹配句子的句子级的语义信息,批梯度数量设置为32,学习率通过网格搜索方法动态调整,引入广泛通用领域知识的Bert模型可以极大地缓解短文本语义稀疏问题。
[0036]步骤1.3,通过LDA topic和GSDMM topic两种主题模型对特定领域语料库进行学习,获得特定领域句子的主题级粒度语义信息,主题个数在MSRP数据集中设置为80,在Quora数据集中设置为90,最后通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.结合聚类与图注意力机制的多粒度语义融合文本匹配方法,其特征在于所述方法包括如下步骤:步骤1,对句子进行实体级、句子级和主题级的语义向量嵌入,首先,通过TagMe工具进行实体抽取,利用word2vec方法得到实体的向量表达,然后,通过Bert模型得到句子级的向量表达,最后,通过LDA/GSDMM方法得到句子的主题级表示,利用word2vec方法得到主题的向量表达;步骤2,聚类实体级和主题级的向量表达,使用聚类中心作为所在聚类中所有向量的统一表示;步骤3,以实体聚类中心向量、句子向量和主题聚类中心向量为节点,以句子包含的实体、句子包含的主题为边构建图,利用图注意力机制学习句子节点与实体节点、主题节点之间的权重关系;步骤4,将训练后的句子向量作为最终融合多粒度语义信息后的句子表示,利用余弦相似度计算句子向量之间的相似度,根据相似度大小与设定的阈值进行文本匹配。2.根据权利要求1所述的结合聚类与图...

【专利技术属性】
技术研发人员:罗森林孔令迪李新帅杨俊楠
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1