一种基于网络嵌入和预训练模型的新概念义原预测方法技术

技术编号:37713131 阅读:12 留言:0更新日期:2023-06-02 00:07
本发明专利技术公开了一种基于网络嵌入和预训练模型的新概念义原预测方法,包括以下步骤:基于构建的HowNet的义原标注体系,通过协同过滤机制,构建包括表示学习模块、候选义原选择模块和义原序列排序模块的义原预测模型,进行义原序列排序;利用相似词语对应的概念获得待推荐义原的集合,通过在Hownet中进行相似词检索来获得查询词对应的相似词集合,基于上述全部词语、词语对应的概念义项及其义原,构建词语

【技术实现步骤摘要】
一种基于网络嵌入和预训练模型的新概念义原预测方法


[0001]本专利技术涉及义原预测
,尤其涉及一种基于网络嵌入和预训练模型的新概念义原预测方法。

技术介绍

[0002]HowNet(知网)自问世以来,受到自然语言处理领域的广泛关注,国内外学者在词汇语义消歧、相似度计算、文本分类和信息检索等方面探索了HowNet的重要应用价值。研究发现,HowNet通过统一的义原标注体系直接刻画语义信息,且每个义原含义明确固定,可被直接作为语义标签融入机器学习模型,使自然语言处理深度学习模型具有更好的鲁棒性和可解释性。
[0003]义原(Sememe)是构成概念描述的核心部件。目前,《知网》构建了包含约2230个义原的精细的语义描述体系,并为约14.8万概念标注了义原。
[0004]然而,与其他依靠人工构建的知识库系统一样,HowNet存在着规模有限、更新扩展维护成本高的问题。相关研究[9]表明,没有HowNet背景知识和未经专门训练的人员难以较好地完成义原标注任务。这导致HowNet潜在的巨大应用价值与其自身规模有限、语义资源稀疏且难扩展的矛盾,解决这个矛盾的一个可行的途径就是开展HowNet的自动或半自动构建技术的研究,其核心问题之一就是为新概念的描述选择合适的义原。
[0005]新概念是指随时代发展而新出现或旧词新用的概念。随着互联网应用的普及,文本大数据中大量的新词不断出现,同时现有词语的含义被延伸和扩展,因此有必要对以义原为基础的语义知识库进行持续地修正和扩充。在词汇义原自动标注方面,XIE等[23]提出了义原预测任务,该任务是在HowNet义原集合中选择出适合构建新概念的Def描述的义原子集。例如,在现有HowNet知识库中,“小米”的Def描述包含的义原集合为{material|材料,edible|食物,crop|庄稼},但在目前实际语言环境中,“小米”除了具有一种农作物的概念外,还可以描述为一个公司名或电子产品的品牌。因此,其义原集合还可以包含{InstitutePlace|场所}或{SpeBrand|特定牌子}。
[0006]通常,语义相似的词语或概念之间会共享相同的义原。因此,解决新概念义原选择问题,可以借鉴协同过滤(CF,CollaborativeFiltering)的思想,利用HowNet已有概念的Def描述中的义原集合来预测当前新概念的Def描述最可能使用的义原集合,其关键在于度量新旧词语或概念之间的语义相似。
[0007]近年来,基于词的分布式表示方法已成为计算词语相似度的主流方法,但是,由于词语的表示学习过程与HowNet对词语或概念的描述的形成过程存在着本质区别。对随机抽取的词语进行对比后的结果可见,基于词的分布式表示方法得到的相似度计算结果与基于义原的相似度度量方法之间往往存在差异,表现为词语之间语义距离的度量不一致,这里称为“相似性异构”问题。因此,为了更好地为新概念选择合适的义原,需要建模一种新的相似度计算方法,使其计算得到的度量结果能够逼近基于知网义原的相似度计算结果,即达到“相似性同构”。

技术实现思路

[0008]为了解决上述存在的技术问题,本专利技术的目的是提供一种基于网络嵌入和预训练模型的新概念义原预测方法,通过对《知网》中的字

词语

义项

义原及其关系的表示学习,融合预训练语言模型,实现词语与候选义原的动态匹配。
[0009]为了实现上述技术目的,本专利技术提供了一种基于网络嵌入和预训练模型的新概念义原预测方法,包括以下步骤:
[0010]构建HowNet的义原标注体系,用于通过有限的义原描述无限的概念集合,其中,义原用于表示最基本的、不再分割的最小语义单位;
[0011]基于义原标注体系,通过协同过滤机制,构建包括表示学习模块、候选义原选择模块和义原序列排序模块的义原预测模型,进行义原序列排序;
[0012]利用相似词语对应的概念获得待推荐义原的集合,通过在Hownet中进行相似词检索来获得查询词对应的相似词集合,基于上述全部词语、词语对应的概念义项及其义原,构建词语

义项

义原的关系子网络,并基于网络节点重要性排序方法选择候选义原节点,对HowNet进行扩展。
[0013]优选地,在构建义原标注体系的过程中,义原被划分为Entity|实体、Event|事件、Attribute|属性、Value|值以及SecondaryFeature|第二特征5个大类。
[0014]优选地,在通过义原预测模型进行义原序列排序的过程中,在表示学习模块,通过网络表示学习方法获得Hownet中的字和义原的向量表示,通过Sentence

Transformers模型得到输入Token的表示向量,并将其拼接到Token包含的字的向量表示上,拼接后的向量表示经过BiLstm和线性层得到输入Token的新的向量表示,该向量表示被用来与候选义原序列向量进行相似性判别,进而实现义原序列排序。
[0015]优选地,在构建词语

义项

义原的关系子网络的过程中,通过义原向上构建概念,由概念向上构建定义词,并依据定义词对应的一个或多个概念义项的定义,构建词语

义项

义原的关系子网络。
[0016]优选地,在获取候选义原节点时,通过Sentence

Transformers在HowNet中选择与未登录词语相似的词表词作为候选义原。
[0017]优选地,在选择候选义原节点的过程中,使用度中心性和介性中心度的两种中心性组合的度量方法评估义原节点的重要度,计算义原节点的推荐指数;
[0018]根据推荐指数,对候选义原进行组合,构成不同长度的义原序列,该序列将作为新概念义原标注的候选结果,形成候选义原节点。
[0019]优选地,在评估义原节点的重要度的过程中,度中心性用于在网络分析中刻画节点中心性,表示为:
[0020]C
d
(v
i
)=∑
j
x
ij
/max(C
d
(v
j
)),i≠j∈N
[0021]其中,x
ij
=1表示节点i与节点j之间存在直接联系,否则,x
ij
=0;v
i、
v
j
分别代表节点i与节点j,N为网络中全部节点的集合。
[0022]优选地,在评估义原节点的重要度的过程中,介性中心度表示为:
[0023][0024]其中,σ
st
表示从节点s到t的最短路径数,σ
st
(v
i
)表示从节点s到t的且经过v
i
的最短路径数。
[0025]优选地,在获取推荐指数的过程中,推荐指数表示为:
[0026]R(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络嵌入和预训练模型的新概念义原预测方法,其特征在于,包括以下步骤:构建HowNet的义原标注体系,用于通过有限的义原描述无限的概念集合,其中,所述义原用于表示最基本的、不再分割的最小语义单位;基于所述义原标注体系,通过协同过滤机制,构建包括表示学习模块、候选义原选择模块和义原序列排序模块的义原预测模型,进行义原序列排序;利用相似词语对应的概念获得待推荐义原的集合,通过在Hownet中进行相似词检索来获得查询词对应的相似词集合,基于上述全部词语、词语对应的概念义项及其义原,构建词语

义项

义原的关系子网络,并基于网络节点重要性排序方法选择候选义原节点,对HowNet进行扩展。2.根据权利要求1所述一种基于网络嵌入和预训练模型的新概念义原预测方法,其特征在于:在构建义原标注体系的过程中,义原被划分为Entity|实体、Event|事件、Attribute|属性、Value|值以及SecondaryFeature|第二特征5个大类。3.根据权利要求2所述一种基于网络嵌入和预训练模型的新概念义原预测方法,其特征在于:在通过义原预测模型进行义原序列排序的过程中,在表示学习模块,通过网络表示学习方法获得Hownet中的字和义原的向量表示,通过Sentence

Transformers模型得到输入Token的表示向量,并将其拼接到Token包含的字的向量表示上,拼接后的向量表示经过BiLstm和线性层得到输入Token的新的向量表示,该向量表示被用来与候选义原序列向量进行相似性判别,进而实现义原序列排序。4.根据权利要求3所述一种基于网络嵌入和预训练模型的新概念义原预测方法,其特征在于:在构建词语

义项

义原的关系子网络的过程中,通过所述义原向上构建概念,由所述概念向上构建定义词,并依据所述定义词对应的一个或多个概念义项的定义,构建词语

义项

义原的关系子网络。5.根据权利要求4所述一种基于网络嵌入和预训练模型的新概念义原预测方法,其特征在于:在获取候选义原节点时,通过Sentence

Transformers在HowNet中选择与未登录词语相似的词表词作为候选义原。6.根据权利要求5所述一种基于网络嵌入和预训...

【专利技术属性】
技术研发人员:白宇
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1