一种基于网络嵌入和预训练模型的新概念义原预测方法技术

技术编号：37713131 阅读：12 留言：0更新日期：2023-06-02 00:07

本发明专利技术公开了一种基于网络嵌入和预训练模型的新概念义原预测方法，包括以下步骤：基于构建的HowNet的义原标注体系，通过协同过滤机制，构建包括表示学习模块、候选义原选择模块和义原序列排序模块的义原预测模型，进行义原序列排序；利用相似词语对应的概念获得待推荐义原的集合，通过在Hownet中进行相似词检索来获得查询词对应的相似词集合，基于上述全部词语、词语对应的概念义项及其义原，构建词语

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网络嵌入和预训练模型的新概念义原预测方法

[0001]本专利技术涉及义原预测
，尤其涉及一种基于网络嵌入和预训练模型的新概念义原预测方法。

技术介绍

[0002]HowNet(知网)自问世以来，受到自然语言处理领域的广泛关注，国内外学者在词汇语义消歧、相似度计算、文本分类和信息检索等方面探索了HowNet的重要应用价值。研究发现，HowNet通过统一的义原标注体系直接刻画语义信息，且每个义原含义明确固定，可被直接作为语义标签融入机器学习模型，使自然语言处理深度学习模型具有更好的鲁棒性和可解释性。
[0003]义原(Sememe)是构成概念描述的核心部件。目前，《知网》构建了包含约2230个义原的精细的语义描述体系，并为约14.8万概念标注了义原。
[0004]然而，与其他依靠人工构建的知识库系统一样，HowNet存在着规模有限、更新扩展维护成本高的问题。相关研究[9]表明，没有HowNet背景知识和未经专门训练的人员难以较好地完成义原标注任务。这导致HowNet潜在的巨大应用价值与其自身规模有限、语义资源稀疏且难扩展的矛盾，解决这个矛盾的一个可行的途径就是开展HowNet的自动或半自动构建技术的研究，其核心问题之一就是为新概念的描述选择合适的义原。
[0005]新概念是指随时代发展而新出现或旧词新用的概念。随着互联网应用的普及，文本大数据中大量的新词不断出现，同时现有词语的含义被延伸和扩展，因此有必要对以义原为基础的语义知识库进行持续地修正和扩充。在词汇义原自动标注方面，XIE等...

【技术保护点】

【技术特征摘要】
1.一种基于网络嵌入和预训练模型的新概念义原预测方法，其特征在于，包括以下步骤：构建HowNet的义原标注体系，用于通过有限的义原描述无限的概念集合，其中，所述义原用于表示最基本的、不再分割的最小语义单位；基于所述义原标注体系，通过协同过滤机制，构建包括表示学习模块、候选义原选择模块和义原序列排序模块的义原预测模型，进行义原序列排序；利用相似词语对应的概念获得待推荐义原的集合，通过在Hownet中进行相似词检索来获得查询词对应的相似词集合，基于上述全部词语、词语对应的概念义项及其义原，构建词语
‑
义项
‑
义原的关系子网络，并基于网络节点重要性排序方法选择候选义原节点，对HowNet进行扩展。2.根据权利要求1所述一种基于网络嵌入和预训练模型的新概念义原预测方法，其特征在于：在构建义原标注体系的过程中，义原被划分为Entity|实体、Event|事件、Attribute|属性、Value|值以及SecondaryFeature|第二特征5个大类。3.根据权利要求2所述一种基于网络嵌入和预训练模型的新概念义原预测方法，其特征在于：在通过义原预测模型进行义原序列排序的过程中，在表示学习模块，通过网络表示学习方法获得Hownet中的字和义原的向量表示，通过Sentence
‑
Transformers模型得到输入Token的表示向量，并将其拼接到Token包含的字的向量表示上，拼接后的向量表示经过BiLstm和线性层得到输入Token的新的向量表示，该向量表示被用来与候选义原序列向量进行相似性判别，进而实现义原序列排序。4.根据权利要求3所述一种基于网络嵌入和预训练模型的新概念义原预测方法，其特征在于：在构建词语
‑
义项
‑
义原的关系子网络的过程中，通过所述义原向上构建概念，由所述概念向上构建定义词，并依据所述定义词对应的一个或多个概念义项的定义，构建词语
‑
义项
‑
义原的关系子网络。5.根据权利要求4所述一种基于网络嵌入和预训练模型的新概念义原预测方法，其特征在于：在获取候选义原节点时，通过Sentence
‑
Transformers在HowNet中选择与未登录词语相似的词表词作为候选义原。6.根据权利要求5所述一种基于网络嵌入和预训...

【专利技术属性】
技术研发人员：白宇，
申请(专利权)人：沈阳航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人