一种基于演示和标签增强的网格标记细粒度概念方法技术

技术编号：40020442 阅读：25 留言：0更新日期：2024-01-16 16:40

本发明专利技术针对网格标记算法挖掘非连续实体或概念的能力欠佳、模型泛化能力较差、概念粒度不够细化的问题，提出一种基于演示和标签增强的网格标记细粒度概念方法，统一识别输入序列中的扁平、嵌套和非连续的实体或概念，不影响统一识别能力的情况，提高模型在非连续场景的识别精度，且赋予模型一定的较少样本学习能力。特别地，本发明专利技术设计了一种演示模板、提出了两种演示搜索策略，构造演示序列并编码，通过动态加权的方式以增强输入特征；又引入多头注意力机制现捕捉不同标签对不同位置的注意力权值，获得标签感知特征；接着再引入旋转位置编码以保留输入序列的位置信息，迭代融合词对网格特征和标签感知特征。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域。

技术介绍

1、在信息爆炸的大数据时代，智能机器理解和推理自然语言的重要基石是知识。知识图谱赋能可解释的人工智能，于是构建大规模、语义关系丰富、结构友好、高质量的知识图谱成为了机器理解自然语言的必要条件。在愈发火热的认知智能研究中，规模足够大、概念足够准确、粒度足够细的概念图谱能够更有效地赋能机器以认知智能，可广泛应用于用户查询理解、语义搜索、自然语言推理等众多下游领域。

2、概念图谱基于海量结构化、半结构化和非结构化的文本数据构建，诸如百科词条、用户标签、组合短语、词典中词条释义等短文本数据源，同样蕴含丰富的实体和概念知识，但难以通过传统的关系抽取算法准确高效地获取其中的细粒度概念知识。同时，准确全面地识别和挖掘短文本中的扁平、嵌套和非连续的实体/概念，是构建细粒度、准确的、大规模概念图谱的基础，是必不可少的环节。

3、w2ner作为一种统一多类型实体/概念识别的网格标记算法，将实体(或概念)识别问题转化为网格中词对关系分类问题。针对自然语言序列中实体和概念词与非实体和概念词之间...

【技术保护点】

1.一种基于演示和标签增强的网格标记细粒度概念方法，包括以下步骤：

2.如权利要求1所述方法，其特征在于，步骤1引入Demonstration-Learning(演示学习)的思想，在训练集中搜索针对与输入相关的句子，设计了针对任务的演示模板，构建了与输入句级语义高度相关、词级语义有差异的演示句，以实现信息增强的目的，同时赋予模型一定的较少样本学习能力；具体地，本专利技术针对统一识别和挖掘细粒度概念的任务，设计一种演示模板，提出了两种演示搜索策略，采用编码演示序列、动态加权的方式增强输入特征，获得词级表示特征。

3.如权利要求1所述方法，其特征在于，步骤5引入多头注...

【技术特征摘要】

1.一种基于演示和标签增强的网格标记细粒度概念方法，包括以下步骤：

2.如权利要求1所述方法，其特征在于，步骤1引入demonstration-learning(演示学习)的思想，在训练集中搜索针对与输入相关的句子，设计了针对任务的演示模板，构建了与输入句级语义高度相关、词级语义有差异的演示句，以实现信息增强的目的，同时赋予模型一定的较少样本学习能力；具体地，本发明针对统一识别和挖掘细粒度概念的任务，设计一种演示模板，提出了两种演示搜索策略，采用编码演示序列、动态加权的方式增强输入特征，获得词级表示特征。

3.如权利要求1所述方法，其特征在于，步骤5引入多...

【专利技术属性】
技术研发人员：贾海涛，黄婧，毛有思，周焕来，陈泓秀，江雪婷，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人