中文舰船实体识别方法技术

技术编号:40365802 阅读:19 留言:0更新日期:2024-02-20 22:12
本发明专利技术涉及中文舰船实体识别方法,包括:根据原始输入文本构建词汇和二元词汇作为输入词汇信息,输入预训练层,得到预训练的字符词汇特征向量;构建词汇的拼音特征向量,并通过词汇向量词典和二元词汇向量词典构建词汇向量和二元词汇向量,将字符词汇特征向量、拼音特征向量、词汇向量和二元词汇向量连接得到词汇输入向量;通过结构拆字词典获得字符的结构特征并确定结构特征输入向量;将词汇输入向量和结构特征输入向量输入交叉变换网络分别得到词汇和字符结构的注意力特征;将词汇和字符结构的注意力特征进行全连接并输入条件随机场,从而确定舰船实体。本发明专利技术避免了分词问题并融合了中文的拼音和结构特征,有效提高中文舰船实体识别精确度。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,具体涉及一种中文舰船实体识别方法


技术介绍

1、为了构建舰船领域知识图谱,首先需要识别舰船领域相关实体,舰船领域实体存在大量的嵌套实体和缩写形式。例如,某国家的人名命名规则为姓·名,则该国家的航空母舰可以采用该国领导人的名字而命名,即为“姓·名号航空母舰”,这类舰船名称中存在嵌套人名,此外,上述舰船通常也可以被简称为“名号航空母舰”或“姓·名号”,目前的分词模型适用于通用领域,在舰船领域,遇到如上述情况时,分词准确性不高,容易引起由于分词错误导致的误差传播进而引起实体识别精确度降低。此外,由于中文的拼音特征和结构特征蕴含了丰富的实体信息,例如,拼音jian chuan一般和舰船实体相关联,且舰船两个字均有舟字边。

2、中文舰船领域,既有上述舰船领域分词困难的特点,也有中文的字符和词汇特点,因此,目前针对中文舰船缺乏一种通用且识别准确率高的实体识别算法。


技术实现思路

1、本专利技术的目的是提供一种融合拼音特征和结构特征的中文中文舰船实体识别方法,可准确地识别舰船实本文档来自技高网...

【技术保护点】

1.一种中文舰船实体识别方法,其特征在于,包括:

2.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述S1中的所述根据原始输入文本构建词汇,具体包括根据原始输入文本挖掘相关联的潜在词汇。

3.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述S2中,预训练模型采用ChineseBert模型,且所述预训练模型在预训练阶段选择全词掩码策略。

4.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述S3中,对所述词汇进行拼音标注,将拼音转化为张量,并输入卷积层进行卷积操作,然后进入最大池化层和全连接层,从而得到拼音特征向量为pinyi...

【技术特征摘要】

1.一种中文舰船实体识别方法,其特征在于,包括:

2.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s1中的所述根据原始输入文本构建词汇,具体包括根据原始输入文本挖掘相关联的潜在词汇。

3.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s2中,预训练模型采用chinesebert模型,且所述预训练模型在预训练阶段选择全词掩码策略。

4.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s3中,对所述词汇进行拼音标注,将拼音转化为张量,并输入卷积层进行卷积操作,然后进入最大池化层和全连接层,从而得到拼音特征向量为pinyin_embedding;

5.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s...

【专利技术属性】
技术研发人员:王昱周庆瑞
申请(专利权)人:中国空间技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1