【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,具体涉及一种中文舰船实体识别方法。
技术介绍
1、为了构建舰船领域知识图谱,首先需要识别舰船领域相关实体,舰船领域实体存在大量的嵌套实体和缩写形式。例如,某国家的人名命名规则为姓·名,则该国家的航空母舰可以采用该国领导人的名字而命名,即为“姓·名号航空母舰”,这类舰船名称中存在嵌套人名,此外,上述舰船通常也可以被简称为“名号航空母舰”或“姓·名号”,目前的分词模型适用于通用领域,在舰船领域,遇到如上述情况时,分词准确性不高,容易引起由于分词错误导致的误差传播进而引起实体识别精确度降低。此外,由于中文的拼音特征和结构特征蕴含了丰富的实体信息,例如,拼音jian chuan一般和舰船实体相关联,且舰船两个字均有舟字边。
2、中文舰船领域,既有上述舰船领域分词困难的特点,也有中文的字符和词汇特点,因此,目前针对中文舰船缺乏一种通用且识别准确率高的实体识别算法。
技术实现思路
1、本专利技术的目的是提供一种融合拼音特征和结构特征的中文中文舰船实体识别方法
...【技术保护点】
1.一种中文舰船实体识别方法,其特征在于,包括:
2.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述S1中的所述根据原始输入文本构建词汇,具体包括根据原始输入文本挖掘相关联的潜在词汇。
3.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述S2中,预训练模型采用ChineseBert模型,且所述预训练模型在预训练阶段选择全词掩码策略。
4.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述S3中,对所述词汇进行拼音标注,将拼音转化为张量,并输入卷积层进行卷积操作,然后进入最大池化层和全连接层,从而得到拼音
...【技术特征摘要】
1.一种中文舰船实体识别方法,其特征在于,包括:
2.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s1中的所述根据原始输入文本构建词汇,具体包括根据原始输入文本挖掘相关联的潜在词汇。
3.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s2中,预训练模型采用chinesebert模型,且所述预训练模型在预训练阶段选择全词掩码策略。
4.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s3中,对所述词汇进行拼音标注,将拼音转化为张量,并输入卷积层进行卷积操作,然后进入最大池化层和全连接层,从而得到拼音特征向量为pinyin_embedding;
5.根据权利要求1所述的中文舰船实体识别方法,其特征在于,所述s...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。