命名实体识别模型获取及命名实体识别方法、装置及介质制造方法及图纸

技术编号：28037364 阅读：27 留言：0更新日期：2021-04-09 23:19

本公开公开了命名实体识别模型获取及命名实体识别方法、装置及介质，涉及自然语言处理、深度学习及计算机视觉等人工智能领域，其中的模型获取方法可包括：对训练文本进行分词处理，利用各分词结果组成第一序列；将第一序列中至少包括两个单字且为非高频词的分词结果拆分为单字；将进行拆分处理后的所述第一序列中的单字对应的字嵌入向量及至少包括两个单字的高频词对应的词嵌入向量作为命名实体识别模型的输入，训练命名实体识别模型。应用本公开所述方案，可提升模型训练效果及模型性能，并可相应地提升基于模型得到的命名实体识别结果的准确性等。

全部详细技术资料下载

【技术实现步骤摘要】
命名实体识别模型获取及命名实体识别方法、装置及介质
本公开涉及人工智能
，特别涉及自然语言处理、深度学习及计算机视觉等领域的命名实体识别模型获取及命名实体识别方法、装置及介质。
技术介绍
命名实体识别(NER，NamedEntityRecognition)是指识别出文本中特定类别的实体词，如人名、地名、机构名等。命名实体识别任务是典型的序列标注任务，目前多基于神经网络模型实现，神经网络模型可预先训练得到。根据模型的输入处理的不同，可分为基于字粒度和基于词粒度的两种不同实现方式。其中，基于词粒度的方式需要进行分词，而分词容易出现错误，导致错误传递，而且难以解决新词问题，通常情况下，词的表示需要在训练过程中学习，因此模型难以表示新词，这些都会影响模型训练效果和模型性能以及基于模型得到的识别结果的准确性等，另外，基于字粒度的方式除了需要区分实体词的类别外，还需要区分实体词的边界，模型学习难度比较大等。
技术实现思路
本公开提供了命名实体识别模型获取及命名实体识别方法、装置及介质。一...

【技术保护点】
1.一种命名实体识别模型获取方法，包括：/n对训练文本进行分词处理，利用各分词结果组成第一序列；/n将所述第一序列中至少包括两个单字且为非高频词的分词结果拆分为单字；/n将进行拆分处理后的所述第一序列中的单字对应的字嵌入向量及至少包括两个单字的高频词对应的词嵌入向量作为命名实体识别模型的输入，训练所述命名实体识别模型。/n

【技术特征摘要】
1.一种命名实体识别模型获取方法，包括：
对训练文本进行分词处理，利用各分词结果组成第一序列；
将所述第一序列中至少包括两个单字且为非高频词的分词结果拆分为单字；
将进行拆分处理后的所述第一序列中的单字对应的字嵌入向量及至少包括两个单字的高频词对应的词嵌入向量作为命名实体识别模型的输入，训练所述命名实体识别模型。

2.根据权利要求1所述的方法，其中，所述将所述第一序列中至少包括两个单字且为非高频词的分词结果拆分为单字包括：
针对任一至少包括两个单字的分词结果，若确定所述分词结果没有位于预先生成的高频词表中，则确定所述分词结果为非高频词，并将所述分词结果拆分为M个单字，M表示所述分词结果中包括的单字的数量。

3.根据权利要求2所述的方法，还包括：
若确定所述分词结果位于所述高频词表中，则确定所述分词结果为高频词，并维持所述分词结果不变。

4.根据权利要求2所述的方法，还包括：
分别对各训练文本进行分词处理；
分别获取各分词结果的出现频率；
将出现频率大于预定阈值且至少包括两个单字的分词结果作为高频词，利用各高频词组成所述高频词表。

5.根据权利要求4所述的方法，还包括：
若确定任一分词结果出现实体词分词边界错误的情况，则过滤掉所述分词结果，将剩余的分词结果中出现频率大于预定阈值且至少包括两个单字的分词结果作为高频词。

6.一种命名实体识别方法，包括：
对待识别文本进行分词处理，利用各分词结果组成第二序列；
将所述第二序列中至少包括两个单字且为非高频词的分词结果拆分为单字；
将进行拆分处理后的所述第二序列中的单字对应的字嵌入向量及至少包括两个单字的高频词对应的词嵌入向量输入预先训练得到的命名实体识别模型，得到所述待识别文本对应的命名实体识别结果。

7.根据权利要求6所述的方法，其中，所述将所述第二序列中至少包括两个单字且为非高频词的分词结果拆分为单字包括：
针对任一至少包括两个单字的分词结果，若确定所述分词结果没有位于预先生成的高频词表中，则确定所述分词结果为非高频词，并将所述分词结果拆分为M个单字，M表示所述分词结果中包括的单字的数量。

8.根据权利要求7所述的方法，还包括：
若确定所述分词结果位于所述高频词表中，则确定所述分词结果为高频词，并维持所述分词结果不变。

9.一种命名实体识别模型获取装置，包括：第一分词模块、第一拆分模块以及模型训练模块；
所述第一分词模块，用于对训练文本进行分词处理，利用各分词结果组成第一序列；
所述第一拆分模块，用于将所述第一序列中至少包括两个单字且为非高频词的分词结果拆分为单字；
所述模型训练模块，用于将进行拆分处理后的所述第一序列中的单字对应的字嵌入向量及至少包括两个单字的高频词对应的词嵌入...

【专利技术属性】
技术研发人员：黄定帮，付志宏，何径舟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人