一种利用不确定分词信息实现中文命名实体识别方法技术

技术编号：24576527 阅读：93 留言：0更新日期：2020-06-21 00:27

本发明专利技术涉及一种利用不确定分词信息实现中文命名实体识别方法，本发明专利技术为了让分词信息在识别系统中发挥效用的同时避免将分词错误引入到识别系统中来，提出一种利用不确定分词信息实现中文命名实体识别模型，不确定分词信息包含所有分词情况而不是单独的一种，对字符候选分词位置信息编码，采用动态注意力机制整合分词的不确定信息。识别过程中，模型动态地选择有益的分词信息而自动忽视错误信息，最后得到最优的分词结果。与现有技术相比，本发明专利技术具有有效缓解错误级联、增强字符向量语义表达、分词错误率低等优点。

A Chinese named entity recognition method based on uncertain word segmentation information

全部详细技术资料下载

【技术实现步骤摘要】
一种利用不确定分词信息实现中文命名实体识别方法
本专利技术涉及自然语言处理学(NLP)
，涉及一种中文命名实体识别(NER)的方法，尤其是涉及一种利用不确定分词信息实现中文命名实体识别(UIcwsNN)方法。
技术介绍
命名实体识别是NLP领域的基本任务并且有丰富的下层应用。然而相对于英文，中文句子没有分隔符，即中文文本是以字为单位的序列，词与词无法直接区分开来，而词语级别的信息对于命名实体识别是非常重要的。现有的分词工具会输出大量错误的分词结果，从而导致命名实体识别难以实现，识别效果不理想。已有的中文命名实体识别方法，通常将其看作一个字符序列标注问题，通过对字分配标记完成命名实体识别。在字符级上进行字符序列的标注，把分词信息以特征向量方式加入标注系统，然而分词错误信息同样会引入，即便是同时进行命名实体和分词模型的训练，分词的错误信息依然会流入命名实体系统，产生噪声或错误，这种多任务联合学习无疑会增加模型训练的开销。综上，这些方法在利用分词信息时有一个共同的疏忽点，就是都是将自认为正确的分词信息引入到实体识别系...

【技术保护点】
1.一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，该方法包括以下步骤：/n步骤1：输入中文文本S，得到字符序列S

【技术特征摘要】
1.一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，该方法包括以下步骤：
步骤1：输入中文文本S，得到字符序列SC，进一步训练SC得到字符向量
步骤2：将得到的字符序列SC输入分词模型中得到所有候选分词信息，并进一步根据字符可能位置得到字符候选分词位置向量
步骤3：结合得到的和通过相应映射矩阵并拼接得到字符位置融合向量
步骤4：将得到的输入卷积神经网络，选取卷积窗口并双向截取得到相邻字符特征向量
步骤5：将所有的取j次并全部拼接得到结合及其相应映射矩阵再利用激活函数和时间分布层进一步得到语义位置特征向量Ai；
步骤6：对Ai进行softmax处理，输出得到字符在分词位置的概率向量
步骤7：结合得到的和通过相应映射矩阵并拼接得到字符概率位置融合向量
步骤8：将得到的输入卷积神经网络，重复步骤4至步骤5解码得到字符位置向量利用标注集进行标注得到字符位置标准序列pi；
步骤9：根据pi得到字符位置标注序列Sp并将其作为S的分词边界标注，在数据集运行后计算综合评价指标并逐步实现中文命名实体识别。

2.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤1中的训练的方法包括Word2vec、FastText或Glove。

3.根据权利要求1所述的一种利用不确定分词信息实现中文命名实体识别方法，其特征在于，所述的步骤2中的分词模型包括jieba、THULAC或HanLP。

4.根据权利要求1所述的一种利用不确定分词信息实...

【专利技术属性】
技术研发人员：向阳，贾圣宾，徐忠国，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人