一种基于中文字符词性特征的目标实体识别方法及装置制造方法及图纸

技术编号：19691935 阅读：19 留言：0更新日期：2018-12-08 11:12

本发明专利技术涉及一种基于中文字符词性特征的目标实体识别方法及装置。该方法包括：1)在训练文本中标记目标实体并进行分词及词性标注；2)将训练文本拆分为字符，得到字符序列，每个字符保留拆分之前的词性；3)将字符的词性与字符在分词中的位置进行拼接作为字符词性，得到字符词性序列；4)将对目标实体的标记映射至目标实体中的各个字符上，得到字符标注序列；5)将字符序列与字符词性序列作为特征，将字符标注序列作为训练目标值，输入机器学习模型中进行训练；6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型，得到目标实体识别结果。本发明专利技术能够根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文字符词性特征的目标实体识别方法及装置
本专利技术属于自然语言处理领域，具体涉及一种基于中文字符词性特征的目标实体识别方法及装置，可使用中文文本中字符的词性特征经由神经网络模型自动提取文本中的目标实体。
技术介绍
文本中经常含有多个类型的多个实体，本专利技术中提及的目标实体专指文本中用户所关注的某特定实体，例如：“北京动物园位于西城区，园中有大熊猫等500余种动物。”在这句话中，包含“北京动物园”、“西城区”、“大熊猫”三个不同类型实体，而“北京动物园”为整个点评的主要实体，因此将“北京动物园”认定为此文本中的目标实体。在信息爆炸的今天，互联网中每分钟都会产生海量的文本数据；随着移动终端在中国的普及，网络社交呈现出碎片化的趋势。用户在使用互联网的过程中，会不断产生大量的碎片信息，如：微博、影评、食评、购物评价、游记等。通过对这些文本进行分析，服务商就能更加了解用户，从而提供更好的用户体验。要对海量的文本进行分析，首要任务就是根据需求对每个文本的特定目标实体进行识别。传统的目标实体识别方法有以下两种，一种是基于特定规则匹配的方法，另一种是基于统计机器学习的方法。基于特定规则匹配的方法以规则模板和字符串匹配为主要手段，虽然准确率高，但往往依赖于具体语言和文本风格，仅适用于规律显著的文本内容，规则制定过程耗时大，规则模板的可移植性差。而互联网信息所含的文本种类丰富、语言碎片化，并且目标实体的类型不固定，这些特点也使得特定规则很难在互联网中文文本中准确识别出需要的目标实体。基于统计机器学习的方法主要包括：隐马尔可夫模型(HiddenMarkovMode,...

【技术保护点】
1.一种基于中文字符词性特征的目标实体识别方法，其特征在于，包括以下步骤：1)在训练文本中标记目标实体，并对训练文本进行分词及词性标注；2)将训练文本拆分为字符，各个字符构成字符序列，每个字符保留拆分之前的词性；3)标注每个字符在分词中的位置，将字符的词性与字符在分词中的位置进行拼接作为字符词性，各个字符的字符词性构成字符词性序列；4)将步骤1)对目标实体的标记映射至目标实体中的各个字符上，得到字符标注序列；5)将字符序列与字符词性序列作为特征，将字符标注序列作为训练目标值，输入机器学习模型中进行训练；6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型，得到待识别文本的字符标注序列，通过将字符标注序列拼接并还原得到目标实体识别结果。

【技术特征摘要】
1.一种基于中文字符词性特征的目标实体识别方法，其特征在于，包括以下步骤：1)在训练文本中标记目标实体，并对训练文本进行分词及词性标注；2)将训练文本拆分为字符，各个字符构成字符序列，每个字符保留拆分之前的词性；3)标注每个字符在分词中的位置，将字符的词性与字符在分词中的位置进行拼接作为字符词性，各个字符的字符词性构成字符词性序列；4)将步骤1)对目标实体的标记映射至目标实体中的各个字符上，得到字符标注序列；5)将字符序列与字符词性序列作为特征，将字符标注序列作为训练目标值，输入机器学习模型中进行训练；6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型，得到待识别文本的字符标注序列，通过将字符标注序列拼接并还原得到目标实体识别结果。2.根据权利要求1所述的方法，其特征在于，所述字符序列、所述字符词性序列、所述字符标注序列为三个相互对齐的特征序列。3.根据权利要求1所述的方法，其特征在于，步骤3)所述标注每个字符在分词中的位置，是将第一个字符标记为B，中间字符标记为M，最后一个字符标记为E，单独作为一个词的字符标记为S。4.根据权利要求1所述的方法，其特征在于，步骤4)将不在目标实体内的字符用O或其它记号标记为空值。5.根据权利要求1所述的方法，其特征在于，步骤5)所述机器学习模型为BiLSTM+CRF模型，其中BiLSTM层接收字符序列、字符词性序列两个输入序列。6.根据权利要求5所述的方法，其特征在于，步骤5)包括：5.1)将字符序列、字符词性序列、字符标注序列通过词典的方式进行编号，得到用于训练模型的特征向量与目标向量；5.2)将大量的特征向量与目标向量传入BiLSTM+CRF模型中，通过参数调优得到所需的机器学习模型，该机器学习模型以字符向量、字...

【专利技术属性】
技术研发人员：李全刚，柳厅文，李彦增，王学宾，亚静，李柢颖，时金桥，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人