一种基于中文字符词性特征的目标实体识别方法及装置制造方法及图纸

技术编号:19691935 阅读:19 留言:0更新日期:2018-12-08 11:12
本发明专利技术涉及一种基于中文字符词性特征的目标实体识别方法及装置。该方法包括:1)在训练文本中标记目标实体并进行分词及词性标注;2)将训练文本拆分为字符,得到字符序列,每个字符保留拆分之前的词性;3)将字符的词性与字符在分词中的位置进行拼接作为字符词性,得到字符词性序列;4)将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到目标实体识别结果。本发明专利技术能够根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。

【技术实现步骤摘要】
一种基于中文字符词性特征的目标实体识别方法及装置
本专利技术属于自然语言处理领域,具体涉及一种基于中文字符词性特征的目标实体识别方法及装置,可使用中文文本中字符的词性特征经由神经网络模型自动提取文本中的目标实体。
技术介绍
文本中经常含有多个类型的多个实体,本专利技术中提及的目标实体专指文本中用户所关注的某特定实体,例如:“北京动物园位于西城区,园中有大熊猫等500余种动物。”在这句话中,包含“北京动物园”、“西城区”、“大熊猫”三个不同类型实体,而“北京动物园”为整个点评的主要实体,因此将“北京动物园”认定为此文本中的目标实体。在信息爆炸的今天,互联网中每分钟都会产生海量的文本数据;随着移动终端在中国的普及,网络社交呈现出碎片化的趋势。用户在使用互联网的过程中,会不断产生大量的碎片信息,如:微博、影评、食评、购物评价、游记等。通过对这些文本进行分析,服务商就能更加了解用户,从而提供更好的用户体验。要对海量的文本进行分析,首要任务就是根据需求对每个文本的特定目标实体进行识别。传统的目标实体识别方法有以下两种,一种是基于特定规则匹配的方法,另一种是基于统计机器学习的方法。基于特定规则匹配的方法以规则模板和字符串匹配为主要手段,虽然准确率高,但往往依赖于具体语言和文本风格,仅适用于规律显著的文本内容,规则制定过程耗时大,规则模板的可移植性差。而互联网信息所含的文本种类丰富、语言碎片化,并且目标实体的类型不固定,这些特点也使得特定规则很难在互联网中文文本中准确识别出需要的目标实体。基于统计机器学习的方法主要包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵模型(MaxmiumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandomFields,CRF)等。基于统计的方法对特征选取的要求较高,需要从文本中选择能有效反映目标实体特性的特征,而这些特征的选取非常依赖人工经验。
技术实现思路
本专利技术的目的在于提供一种基于中文字符词性特征的目标实体识别方法及装置,能根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。本专利技术采用的技术方案如下:一种基于中文字符词性特征的目标实体识别方法,包括以下步骤:1)在训练文本中标记目标实体,并对训练文本进行分词及词性标注;2)将训练文本拆分为字符,各个字符构成字符序列,每个字符保留拆分之前的词性;3)标注每个字符在分词中的位置,将字符的词性与字符在分词中的位置进行拼接作为字符词性,各个字符的字符词性构成字符词性序列;4)将步骤1)对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到待识别文本的字符标注序列,通过将字符标注序列拼接并还原得到目标实体识别结果。进一步地,所述字符序列、所述字符词性序列、所述字符标注序列为三个相互对齐的特征序列。进一步地,步骤3)所述标注每个字符在分词中的位置,是将第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,单独作为一个词的字符标记为S。进一步地,步骤4)将不在目标实体内的字符用O或其它记号标记为空值。进一步地,步骤5)所述机器学习模型为BiLSTM+CRF模型,其中BiLSTM层接收字符序列、字符词性序列两个输入序列。进一步地,步骤5)包括:5.1)将字符序列、字符词性序列、字符标注序列通过词典的方式进行编号,得到用于训练模型的特征向量与目标向量;5.2)将大量的特征向量与目标向量传入BiLSTM+CRF模型中,通过参数调优得到所需的机器学习模型,该机器学习模型以字符向量、字符词性向量作为输入值,输出字符标注向量。一种采用上面所述方法的基于中文字符词性特征的目标实体识别装置,其包括:模型训练模块,负责根据训练文本得到字符序列、字符词性序列和字符标注序列,将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;目标实体识别模块,负责将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到待识别文本的字符标注序列,通过将字符标注序列拼接并还原得到目标实体识别结果。进一步地,所述模型训练模块包括:目标实体标记子模块,负责在训练文本中标记目标实体;分词及词性标注子模块,负责对训练文本进行分词及词性标注;字符拆分子模块,负责将训练文本拆分为字符,各个字符构成字符序列,每个字符保留拆分之前的词性;字符词性序列构建子模块,负责标注每个字符在分词中的位置,将字符的词性与字符在分词中的位置进行拼接作为字符词性,各个字符的字符词性构成字符词性序列;字符标注序列构建子模块,负责将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;模型训练子模块,负责将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练。进一步地,所述字符词性序列构建子模块标注每个字符在分词中的位置时,将第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,单独作为一个词的字符标记为S;所述字符标注序列构建子模块将不在目标实体内的字符用O或其它记号标记为空值。进一步地,所述机器学习模型为BiLSTM+CRF模型,其中BiLSTM层接收字符序列、字符词性序列两个输入序列。利用本专利技术提供的方法与设施识别并提取中文文本的目标实体,具有以下优点:1、本专利技术利用字符及字符词性,通过变体BiLSTM+CRF模型,能准确识别并提取目标实体,避免了特定规则匹配与人工选择特征的缺点;2、本专利技术应用的是字符级别的特征,减少了分词工具不准确分词导致词级别特征不准确的问题;3、本专利技术对BiLSTM+CRF模型进行了改进,使其对特征向量的组合更加灵活,在不增加神经网络层的情况下能充分利用字符级别相互对齐的序列特征。附图说明图1是本专利技术使用语料构建并并训练模型的主要流程图。图2是本专利技术采用的变体BiLSTM+CRF模型示意图,其中I/O/B/E/S表示目标实体映射至字符得到的字符标注序列。图3是本专利技术使用已有模型(预训练模型)的主要流程图。具体实施方式下面通过具体实施例和附图,对本专利技术做进一步详细说明。本专利技术的基于中文文本字符词性特征的目标实体识别方法,能根据不同需求在中文文本中有效地将所需的目标实体提取出来。该方法包括两个步骤:第一步是使用已经标注的文本数据集来训练模型;第二步是使用第一步训练得到的模型来识别新文本中的目标实体。第一步与第二步不需要连续进行,可单独进行第一步得到预训练模型之后,再在别的场景直接进行第二步识别。第一步训练模型的主要步骤流程如图1所示,包括:1)准备训练文本,标记好目标实体。2)使用分词工具对文本进行分词及词性标注。3)将文本按照顺序拆分成为单个字符,各个字符构成“字符序列”。每个字符都保留拆分之前的词性;将每个字符在分词中处于的位置进行标注。例如词组的第一个字符标记为B(begin),中间字符标记为M(middle),最后一个字符标记为E(end),单独作为一个词的字符标记为S(single)。将字符保本文档来自技高网
...

【技术保护点】
1.一种基于中文字符词性特征的目标实体识别方法,其特征在于,包括以下步骤:1)在训练文本中标记目标实体,并对训练文本进行分词及词性标注;2)将训练文本拆分为字符,各个字符构成字符序列,每个字符保留拆分之前的词性;3)标注每个字符在分词中的位置,将字符的词性与字符在分词中的位置进行拼接作为字符词性,各个字符的字符词性构成字符词性序列;4)将步骤1)对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到待识别文本的字符标注序列,通过将字符标注序列拼接并还原得到目标实体识别结果。

【技术特征摘要】
1.一种基于中文字符词性特征的目标实体识别方法,其特征在于,包括以下步骤:1)在训练文本中标记目标实体,并对训练文本进行分词及词性标注;2)将训练文本拆分为字符,各个字符构成字符序列,每个字符保留拆分之前的词性;3)标注每个字符在分词中的位置,将字符的词性与字符在分词中的位置进行拼接作为字符词性,各个字符的字符词性构成字符词性序列;4)将步骤1)对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到待识别文本的字符标注序列,通过将字符标注序列拼接并还原得到目标实体识别结果。2.根据权利要求1所述的方法,其特征在于,所述字符序列、所述字符词性序列、所述字符标注序列为三个相互对齐的特征序列。3.根据权利要求1所述的方法,其特征在于,步骤3)所述标注每个字符在分词中的位置,是将第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,单独作为一个词的字符标记为S。4.根据权利要求1所述的方法,其特征在于,步骤4)将不在目标实体内的字符用O或其它记号标记为空值。5.根据权利要求1所述的方法,其特征在于,步骤5)所述机器学习模型为BiLSTM+CRF模型,其中BiLSTM层接收字符序列、字符词性序列两个输入序列。6.根据权利要求5所述的方法,其特征在于,步骤5)包括:5.1)将字符序列、字符词性序列、字符标注序列通过词典的方式进行编号,得到用于训练模型的特征向量与目标向量;5.2)将大量的特征向量与目标向量传入BiLSTM+CRF模型中,通过参数调优得到所需的机器学习模型,该机器学习模型以字符向量、字...

【专利技术属性】
技术研发人员:李全刚柳厅文李彦增王学宾亚静李柢颖时金桥
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1