文本实体识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24800209 阅读:21 留言:0更新日期:2020-07-07 21:09
本申请涉及一种文本实体识别方法,该方法包括:获取待识别实体的文本;将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。通过采用分词机制作为补充识别,提高了实体识别的准确率。此外,还提出了一种文本实体识别装置、计算机设备及存储介质。

【技术实现步骤摘要】
文本实体识别方法、装置、计算机设备及存储介质
本专利技术涉及计算机处理领域,尤其是涉及一种文本实体识别方法、装置、计算机设备及存储介质。
技术介绍
随着深度学习技术的成熟以及计算机性能的提升,深度学习技术广泛运用于文本实体识别任务中,尤其是机器人对话语料,需要获取实体才能进行相关的会话编排。然而,深度学习实体识别模型预测的准确率具有一定的瓶颈(只能达到80%到90%之间),所以传统的语料中的实体识别的准确率偏低。
技术实现思路
基于此,有必要针对上述问题,提供了一种实体识别准确率高的文本实体识别方法、装置、计算机设备及存储介质。第一方面,本专利技术实施例提供一种文本实体识别方法,所述方法包括:获取待识别实体的文本;将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。在其中一个实施例中,所述采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集,包括:通过分词机制对所述文本进行分词处理,得到多个词语和相应的词语类型;根据所述词语类型从所述多个词语中提取出符合实体类型的词语,得到第二预测实体集。在其中一个实施例中,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,包括:获取所述第一预测实体集和所述第二预测实体集的交集,将所述交集中的实体作为目标实体。在其中一个实施例中,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体,还包括:将所述第一预测实体集中的第一实体与所述第二预测实体集中的第二实体进行匹配;当所述第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;当所述第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。在其中一个实施例中,在所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集之后,还包括:将所述目标实体集中的目标实体与预设实体库中的实体进行匹配,当所述目标实体在所述预设实体库中时,则判定所述目标实体为第一类实体;当所述目标实体不在所述预设实体库中时,则判定所述目标实体为第二类实体。在其中一个实施例中,所述方法还包括:当所述目标实体集中包含有英文实体时,获取所述英文实体对应的多个变形英文实体;将所述多个变形英文实体与所述预设实体库中的实体进行匹配;当所述多个变形英文实体中的至少一个变形英文实体在所述预设实体库中时,则判定对应的所述英文实体为第一类实体,否则,判定对应的所述英文实体为第二类实体。在其中一个实施例中,所述方法还包括:当所述第一预测实体集为空时,获取所述第二预测实体集中的实体和相应的实体类型;获取所述文本的意图,根据所述文本的意图确定目标实体类型;根据所述目标实体类型从所述第二预测实体集中筛选出符合所述目标实体类型的目标实体。第二方面,本专利技术实施例提供一种文本实体识别装置,所述装置包括:文本获取模块,用于获取待识别实体的文本;输入输出模块,用于将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;分词提取模块,用于采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;确定模块,用于根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。在其中一个实施例中,所述分词提取模块还用于通过分词机制对所述文本进行分词处理,得到多个词语和相应的词语类型;根据所述词语类型从所述多个词语中提取出符合实体类型的词语,得到第二预测实体集。在其中一个实施例中,所述确定模块还用于获取所述第一预测实体集和所述第二预测实体集的交集,将所述交集中的实体作为目标实体。在其中一个实施例中,所述确定模块还用于将所述第一预测实体集中的第一实体与所述第二预测实体集中的第二实体进行匹配;当所述第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;当所述第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。在其中一个实施例中,所述装置还包括:匹配模块,用于将所述目标实体集中的目标实体与预设实体库中的实体进行匹配,当所述目标实体在所述预设实体库中时,则判定所述目标实体为第一类实体;当所述目标实体不在所述预设实体库中时,则判定所述目标实体为第二类实体。在其中一个实施例中,所述匹配模块还用于当所述目标实体集中包含有英文实体时,获取所述英文实体对应的多个变形英文实体;将所述多个变形英文实体与所述预设实体库中的实体进行匹配;当所述多个变形英文实体中的至少一个变形英文实体在所述预设实体库中时,则判定对应的所述英文实体为第一类实体,否则,判定对应的所述英文实体为第二类实体。在其中一个实施例中,所述装置还包括:类型获取模块,用于当所述第一预测实体集为空时,获取所述第二预测实体集中的实体和相应的实体类型;实体类型确定模块,用于获取所述文本的意图,根据所述文本的意图确定目标实体类型;筛选模块,用于根据所述目标实体类型从所述第二预测实体集中筛选出符合所述目标实体类型的目标实体。第三方面,本专利技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:获取待识别实体的文本;将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。第四方面,本专利技术实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取待识别实体的文本;将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。上述文本实体识别方法,通过获取待识别实体的文本,将文本作为实体识别模型的输入,获取实体识别模型输出的第一预测实体集,同时采用分词机制对文本进行分词处理,根据分词处理结果提取出第二预测实体集,然后根据第一预测实体集和第二预测实体集确定识别得到的目标实体集。上述文本实体识别方法在得到第一预测实体集后,通过分词机制提取出第二预测实体集,然后采用第二预测实体集对第一预测实体集进行补充识别,即采用实体识别模型和分词机制共同来确定目标实体集,能够得到更多、更可信、更准确的实体,从而提高了实体识别的准确率。附图说明为了更清楚地本文档来自技高网...

【技术保护点】
1.一种文本实体识别方法,其特征在于,所述方法包括:/n获取待识别实体的文本;/n将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;/n采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;/n根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。/n

【技术特征摘要】
1.一种文本实体识别方法,其特征在于,所述方法包括:
获取待识别实体的文本;
将所述文本作为实体识别模型的输入,获取所述实体识别模型输出的第一预测实体集;
采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集;
根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,所述目标实体集为目标实体的集合。


2.根据权利要求1所述的方法,其特征在于,所述采用分词机制对所述文本进行分词处理,根据分词处理结果提取出第二预测实体集,包括:
通过分词机制对所述文本进行分词处理,得到多个词语和相应的词语类型;
根据所述词语类型从所述多个词语中提取出符合实体类型的词语,得到第二预测实体集。


3.根据权利要求1所述的方法,其特征在于,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集,包括:
获取所述第一预测实体集和所述第二预测实体集的交集,将所述交集中的实体作为目标实体。


4.根据权利要求3所述的方法,其特征在于,所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体,还包括:
将所述第一预测实体集中的第一实体与所述第二预测实体集中的第二实体进行匹配;
当所述第一实体中包含有第二实体时,将包含有第二实体的第一实体作为目标实体;
当所述第二实体中包含有第一实体时,将包含有第一实体的第二实体作为目标实体。


5.根据权利要求1所述的方法,其特征在于,在所述根据所述第一预测实体集和所述第二预测实体集确定识别得到的目标实体集之后,还包括:
将所述目标实体集中的目标实体与预设实体库中的实体进行匹配,当所述目标实体在所述预设实体库中时,则判定所述目标实体为第一类实体...

【专利技术属性】
技术研发人员:熊友军罗沛鹏廖洪涛
申请(专利权)人:深圳市优必选科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1