实体识别方法、装置、设备及存储介质制造方法及图纸

技术编号:24854803 阅读:37 留言:0更新日期:2020-07-10 19:08
本发明专利技术涉及人工智能技术领域,公开了一种实体识别方法、装置、设备及存储介质,用于提高实体识别的精确度和识别效率。所述方法包括:接收用户输入目标领域的待识别语句;将待识别语句进行切词处理得到对应词块并向量化处理得到文本词向量;将文本词向量分别输入预置深度学习模型、预置统计模型、预置词典模型或通过使用预置正则表达式进行实体预测,分别得到对应实体识别结果集合;并将得到对应实体识别结果集合进行合并;判断合并得到实体识别结果集合中是否存在一个实体对应多个识别结果,并根据判定结果进行相应处理,得到待识别语句中各个字段对应的目标实体识别结果集合。

【技术实现步骤摘要】
实体识别方法、装置、设备及存储介质
本专利技术涉及人工智能的语义解析
,尤其涉及一种实体识别方法、装置、设备及存储介质。
技术介绍
目前在自然语言处理领域命名实体识别主要采用单一实体识别模型逐一对各实体进行实体识别,单一实体识别模型识别准确度低且识别效率低,并且无法识别不同类型的实体;此外,针对目标领域,譬如保险领域,尚不存在特定的实体识别算法。
技术实现思路
本专利技术的主要目的在于解决由于单一实体识别模型识别准确度低且效率低的技术问题。为实现上述目的,本专利技术第一方面提供了一种实体识别方法,包括:接收用户输入目标领域的待识别语句;将所述待识别语句进行切词处理得到对应词块,并将所述词块进行向量化处理得到所述待识别语句的文本词向量;将所述文本词向量输入预置深度学习模型进行实体预测,得到对应的第一实体识别结果集合;将所述文本词向量输入预置统计模型对进行实体预测,得到对应的第二实体识别结果集合;使用预置正则表达式对所述待识别语句进行实体预测,得到对应的第三实体识别结果集合;将所述文本词向量输入预置词典模型进行实体预测,得到对应的第四实体识别结果集合;将所述第一实体识别结果集合、第二实体识别结果集合、第三实体识别结果集合、第四实体识别结果集合进行合并,得到第五实体识别结果集合;判断所述第五实体识别结果集合中是否存在一个实体对应多个识别结果,并根据判定结果进行相应处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。<br>可选的,在本专利技术第一方面的另一种实现方式中,所述根据判定结果进行相应处理、得到所述待识别语句中各个字段对应的目标实体识别结果集合包括:若判定出不存在一个实体对应多个识别结果,则将第五实体识别结果集合作为所述待识别语句中各个字段对应的目标实体识别结果集合;若判定出存在一个实体对应多个识别结果,则通过预置条件随机场模型对所述对应多个实体识别结果进行校验处理,所述预置条件随机场模型中预先设置所述实体识别结果应符合的约束性规则;对校验处理后得到的第六实体识别结果集合采用预设融合规则进行融合处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。可选的,在本专利技术第一方面的另一种实现方式中,所述预设融合规则具体为对所述第六实体识别结果集合中的实体识别结果进行具有相交关系的集合取并集处理、具有包含与被包含关系的集合进行元素去重处理、以及将不具有任何包含关系或不具有任何相交关系的集合进行保留处理。可选的,在本专利技术第一方面的另一种实现方式中,在所述接收用户输入目标领域的待识别语句之前,所述方法还包括:针对所述目标领域配置待识别实体类型,所述待识别实体类型包括第一实体类型、第二实体类型、第三实体类型、第四实体类型,所述第一实体类型包含的实体的命名种类多且无规则,所述第二实体类型包含的实体的命名具备一定特征或采用约定俗成方式进行命名,所述第三实体类型包含的实体的命名具备明显特征,所述第四实体类型包含的实体的命名数据较完整且固定。可选的,在本专利技术第一方面的另一种实现方式中,在所述接收用户输入目标领域的待识别语句之前,所述方法还包括:获取目标领域语料库中经标签标注的语料作为待训练语料;所述标签为所述待识别实体类型;将所述待训练语料输入BERT模型进行向量化处理产生词向量;将所述产生的词向量输入长短期记忆网络模型进行标签预测,得到对应的预测标签;将所述预测标签输入条件随机场模型,得到对应的合法预测标签;所述合法预测标签为符合所述条件随机场模型的约束性规则的预测标签;当所述长短期记忆网络模型的损失函数达到预设阈值时停止模型训练,得到对应的预置深度学习模型。本专利技术第二方面提供了一种实体识别装置,包括:接收模块,用于接收用户输入目标领域的待识别语句;文本词向量获取模块,用于将所述待识别语句进行切词处理得到对应词块,并将所述词块进行向量化处理得到所述待识别语句的文本词向量;第一实体识别结果集合获取模块,用于将所述文本词向量输入预置深度学习模型进行实体预测,得到对应的第一实体识别结果集合;第二实体识别结果集合获取模块,用于将所述文本词向量输入预置统计模型对进行实体预测,得到对应的第二实体识别结果集合;第三实体识别结果集合获取模块,用于使用预置正则表达式对所述待识别语句进行实体预测,得到对应的第三实体识别结果集合;第四实体识别结果集合获取模块,用于将所述文本词向量输入预置词典模型进行实体预测,得到对应的第四实体识别结果集合;第五实体识别结果集合获取模块,用于将所述第一实体识别结果集合、第二实体识别结果集合、第三实体识别结果集合、第四实体识别结果集合进行合并,得到第五实体识别结果集合;目标实体识别结果集合获取模块,用于判断所述第五实体识别结果集合中是否存在一个实体对应多个识别结果,并根据判定结果进行相应处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。可选的,在本专利技术第二方面的另一种实现方式中,所述目标实体识别结果集合获取模块用于:若判定出不存在一个实体对应多个识别结果,则将第五实体识别结果集合作为所述待识别语句中各个字段对应的目标实体识别结果集合;若判定出存在一个实体对应多个识别结果,则通过预置条件随机场模型对所述对应多个实体识别结果进行校验处理,所述预置条件随机场模型中预先设置所述实体识别结果应符合的约束性规则;对校验处理后得到的第六实体识别结果集合采用预设融合规则进行融合处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。可选的,在本专利技术第二方面的另一种实现方式中,所述实体识别装置中,所述预设融合规则具体为对所述第六实体识别结果集合中的实体识别结果进行具有相交关系的集合取并集处理、具有包含与被包含关系的集合进行元素去重处理、以及将不具有任何包含关系或不具有任何相交关系的集合进行保留处理。可选的,在本专利技术第二方面的另一种实现方式中,所述实体识别装置还包括:实体类型配置模块,用于针对所述目标领域配置待识别实体类型,所述待识别实体类型包括第一实体类型、第二实体类型、第三实体类型、第四实体类型,所述第一实体类型包含的实体的命名种类多且无规则,所述第二实体类型包含的实体的命名具备一定特征或采用约定俗成方式进行命名,所述第三实体类型包含的实体的命名具备明显特征,所述第四实体类型包含的实体的命名数据较完整且固定。可选的,在本专利技术第二方面的另一种实现方式中,所述实体识别装置还包括:待训练语料获取模块,用于获取目标领域语料库中经标签标注的语料作为待训练语料;所述标签为所述待识别实体类型;词向量获取模块,用于将所述待训练语料输入BERT模型进行向量化处理产生词向量;预测标签获取模块,用于将所述产生的词向量输入长短期记忆网络模型进行标签预测,得到对应的预测标签;合法预测标签获取模块,用于将所述预测标签输入条件随机本文档来自技高网...

【技术保护点】
1.一种实体识别方法,其特征在于,包括:/n接收用户输入目标领域的待识别语句;/n将所述待识别语句进行切词处理得到对应词块,并将所述词块进行向量化处理得到所述待识别语句的文本词向量;/n将所述文本词向量输入预置深度学习模型进行实体预测,得到对应的第一实体识别结果集合;/n将所述文本词向量输入预置统计模型对进行实体预测,得到对应的第二实体识别结果集合;/n使用预置正则表达式对所述待识别语句进行实体预测,得到对应的第三实体识别结果集合;/n将所述文本词向量输入预置词典模型进行实体预测,得到对应的第四实体识别结果集合;/n将所述第一实体识别结果集合、第二实体识别结果集合、第三实体识别结果集合、第四实体识别结果集合进行合并,得到第五实体识别结果集合;/n判断所述第五实体识别结果集合中是否存在一个实体对应多个识别结果,并根据判定结果进行相应处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。/n

【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:
接收用户输入目标领域的待识别语句;
将所述待识别语句进行切词处理得到对应词块,并将所述词块进行向量化处理得到所述待识别语句的文本词向量;
将所述文本词向量输入预置深度学习模型进行实体预测,得到对应的第一实体识别结果集合;
将所述文本词向量输入预置统计模型对进行实体预测,得到对应的第二实体识别结果集合;
使用预置正则表达式对所述待识别语句进行实体预测,得到对应的第三实体识别结果集合;
将所述文本词向量输入预置词典模型进行实体预测,得到对应的第四实体识别结果集合;
将所述第一实体识别结果集合、第二实体识别结果集合、第三实体识别结果集合、第四实体识别结果集合进行合并,得到第五实体识别结果集合;
判断所述第五实体识别结果集合中是否存在一个实体对应多个识别结果,并根据判定结果进行相应处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。


2.根据权利要求1所述的实体识别方法,其特征在于,所述根据判定结果进行相应处理、得到所述待识别语句中各个字段对应的目标实体识别结果集合包括:
若判定出不存在一个实体对应多个识别结果,则将第五实体识别结果集合作为所述待识别语句中各个字段对应的目标实体识别结果集合;
若判定出存在一个实体对应多个识别结果,则通过预置条件随机场模型对所述对应多个实体识别结果进行校验处理,所述预置条件随机场模型中预先设置所述实体识别结果应符合的约束性规则;
对校验处理后得到的第六实体识别结果集合采用预设融合规则进行融合处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。


3.根据权利要求2所述的实体识别方法,其特征在于,所述预设融合规则具体为对所述第六实体识别结果集合中的实体识别结果进行具有相交关系的集合取并集处理、具有包含与被包含关系的集合进行元素去重处理、以及将不具有任何包含关系或不具有任何相交关系的集合进行保留处理。


4.根据权利要求1所述的实体识别方法,其特征在于,在所述接收用户输入目标领域的待识别语句之前,所述方法还包括:
针对所述目标领域配置待识别实体类型,所述待识别实体类型包括第一实体类型、第二实体类型、第三实体类型、第四实体类型,所述第一实体类型包含的实体的命名种类多且无规则,所述第二实体类型包含的实体的命名具备一定特征或采用约定俗成方式进行命名,所述第三实体类型包含的实体的命名具备明显特征,所述第四实体类型包含的实体的命名数据较完整且固定。


5.根据权利要求1所述的实体识别方法,其特征在于,在所述接收用户输入目标领域的待识别语句之前,所述方法还包括:
获取目标领域语料库中经标签标注的语料作为待训练语料;所述标签为所述待识别实体类型;
将所述待训练语料输入BERT模型进行向量化处理产生词向量;
将所述产生的词向量输入长短期记忆网络模型进行标签预测,得到对应的预测标签;
将所述预测标签输入条件随...

【专利技术属性】
技术研发人员:戚思骅邹辉
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1