一种实体识别方法、装置、计算设备及存储介质制造方法及图纸

技术编号:38436300 阅读:34 留言:0更新日期:2023-08-11 14:21
本发明专利技术公开了一种实体识别方法、装置、计算设备以及存储介质,实体识别方法在计算设备中执行,该方法包括:获取待识别文本信息;依次确定出待识别文本信息中的待替换的各第一字符串;针对每一第一字符串,确定其对应的第二字符串,并生成该第一字符串和第二字符串之间的映射关系;通过对利用各第二字符串替换对应的第一字符串得到的新的文本信息进行实体识别,得到各实体识别对象;判断各第二字符串是否为实体识别对象;若是,则利用映射关系,确定出该第二字符串对应的第一字符串,作为待识别文本信息的实体识别对象。文本信息的实体识别对象。文本信息的实体识别对象。

【技术实现步骤摘要】
一种实体识别方法、装置、计算设备及存储介质


[0001]本专利技术涉及计算机
,具体涉及一种实体识别方法、装置、计算设备及存储介质。

技术介绍

[0002]实体识别(Named Entity Recognition,NER)是指识别文本中具有特定意义的实体,其作为信息抽取中的一类典型任务,在问答系统、智能对话、搜索推荐和机器翻译等多项自然语言处理任务中都承担着重要的角色。实体识别可对文本中的时间、地点、数字、人名、组织机构等多类通用性较强的常规实体类型进行识别。
[0003]在实体识别的一些场景中,无法对待识别文本信息进行有效识别。例如,在时间实体识别中,“5月1日”可以被识别,而“五一”则无法被识别。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种实体识别方法、装置、计算设备以及存储介质。
[0005]根据本专利技术的一个方面,提供一种实体识别方法,在计算设备中执行,该方法包括:获取待识别文本信息;依次确定出待识别文本信息中的待替换的各第一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体识别方法,在计算设备中执行,该方法包括:获取待识别文本信息;依次确定出所述待识别文本信息中的待替换的各第一字符串;针对每一第一字符串,确定其对应的第二字符串,并生成该第一字符串和第二字符串之间的映射关系;通过对利用各第二字符串替换对应的所述第一字符串得到的新的文本信息进行实体识别,得到各实体识别对象;判断各所述第二字符串是否为实体识别对象;若是,则利用所述映射关系,确定出该第二字符串对应的第一字符串,作为所述待识别文本信息的实体识别对象。2.如权利要求1所述的方法,其中,依次确定出所述文本信息中的待替换的各第一字符串,包括:判断所述待识别文本信息中的各字符串是否为预设词典中的字符串;将属于所述预设词典中的字符串确定为所述第一字符串。3.如权利要求2所述的方法,其中,生成该第一字符串和第二字符串之间的映射关系,包括:以各第二字符串在所述新的文本信息中的字段位置和除所述第二字符串外的各字段的字段位置为键,所述第一字符串在所述待识别文本信息中的字段位置和除所述第一字符串外的各字段的字段位置为值,构建对应键值对,作为所述第一字符串和第二字符串之间的映射关系。4.如权利要求3所述的方法,其中,还包括:针对每一实体识别对象,判断其与任一第二字符串是否有字段重叠,若是,则确定该实体识别对象在所述新的文本信息中的开始位置和结束位置;判断各实体识别对象的开始位置和/或更新后的结束位置是否与所述映射关系中指示相近位置的第二字符串的字段位置一致;若不一致,则减小所述开始位置的值和/或增加所述结束位置的值,直到更新后的开始位置和结束位置与所述映射关系中对应第二字符串的字段位置相同,并将更新后的开始位置和结束位置所对应的字段作为更新后的...

【专利技术属性】
技术研发人员:徐丞申李林肖明勤刘荣黄萧喻杰
申请(专利权)人:天津车之家软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1