一种实体识别方法技术

技术编号:39803652 阅读:10 留言:0更新日期:2023-12-22 02:35
本申请涉及数据处理技术领域,具体涉及一种实体识别方法

【技术实现步骤摘要】
一种实体识别方法、装置、设备及介质


[0001]本申请涉及数据处理
,具体涉及一种实体识别方法

装置

设备及介质


技术介绍

[0002]在国际贸易中信用证表达了对该交易的要求,包括商品

交货时间

提交单据及信息

交易对手方信息及相关银行信息

寄单行地址等内容

人工智能
(Artificial Intelligence

AI)
技术在提供信用证交单辅助处理时,可以智能识别信用证的关键要素并自动录入系统

在国际贸易
AI
辅助功能中,寄单行名称地址信息识别是一项难点,通常存在文本较长

各国命名方式差异大

非常见词汇较多等问题


技术实现思路

[0003]本申请实施例提供一种实体识别方法

装置

设备及介质,用于解决如何低成本且高精准地识别出长文本中的要素的问题

[0004]第一方面,本申请提供一种实体识别方法,所述方法包括:
[0005]构建待识别实体的词组序列,从第一倒排索引中查找所述词组序列中的各词组对应的第一索引集合,从第二倒排索引中查找所述词组序列中的各词组对应的第二索引集合,所述第一倒排索引表示预设实体的起始词组和预设实体索引的映射关系,所述第二倒排索引表示预设实体的结尾词组和预设实体索引的映射关系;
[0006]根据具有交集关系的第一索引集合和第二索引集合各自对应的词组,从所述待识别实体中确定候选实体;
[0007]根据所述候选实体和实体库中各预设实体的相似度,确定所述待识别实体的识别结果

[0008]本实施例提供的实体识别方法,实现简单,无需样本标注

模型训练,直接基于积累的用户词典去建立可以利用的索引库

仅评估起止点索引是否相同,候选集的选择模糊程度更大,识别结果的召回率更高

[0009]作为一种可能的实施方式,所述构建待识别实体的词组序列,包括:
[0010]利用预设宽度的滑动窗口,按照预设步长遍历所述待识别实体,构建词组序列,所述预设宽度大于所述预设步长

[0011]作为一种可能的实施方式,
[0012]所述预设实体的起始词组是根据预设实体的起始词构建的词组序列中的词组确定的,所述起始词的长度大于所述词组的长度;
[0013]所述预设实体的结尾词组是根据预设实体的结尾词构建的词组序列中的词组确定的,所述结尾词的长度大于所述词组的长度

[0014]作为一种可能的实施方式,所述根据具有交集关系的第一索引集合和第二索引集合各自对应的词组,从所述待识别实体中确定候选实体,包括:
[0015]根据具有交集关系的第一索引集合和第二索引集合各自对应的词组,从所述待识
别实体中确定起止识别范围;
[0016]将所述起止识别范围内的待识别实体确定为候选实体

[0017]作为一种可能的实施方式,所述根据所述候选实体和实体库中各预设实体的相似度,确定所述待识别实体的识别结果,包括:
[0018]根据所述候选实体和各预设实体的相似度,以及所述候选实体相对于所述待识别实体的编辑距离相对比例,确定所述待识别实体的识别结果

[0019]本实施例提供的实体识别方法,使用编辑距离相对比例的文本相似度计算,保证了识别结果较符合预期,边界切分更准确,精确度更高

[0020]作为一种可能的实施方式,所述根据所述候选实体和各预设实体的相似度,以及所述候选实体相对于所述待识别实体的编辑距离相对比例,确定所述待识别实体的识别结果,包括:
[0021]若所述候选实体和所述预设实体的相似度大于相似度阈值,且所述候选实体相对于所述待识别实体的编辑距离相对比例低于距离比例阈值,则将所述候选实体确定为所述待识别实体的识别结果

[0022]第二方面,本申请提供一种实体识别装置,所述装置包括:
[0023]索引集合查找模块,用于构建待识别实体的词组序列,从第一倒排索引中查找所述词组序列中的各词组对应的第一索引集合,从第二倒排索引中查找所述词组序列中的各词组对应的第二索引集合,所述第一倒排索引表示预设实体的起始词组和预设实体索引的映射关系,所述第二倒排索引表示预设实体的结尾词组和预设实体索引的映射关系;
[0024]候选实体确定模块,用于根据具有交集关系的第一索引集合和第二索引集合各自对应的词组,从所述待识别实体中确定候选实体;
[0025]识别结果确定模块,用于根据所述候选实体和实体库中各预设实体的相似度,确定所述待识别实体的识别结果

[0026]作为一种可能的实施方式,所述索引集合查找模块具体用于:
[0027]利用预设宽度的滑动窗口,按照预设步长遍历所述待识别实体,构建词组序列,所述预设宽度大于所述预设步长

[0028]作为一种可能的实施方式,
[0029]所述预设实体的起始词组是根据预设实体的起始词构建的词组序列中的词组确定的,所述起始词的长度大于所述词组的长度;
[0030]所述预设实体的结尾词组是根据预设实体的结尾词构建的词组序列中的词组确定的,所述结尾词的长度大于所述词组的长度

[0031]作为一种可能的实施方式,所述候选实体确定模块具体用于:
[0032]根据具有交集关系的第一索引集合和第二索引集合各自对应的词组,从所述待识别实体中确定起止识别范围;
[0033]将所述起止识别范围内的待识别实体确定为候选实体

[0034]作为一种可能的实施方式,所述识别结果确定模块具体用于:
[0035]根据所述候选实体和各预设实体的相似度,以及所述候选实体相对于所述待识别实体的编辑距离相对比例,确定所述待识别实体的识别结果

[0036]作为一种可能的实施方式,所述识别结果确定模块具体用于:
[0037]若所述候选实体和所述预设实体的相似度大于相似度阈值,且所述候选实体相对于所述待识别实体的编辑距离相对比例低于距离比例阈值,则将所述候选实体确定为所述待识别实体的识别结果

[0038]第三方面,本申请提供一种电子设备,包括:
[0039]存储器,用于存储程序指令;
[0040]处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤

[0041]第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种实体识别方法,其特征在于,该方法包括:构建待识别实体的词组序列,从第一倒排索引中查找所述词组序列中的各词组对应的第一索引集合,从第二倒排索引中查找所述词组序列中的各词组对应的第二索引集合,所述第一倒排索引表示预设实体的起始词组和预设实体索引的映射关系,所述第二倒排索引表示预设实体的结尾词组和预设实体索引的映射关系;根据具有交集关系的第一索引集合和第二索引集合各自对应的词组,从所述待识别实体中确定候选实体;根据所述候选实体和实体库中各预设实体的相似度,确定所述待识别实体的识别结果
。2.
如权利要求1所述的方法,其特征在于,所述构建待识别实体的词组序列,包括:利用预设宽度的滑动窗口,按照预设步长遍历所述待识别实体,构建词组序列,所述预设宽度大于所述预设步长
。3.
如权利要求1所述的方法,其特征在于,所述预设实体的起始词组是根据预设实体的起始词构建的词组序列中的词组确定的,所述起始词的长度大于所述词组的长度;所述预设实体的结尾词组是根据预设实体的结尾词构建的词组序列中的词组确定的,所述结尾词的长度大于所述词组的长度
。4.
如权利要求1所述的方法,其特征在于,所述根据具有交集关系的第一索引集合和第二索引集合各自对应的词组,从所述待识别实体中确定候选实体,包括:根据具有交集关系的第一索引集合和第二索引集合各自对应的词组,从所述待识别实体中确定起止识别范围;将所述起止识别范围内的待识别实体确定为候选实体
。5.
如权利要求1所述的方法,其特征在于,所述根据所述候选实体和实体库中各预设实体的相似度,确定所述待识别实体的识别结果,包括:根据所述候选实体和各预设实体的相似度,以及所述候选实体相对于所述待识别实体的编辑距离相对比例,确定所述待识别实体的识别结果
。6.
如权利要求5所述的方法,其特征在于,所述根据所述候选实体和各预设实体的相似度,以及所述候选实...

【专利技术属性】
技术研发人员:卜丽陆佳庆于淑英李力金琳汪宏
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1