文档中实体识别方法及装置制造方法及图纸

技术编号:39746302 阅读:9 留言:0更新日期:2023-12-17 23:45
本公开涉及一种文档中实体识别方法及装置

【技术实现步骤摘要】
文档中实体识别方法及装置、电子设备和存储介质


[0001]本公开涉及自然语言处理领域,尤其涉及一种文档中实体识别方法及装置

电子设备和存储介质


技术介绍

[0002]数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用

数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程

[0003]在数据统计分析之前,往往需要先获得准确的数据

而数据可能淹没在浩如烟海的文档当中,且单个文档包含大量文字,其中有些并非有效数据
(
实体
)。
在相关技术中,可以将文档转换成图片,从图片中识别出实体,但是准确率较低


技术实现思路

[0004]有鉴于此,本公开提出了一种实体识别方案

[0005]根据本公开的一方面,提供了一种实体识别方法,包括:获取文档对应的文档文字;
[0006]分别为所述文档文字中的各段文字,添加第一段首标识符和第一段尾标识符,得到第一处理后文字;将第一处理后文字中的至少两段文字进行段首尾拼接,得到至少一个第一段落;对所述至少一个第一段落进行实体识别,得到所述文档对应的实体识别结果

[0007]在一种可能的实现方式中,所述第一处理后文字包括相邻的第一初始段落和第二初始段落;所述将第一处理后文字中的至少两段文字进行段首尾拼接,得到至少一个第一段落,包括:将所述第一初始段落和所述第二初始段落首尾拼接,得到临时段落;响应于所述临时段落的长度满足长度预设条件,将所述临时段落确定为所述第一段落;响应于所述临时段落的长度不满足所述长度预设条件,基于所述临时段落更新所述第一处理后文字

[0008]在一种可能的实现方式中,在所述得到临时段落后,所述方法还包括:根据实体识别的业务类型,确定所述长度预设条件

[0009]在一种可能的实现方式中,所述实体识别基于预测模型实现,所述预测模型的训练过程,包括:为样本文字中的各段文字,添加第二段首标识符和第二段尾标识符,得到第二处理后文字;将第二处理后文字中的多段文字进行段首尾拼接,得到至少一个第二段落;将所述第二段落输入至初始模型,得到预测结果;基于所述预测结果和所述样本文字对应的样本标签,对所述初始模型进行参数调节;响应于所述初始模型满足训练预设条件,将所述初始模型确定为所述预测模型

[0010]在一种可能的实现方式中,所述样本文字对应的样本标签包括:第一符号

第二符号和第三符号,所述方法还包括:利用所述第一符号,标识所述样本文字中的各实体的第一个字符,其中,不同的实体对应的第一符号不同;利用第二符号,标识各所述实体中除所述第一个字符以外的其它字符,所述第一符号与所述第二符号不相同,其中,不同的实体对应
的第二符号不同;利用第三符号,标识各所述第二段首标识符

各所述第二段尾标识符

以及不属于任意实体的文字

[0011]在一种可能的实现方式中,所述初始模型为经过预训练处理后的预训练模型

[0012]在一种可能的实现方式中,所述获取文档对应的文档文字,包括:解析文档文件,得到
XML
格式数据;基于预设规则模型,对所述
XML
格式数据进行解析,得到所述文档文字

[0013]根据本公开的另一方面,提供了一种实体识别装置,所述装置包括:
[0014]文档文字获取单元,用于获取文档对应的文档文字;
[0015]段落首尾标识添加单元,用于分别为所述文档文字中的各段文字,添加第一段首标识符和第一段尾标识符,得到第一处理后文字;
[0016]第一段落确定单元,用于将第一处理后文字中的至少两段文字进行段首尾拼接,得到至少一个第一段落;
[0017]识别单元,用于对所述至少一个第一段落进行实体识别,得到所述文档对应的实体识别结果

[0018]在一种可能的实现方式中,所述第一处理后文字包括相邻的第一初始段落和第二初始段落;所述第一段落确定单元,包括:
[0019]临时段落确定单元,用于将所述第一初始段落和所述第二初始段落首尾拼接,得到临时段落;
[0020]第一段落确定子单元,用于响应于所述临时段落的长度满足长度预设条件,将所述临时段落确定为所述第一段落;
[0021]更新单元,用于响应于所述临时段落的长度不满足所述长度预设条件,基于所述临时段落更新所述第一处理后文字

[0022]在一种可能的实现方式中,在所述得到临时段落后,所述装置还包括:
[0023]长度预设条件确定单元,用于根据实体识别的业务类型,确定所述长度预设条件

[0024]在一种可能的实现方式中,所述实体识别基于预测模型实现,所述预测模型的训练过程,包括:
[0025]为样本文字中的各段文字,添加第二段首标识符和第二段尾标识符,得到第二处理后文字;
[0026]将第二处理后文字中的多段文字进行段首尾拼接,得到至少一个第二段落;
[0027]将所述第二段落输入至初始模型,得到预测结果;
[0028]基于所述预测结果和所述样本文字对应的样本标签,对所述初始模型进行参数调节;
[0029]响应于所述初始模型满足训练预设条件,将所述初始模型确定为所述预测模型

[0030]在一种可能的实现方式中,所述样本文字对应的样本标签包括:第一符号

第二符号和第三符号,所述装置还包括:
[0031]实体首字符标识单元,用于利用所述第一符号,标识所述样本文字中的各实体的第一个字符,其中,不同的实体对应的第一符号不同;
[0032]实体其他字符标识单元,用于利用第二符号,标识各所述实体中除所述第一个字符以外的其它字符,所述第一符号与所述第二符号不相同,其中,不同的实体对应的第二符号不同;
[0033]非实体字符标识单元,用于利用第三符号,标识各所述第二段首标识符

各所述第二段尾标识符

以及不属于任意实体的文字

[0034]在一种可能的实现方式中,所述初始模型为经过预训练处理后的预训练模型

[0035]在一种可能的实现方式中,所述文档文字获取单元,包括:
[0036]解析单元,用于解析文档文件,得到
XML
格式数据;
[0037]文档文字获取子单元,用于基于预设规则模型,对所述
XML
格式数据进行解析,得到所述文档文字

[0038]根据本公开的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种实体识别方法,其特征在于,包括:获取文档对应的文档文字;分别为所述文档文字中的各段文字,添加第一段首标识符和第一段尾标识符,得到第一处理后文字;将第一处理后文字中的至少两段文字进行段首尾拼接,得到至少一个第一段落;对所述至少一个第一段落进行实体识别,得到所述文档对应的实体识别结果
。2.
根据权利要求1所述的方法,其特征在于,所述第一处理后文字包括相邻的第一初始段落和第二初始段落;所述将第一处理后文字中的至少两段文字进行段首尾拼接,得到至少一个第一段落,包括:将所述第一初始段落和所述第二初始段落首尾拼接,得到临时段落;响应于所述临时段落的长度满足长度预设条件,将所述临时段落确定为所述第一段落;响应于所述临时段落的长度不满足所述长度预设条件,基于所述临时段落更新所述第一处理后文字
。3.
根据权利要求2所述的方法,其特征在于,在所述得到临时段落后,所述方法还包括:根据实体识别的业务类型,确定所述长度预设条件
。4.
根据权利要求1所述的方法,其特征在于,所述实体识别基于预测模型实现,所述预测模型的训练过程,包括:为样本文字中的各段文字,添加第二段首标识符和第二段尾标识符,得到第二处理后文字;将第二处理后文字中的多段文字进行段首尾拼接,得到至少一个第二段落;将所述第二段落输入至初始模型,得到预测结果;基于所述预测结果和所述样本文字对应的样本标签,对所述初始模型进行参数调节;响应于所述初始模型满足训练预设条件,将所述初始模型确定为所述预测模型
。5.
根据权利要求4所述的方法,其特征在于,所述样本文字对应的样本标签包括:第一符号

第二符号和第三符号,所述方法还包括:利用所述第一符号,标识...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1