一种非结构化数据提取方法、装置、设备及存储介质制造方法及图纸

技术编号:35794709 阅读:21 留言:0更新日期:2022-12-01 14:45
本发明专利技术涉及数据提取技术,揭露了一种非结构化数据提取方法、装置、设备及存储介质,包括:对初始文本进行预处理,得到目标文本,对目标文本进行向量转化,得到向量文本;对向量文本进行特征提取,得到文本特征,识别向量文本的向量维度,构建文本特征的特征矩阵;对初始文本进行语义识别,得到文本语义;对向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算第一编码向量和第二编码向量之间的关联度,计算第一编码向量和第二编码向量对应的级联编码向量;通过训练后的数据提取模型中的结构化识别层,对文本语义和级联编码向量进行识别,确定初始文本中的非结构化文本和结构化文本。本发明专利技术通过提高非结构化数据提取效率。效率。效率。

【技术实现步骤摘要】
一种非结构化数据提取方法、装置、设备及存储介质


[0001]本专利技术涉及数据提取
,尤其涉及一种非结构化数据提取方法、装置、设备及存储介质。

技术介绍

[0002]非结构化数据指数据结构不规则或不完整,没有预定义且不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等,目前对非结构化数据的提取主要是通过OCR识别技术和建立对应的非结构化数据库,以此对文本中的非结构化数据进行识别和提取,但是该方法需要对文本进行大量的计算,并花费很多时间去搜集非结构数据,进而导致对文本的非结构化数据提取的效率降低,因此需要一种能够提高非结构化数据提取效率的方法。

技术实现思路

[0003]本专利技术提供一种非结构化数据提取方法、装置、设备及存储介质,其主要目的在于提高非结构化数据提取效率。
[0004]为实现上述目的,本专利技术提供的一种非结构化数据提取方法,包括:获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;根据所述特征矩阵,利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;通过所述训练好的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,确定所述初始文本中的非结构化文本和结构化文本。
[0005]可选地,所述对所述初始文本进行预处理,得到目标文本,包括:对所述初始文本进行标准化处理,得到标准文本;对所述标准文本进行去重处理,得到去重文本;根据预设的停用词对照表对所述去重文本进行停用词过滤,得到所述目标文本。
[0006]可选地,根据所述向量维度,构建所述文本特征的特征矩阵,包括:利用下述公式构建所述文本特征的特征矩阵:
其中,表示所述文本特征的特征矩阵,i表示所述文本特征中的特征数量,表示所述文本向量的向量维度,表示所述文本特征的自变量,表示信息特征对应的矩阵谱径。
[0007]可选地,所述根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义,包括:通过所述语义识别层执行如下操作:计算所述特征矩阵中每个特征之间的特征距离值;将所述特征距离值大于预设值的特征作为所述初始文本的目标特征;对所述目标特征对应的文本进行语义解析,得到目标语义;计算所述目标语义对所述初始文本的支持度;根据所述支持度,对目标语义进行筛选,得到所述初始文本的文本语义。
[0008]可选地,所述计算所述特征矩阵中每个特征之间的特征距离值,包括:通过下述公式计算所特征矩阵中每个特征之间的特征距离值:其中,a和b分别为第一特征的标识和第二特征的标识,所述第一特征和所述第二特征为所述特征矩阵中的相邻特征;表示所述第一特征和所述第二特征之间的特征距离值,i表示特征矩阵中的起始特征,表示所述第一特征的初始坐标值,表示所述第二特征的初始坐标值,表示与终止特征相邻的特征终止坐标值,表示终止特征的终止坐标值。
[0009]可选地,所述计算所述目标语义对所述初始文本的支持度,包括:通过下述公式计算所述目标语义对所述初始文本的支持度:其中,表示目标语义对初始文本的支持度,表示目标语义中第i个语义的
横向量,表示初始文本的横向量,表示目标语义中第i个语义的横向量与初始文本的横向量的积分映射值。
[0010]可选地,所述利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,包括:通过下述公式对所述向量文本进行双向循环编码:通过下述公式对所述向量文本进行双向循环编码:其中,表示第一编码向量,f表示描述概率系数,表示前方转移矩阵,表示向前编码时向量文本对应的特征,表示转移矩阵,表示向前循环时的文本信息,表示第二编码向量,表示后方转移矩阵,表示向后编码时向量文本对应的特征,表示向后循环时的文本信息。
[0011]为了解决上述问题,本专利技术还提供一种非结构化数据提取装置,所述装置包括:向量转化模块,用于获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;矩阵构建模块,用于利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;语义识别模块,用于根据所述特征矩阵,利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;双向循环编码模块,用于利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;结构识别模块,用于通过所述训练好的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,确定所述初始文本中的非结构化文本和结构化文本。
[0012]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的非结构化数据提取方法。
[0013]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的非结构化数据提取方法。
[0014]本专利技术通过获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,可以将所述初始文本中的无用信息进行去除,以便于提高后续对所述初始文本处理的效率,本专利技术通过利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,可以了解所述向量文本中的特征部分,为后续构建所述文本特征提供了前提,其中,本专利技术通过根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义,通过所述文本语义可以了解到所述初始文本中的文本表达含义;此外,本专利技术通过利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,对所述向量文本进行双向循环,可以结合所述向量文本的前后文本的关联性进行编码,本专利技术通过通过所述训练好的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,进而便于后续确定所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种非结构化数据提取方法,其特征在于,所述方法包括:获取待提取的初始文本,对所述初始文本进行预处理,得到目标文本,对所述目标文本进行向量转化,得到向量文本;利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取,得到文本特征,识别所述向量文本的向量维度,根据所述向量维度,构建所述文本特征的特征矩阵;根据所述特征矩阵,利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义;利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码,得到第一编码向量和第二编码向量,并计算所述第一编码向量和所述第二编码向量之间的关联度,根据所述关联度,计算所述第一编码向量和所述第二编码向量对应的级联编码向量;通过所述训练后的数据提取模型中的结构化识别层,对所述文本语义和所述级联编码向量进行识别,确定所述初始文本中的非结构化文本和结构化文本。2.如权利要求1所述的非结构化数据提取方法,其特征在于,所述对所述初始文本进行预处理,得到目标文本,包括:对所述初始文本进行标准化处理,得到标准文本;对所述标准文本进行去重处理,得到去重文本;根据预设的停用词对照表对所述去重文本进行停用词过滤,得到所述目标文本。3.如权利要求1所述的非结构化数据提取方法,其特征在于,所述根据所述向量维度,构建所述文本特征的特征矩阵,包括:利用下述公式构建所述文本特征的特征矩阵:其中, 表示所述文本特征的特征矩阵,i表示所述文本特征中的特征数量, 表示所述文本特征对应的向量维度, 表示所述文本特征的自变量, 表示所述文本特征对应的矩阵谱径。4.如权利要求1所述的非结构化数据提取方法,其特征在于,所述根据所述特征矩阵,利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别,得到文本语义,包括:通过所述语义识别层执行如下操作:计算所述特征矩阵中每个特征之间的特征距离值;将所述特征距离值大于预设值的特征作为所述初始文本的目标特征;对所述目标特征对应的文本进行语义解析,得到目标语义;计算所述目标语义对所述初始文本的支持度;根据所述支持度,对目标语义进行筛选,得到所述初始文本的文本语义。5.如权利要求4所述的非结构化数据提取方法,其特征在于,所述计算所述特征矩阵中每个特征之间的特征距离值,包括:
通过下述公式计算所特征矩阵中每个特征之间的特征距离值:其中,a和b分别为第一特征的标识和第二特征的标识,所述第一特征和所述第二特征为所述特征矩阵中的相邻特征;表示所述第一特征和所述第二特征之间的特征距离值,i表示特征矩阵中的起始特征,表示所述第一特征的初始坐标值,表示所述第二特征的初...

【专利技术属性】
技术研发人员:杨阳钱锋陈鹏晖
申请(专利权)人:深圳迅策科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1