一种非结构化数据提取方法、装置、设备及存储介质制造方法及图纸

技术编号：35794709 阅读：21 留言：0更新日期：2022-12-01 14:45

本发明专利技术涉及数据提取技术，揭露了一种非结构化数据提取方法、装置、设备及存储介质，包括：对初始文本进行预处理，得到目标文本，对目标文本进行向量转化，得到向量文本；对向量文本进行特征提取，得到文本特征，识别向量文本的向量维度，构建文本特征的特征矩阵；对初始文本进行语义识别，得到文本语义；对向量文本进行双向循环编码，得到第一编码向量和第二编码向量，并计算第一编码向量和第二编码向量之间的关联度，计算第一编码向量和第二编码向量对应的级联编码向量；通过训练后的数据提取模型中的结构化识别层，对文本语义和级联编码向量进行识别，确定初始文本中的非结构化文本和结构化文本。本发明专利技术通过提高非结构化数据提取效率。效率。效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种非结构化数据提取方法、装置、设备及存储介质

[0001]本专利技术涉及数据提取
，尤其涉及一种非结构化数据提取方法、装置、设备及存储介质。

技术介绍

[0002]非结构化数据指数据结构不规则或不完整，没有预定义且不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等，目前对非结构化数据的提取主要是通过OCR识别技术和建立对应的非结构化数据库，以此对文本中的非结构化数据进行识别和提取，但是该方法需要对文本进行大量的计算，并花费很多时间去搜集非结构数据，进而导致对文本的非结构化数据提取的效率降低，因此需要一种能够提高非结构化数据提取效率的方法。

技术实现思路

[0003]本专利技术提供一种非结构化数据提取方法、装置、设备及存储介质，其主要目的在于提高非结构化数据提取效率。
[0004]为实现上述目的，本专利技术提供的一种非结构化数据提取方法，包括：获取待提取的初始文本，对所述初始文本进行预处理，得到目标文本，对所述目标文本进行向量转化，得到向量文本；利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取，得到文本特征，识别所述向量文本的向量维度，根据所述向量维度，构建所述文本特征的特征矩阵；根据所述特征矩阵，利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别，得到文本语义；利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码，得到第一编码向量和第二编码向量，并计算所述第一编码向量...

【技术保护点】

【技术特征摘要】
1.一种非结构化数据提取方法，其特征在于，所述方法包括：获取待提取的初始文本，对所述初始文本进行预处理，得到目标文本，对所述目标文本进行向量转化，得到向量文本；利用训练后的数据提取模型中的卷积层对所述向量文本进行特征提取，得到文本特征，识别所述向量文本的向量维度，根据所述向量维度，构建所述文本特征的特征矩阵；根据所述特征矩阵，利用所述训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别，得到文本语义；利用所述训练后的数据提取模型中的双向循环层对所述向量文本进行双向循环编码，得到第一编码向量和第二编码向量，并计算所述第一编码向量和所述第二编码向量之间的关联度，根据所述关联度，计算所述第一编码向量和所述第二编码向量对应的级联编码向量；通过所述训练后的数据提取模型中的结构化识别层，对所述文本语义和所述级联编码向量进行识别，确定所述初始文本中的非结构化文本和结构化文本。2.如权利要求1所述的非结构化数据提取方法，其特征在于，所述对所述初始文本进行预处理，得到目标文本，包括：对所述初始文本进行标准化处理，得到标准文本；对所述标准文本进行去重处理，得到去重文本；根据预设的停用词对照表对所述去重文本进行停用词过滤，得到所述目标文本。3.如权利要求1所述的非结构化数据提取方法，其特征在于，所述根据所述向量维度，构建所述文本特征的特征矩阵，包括：利用下述公式构建所述文本特征的特征矩阵：其中，表示所述文本特征的特征矩阵，i表示所述文本特征中的特征数量，表示所述文本特征对应的向量维度，表示所述文本特征的自变量，表示所述文本特征对应的矩阵谱径。4.如权利要求1所述的非结构化数据提取方法，其特征在于，所述根据所述特征矩阵，利用训练后的数据提取模型中的语义识别层对所述初始文本进行语义识别，得到文本语义，包括：通过所述语义识别层执行如下操作：计算所述特征矩阵中每个特征之间的特征距离值；将所述特征距离值大于预设值的特征作为所述初始文本的目标特征；对所述目标特征对应的文本进行语义解析，得到目标语义；计算所述目标语义对所述初始文本的支持度；根据所述支持度，对目标语义进行筛选，得到所述初始文本的文本语义。5.如权利要求4所述的非结构化数据提取方法，其特征在于，所述计算所述特征矩阵中每个特征之间的特征距离值，包括：
通过下述公式计算所特征矩阵中每个特征之间的特征距离值：其中，a和b分别为第一特征的标识和第二特征的标识，所述第一特征和所述第二特征为所述特征矩阵中的相邻特征；表示所述第一特征和所述第二特征之间的特征距离值，i表示特征矩阵中的起始特征，表示所述第一特征的初始坐标值，表示所述第二特征的初...

【专利技术属性】
技术研发人员：杨阳，钱锋，陈鹏晖，
申请(专利权)人：深圳迅策科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人