生成目标数据集的方法、装置、设备及存储介质制造方法及图纸

技术编号：32649859 阅读：18 留言：0更新日期：2022-03-12 18:39

本申请实施例公开了一种生成目标数据集的方法、装置、设备及存储介质，所述方法包括以下步骤：将文献文件格式转换为文本格式信息，基于所述文本格式信息，获取第一关键变量；基于预设映射变量仓库，对所述第一关键变量进行修正，得到第二关键变量；基于所述第二关键变量，对预设底层业务库进行指标匹配及数据处理，得到变量数据集；基于所述变量数据集，进行关联查询并发送给用户。采用本申请，能够大幅度提升从文献中提取关键信息的效率。度提升从文献中提取关键信息的效率。度提升从文献中提取关键信息的效率。

全部详细技术资料下载

【技术实现步骤摘要】
生成目标数据集的方法、装置、设备及存储介质

[0001]本申请涉及调研文献
，主要涉及了一种生成目标数据集的方法、装置、设备及存储介质。

技术介绍

[0002]目前，人们对文献的关键信息愈发重视，越来越多的用户在文献中提取关键信息，搜集文献有效信息时，人工逐篇阅读大量的文献，在阅读每篇文献的时候，用户需要主动判断以提取所需要的关键信息。
[0003]现有技术中，需要用户阅读完文献，并且手动整理文献中的关键信息，这种人工从文献中提取关键信息的方法效率低下。

技术实现思路

[0004]本申请的一个目的在于提供了一种生成目标数据集的方法、装置、设备及存储介质，其优势在于，从文献中智能提取关键信息，大幅度提升分析效率。
[0005]为实现上述目的，第一方面，本申请实施例提供一种生成目标数据集的方法，其中包括：将文献文件格式转换为文本格式信息，基于所述文本格式信息，获取第一关键变量；基于预设映射变量仓库，对所述第一关键变量进行修正，得到第二关键变量；基于所述第二关键变量，对预设底层业务库进行指标匹配及数据处理，得到变量数据集；基于所述变量数据集，进行关联查询并发送给用户。
[0006]可以理解，将文献文件格式转换为文本格式信息，基于所述文本格式信息，获取第一关键变量，对所述第一关键变量进行修正，得到第二关键变量，对预设底层业务库进行指标匹配及数据处理，得到变量数据集，进行关联查询并发送给用户，能够大幅度提升从文献中提取关键信息的效率。
[0007]在一个可能的示例中，所述将...

【技术保护点】

【技术特征摘要】
1.一种生成目标数据集的方法，其特征在于，包括以下步骤：将文献文件格式转换为文本格式信息，基于所述文本格式信息，获取第一关键变量；基于预设映射变量仓库，对所述第一关键变量进行修正，得到第二关键变量；基于所述第二关键变量，对预设底层业务库进行指标匹配及数据处理，得到变量数据集；基于所述变量数据集，进行关联查询并发送给用户。2.根据权利要求1所述的方法，所述将文献文件格式转换为文本格式信息，包括以下步骤：将所述文献文件格式转换为图像格式文件；基于所述图像格式文件进行图像调整，得到第一处理文件；基于所述第一处理文件进行特征提取和图像文字识别，得到第二处理文件；基于所述第二处理文件识别文字的关键信息和构建分类器并训练，得到第三处理文件；基于第三处理文件获取最匹配逻辑的词，转换为所述文本格式信息。3.根据权利要求2所述的方法，所述基于所述图像格式文件进行图像调整，得到第一处理文件，包括以下步骤：基于图像几何处理方法对所述图像格式文件的部分区域进行图像旋转；将所述图像格式文件的文字分割成单个文字，针对倾斜的文字进行倾斜校正；将所述单个文字图像规整到相同尺寸。4.根据权利要求2所述的方法，所述基于所述第一处理文件进行特征提取和图像文字识别，得到第二处理文件，包括以下步骤：基于第一处理文件，通过光学字符识别（OCR技术），进行特征提取及图像文字识别。5.根据权利要求2所述的方法，所述基于所述第二处理文件识别文字的关键信息和构建分类器并训练，得到第三处理文件，包括以下步骤：基于第二处理文件，通过自然语言处理的中文分词工具和英文分词工具过滤无用的标签及特殊符号，并通过词频－逆向文件频率（TF
‑
IDF）算法识别文字的关键信息，构建分类器，不断对分类器进行训练。6.根据权利要求2所述的方法，所述基于所述第三处理文件获取最匹配逻辑的词，转换为所述文本格式信息，包括以下步骤：基于第三处理文件，对识别文字与...

【专利技术属性】
技术研发人员：穆旖旎，张瑞霞，
申请(专利权)人：深圳希施玛数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人