生成目标数据集的方法、装置、设备及存储介质制造方法及图纸

技术编号:32649859 阅读:18 留言:0更新日期:2022-03-12 18:39
本申请实施例公开了一种生成目标数据集的方法、装置、设备及存储介质,所述方法包括以下步骤:将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量;基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量;基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集;基于所述变量数据集,进行关联查询并发送给用户。采用本申请,能够大幅度提升从文献中提取关键信息的效率。度提升从文献中提取关键信息的效率。度提升从文献中提取关键信息的效率。

【技术实现步骤摘要】
生成目标数据集的方法、装置、设备及存储介质


[0001]本申请涉及调研文献
,主要涉及了一种生成目标数据集的方法、装置、设备及存储介质。

技术介绍

[0002]目前,人们对文献的关键信息愈发重视,越来越多的用户在文献中提取关键信息,搜集文献有效信息时,人工逐篇阅读大量的文献,在阅读每篇文献的时候,用户需要主动判断以提取所需要的关键信息。
[0003]现有技术中,需要用户阅读完文献,并且手动整理文献中的关键信息,这种人工从文献中提取关键信息的方法效率低下。

技术实现思路

[0004]本申请的一个目的在于提供了一种生成目标数据集的方法、装置、设备及存储介质,其优势在于,从文献中智能提取关键信息,大幅度提升分析效率。
[0005]为实现上述目的,第一方面,本申请实施例提供一种生成目标数据集的方法,其中包括:将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量;基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量;基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集;基于所述变量数据集,进行关联查询并发送给用户。
[0006]可以理解,将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量,对所述第一关键变量进行修正,得到第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集,进行关联查询并发送给用户,能够大幅度提升从文献中提取关键信息的效率。
[0007]在一个可能的示例中,所述将文献文件格式转换为文本格式信息,包括以下步骤:将所述文献文件格式转换为图像格式文件;基于所述图像格式文件进行图像调整,得到第一处理文件;基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件;基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件;基于第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息。
[0008]可以理解,通过将文献文件格式转换为文本格式信息,能够优化文献信息提取效率。
[0009]在一个可能的示例中,所述基于所述图像格式文件进行图像调整,得到第一处理
文件,包括以下步骤:基于图像几何处理方法对所述图像格式文件的部分区域进行图像旋转;将所述图像格式文件的文字分割成单个文字,针对倾斜的文字进行倾斜校正;将所述单个文字图像规整到相同尺寸。
[0010]可以理解,通过对所述图像格式文件进行图像调整,能够优化图像识别的效率。
[0011]在一个可能的示例中,所述基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件,包括以下步骤:基于第一处理文件,通过光学字符识别(OCR技术),进行特征提取及图像文字识别。
[0012]可以理解,通过光学字符识别(OCR技术),进行特征提取及图像文字识别,能够优化特征提取效率。
[0013]在一个可能的示例中,所述基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件,包括以下步骤:基于第二处理文件,通过自然语言处理的中文分词工具和英文分词工具过滤无用的标签及特殊符号,并通过词频-逆向文件频率(TF

IDF)算法识别文字的关键信息,构建分类器,不断对分类器进行训练。
[0014]可以理解,通过自然语言处理的中文分词工具和英文分词工具过滤无用的标签及特殊符号,并通过词频-逆向文件频率(TF

IDF)算法识别文字的关键信息,构建分类器,不断对分类器进行训练,能够提升识别文字关键信息的效率。
[0015]在一个可能的示例中,所述基于所述第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息,包括以下步骤:基于第三处理文件,对识别文字与其可能的相似候选字群进行前后比对,获取最匹配逻辑的词,并转换为文本格式。
[0016]可以理解,对识别文字与其可能的相似候选字群进行前后比对,获取最匹配逻辑的词,并转换为文本格式,能够提升转换为文本格式信息的效率。
[0017]在一个可能的示例中,所述基于所述文本格式信息,获取第一关键变量,包括以下步骤:通过自然语言处理(NLP)的命名实体识别(NER),进行指定位置前后预设数量字符的变量抓取,生成第一关键变量。
[0018]可以理解,通过进行指定位置前后预设数量字符的变量抓取,生成第一关键变量,优化了第一关键变量的生成效率。
[0019]在一个可能的示例中,所述基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量包括以下步骤:基于所述第一关键变量和预设映射变量仓库使用双向长短时记忆模型(Bi

LSTM),对初始变量进行修正,得到所述第二关键变量,同时修正后的所述第二关键变量发送给所述预设映射变量仓库,对所述预设映射变量仓库进行动态修改和完善。
[0020]可以理解,通过对所述第一关键变量进行修正,以及对所述预设映射变量仓库进行动态修改和完善,能够提升变量修正效率。
[0021]在一个可能的示例中,所述基于所述第二关键变量,对预设底层业务库进行指标
匹配及数据处理,得到变量数据集包括以下步骤:基于预设研究数据库匹配数据,根据所述第二关键变量,从所述预设研究数据库中进行指标匹配及数据合并整理,得到变量数据集。
[0022]可以理解,通过根据所述第二关键变量,从所述预设研究数据库中进行指标匹配及数据合并整理,得到变量数据集,能够优化用户分析效率。
[0023]在一个可能的示例中,所述基于所述变量数据集,进行关联查询并发送给用户包括以下步骤:基于远程数据服务(Redis)的高效缓存,将数据的关联处理置于应用层,进行多字段关联查询。
[0024]可以理解,通过将数据的关联处理置于应用层,进行多字段关联查询,能够优化目标数据集的获取效率。
[0025]第二方面,一种生成目标数据集的装置,其特征在于,包括用于执行如权利要求1

10中任一项所述的方法。
[0026]第三方面,一种生成目标数据集的设备,其特征在于,包括处理器、存储器以及一个或至少一个程序,其中,所述一个或至少一个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1

10中任一项方法中的指令。
[0027]第四方面,一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现权利要求1

10中任一项所述的方法。
[0028]实施本申请实施例,将具有如下有益效果:将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量;基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量;基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集;基于所述变量数据集,进行关联查询并发送给用户。
附图说明
[0029]为了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成目标数据集的方法,其特征在于,包括以下步骤:将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量;基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量;基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集;基于所述变量数据集,进行关联查询并发送给用户。2.根据权利要求1所述的方法,所述将文献文件格式转换为文本格式信息,包括以下步骤:将所述文献文件格式转换为图像格式文件;基于所述图像格式文件进行图像调整,得到第一处理文件;基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件;基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件;基于第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息。3.根据权利要求2所述的方法,所述基于所述图像格式文件进行图像调整,得到第一处理文件,包括以下步骤:基于图像几何处理方法对所述图像格式文件的部分区域进行图像旋转;将所述图像格式文件的文字分割成单个文字,针对倾斜的文字进行倾斜校正;将所述单个文字图像规整到相同尺寸。4.根据权利要求2所述的方法,所述基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件,包括以下步骤:基于第一处理文件,通过光学字符识别(OCR技术),进行特征提取及图像文字识别。5.根据权利要求2所述的方法,所述基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件,包括以下步骤:基于第二处理文件,通过自然语言处理的中文分词工具和英文分词工具过滤无用的标签及特殊符号,并通过词频-逆向文件频率(TF

IDF)算法识别文字的关键信息,构建分类器,不断对分类器进行训练。6.根据权利要求2所述的方法,所述基于所述第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息,包括以下步骤:基于第三处理文件,对识别文字与...

【专利技术属性】
技术研发人员:穆旖旎张瑞霞
申请(专利权)人:深圳希施玛数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1