数据解析方法、装置、计算机设备和可读存储介质制造方法及图纸

技术编号:26598813 阅读:25 留言:0更新日期:2020-12-04 21:21
本发明专利技术提供了一种数据解析方法、装置、计算机设备和可读存储介质。该方法包括获取待解析表格图片;将待解析表格图片识别为表格文件,得到初始表格文件;根据预配置的解析模板解析初始表格文件,以得到若干条数据记录;将数据记录写入标准表格文件;以及将标准表格文件与历史记录库进行匹配,以确定新增数据记录或修改数据记录;根据新增数据记录或修改数据记录更新历史记录库,得到待解析表格图片对应的数据记录库。通过本发明专利技术,能够实现表格数据的自动解析。

【技术实现步骤摘要】
数据解析方法、装置、计算机设备和可读存储介质
本专利技术涉及数据处理
,尤其涉及一种数据解析方法、装置、计算机设备和可读存储介质。
技术介绍
在建筑材料信息领域,全国各省市地区每月需要发布材料信息数据的表格,涉及到全国30多个省,600多个地区的信息价格,并且发布的方式多样,有PDF、网页、纸质、电子表格等多种形式,其中,以纸质形式进行发布占比高达48%。为了实现数据的统一汇总、存储以及处理等,需要将各种形式的表格数据统一为电子数据,目前,在实现电子数据的统一时,可技术化手段较低,大部分操作方式还停留在人工录入的模式,导致在此项工作上花费的人力及时间成本较高。因此,如何实现表格数据的自动解析,成为本领域亟需解决的技术问题。
技术实现思路
本专利技术的目的是提供一种数据解析方法、装置、计算机设备和可读存储介质,用于解决现有技术中的上述技术问题。一方面,为实现上述目的,本专利技术提供了一种数据解析方法。该数据解析方法包括:获取待解析表格图片;将待解析表格图片识别为表格文件,得到初始表格文件;根据预配置的解析模板解析初始表格文件,以得到若干条数据记录;将数据记录写入标准表格文件;以及将标准表格文件与历史记录库进行匹配,以确定新增数据记录或修改数据记录;根据新增数据记录或修改数据记录更新历史记录库,得到待解析表格图片对应的数据记录库。进一步地,待解析表格图片包括若干类表格,根据预配置的解析模板解析初始表格文件,以得到若干条数据记录的步骤包括:获取解析模板列表,其中,解析模板列表包括解析模板所解析的表格的标题;读取初始表格文件中一行内容得到行文本;判断解析模板列表中是否存在与行文本匹配的标题;若不存在,根据当前解析模板将行文本解析为一条数据记录,并将解析得到的数据记录写入标准表格文件;若存在,将匹配的标题对应的解析模板作为当前解析模板。进一步地,数据记录包括若干字段,解析模板包括用于解析每个字段的解析规则,根据当前解析模板将行文本解析为一条数据记录的步骤包括:根据解析模板中的解析规则从行文本中提取对应的字段内容;根据从行文本中提取到的所有字段内容构建数据记录。进一步地,数据记录包括第一字段和第二字段,根据当前解析模板将行文本解析为一条数据记录的步骤还包括:当根据第一字段对应的解析规则从行文本中提取不到字段内容时,根据相邻数据记录中的第一字段的字段内容构建数据记录,其中,相邻数据记录为根据初始表格文件中上一行内容得到的数据记录;当根据第二字段对应的解析规则从行文本中提取出第二字段的字段内容时,对提取出的第二字段的字段内容进行校验,并在校验合法时,根据从第二字段的字段内容构建数据记录。进一步地,将标准表格文件与历史记录库进行匹配,以确定新增数据记录或修改数据记录的步骤包括:将标准表格文件中的数据记录与历史记录库中的历史记录进行匹配;当数据记录在历史记录库中没有匹配到历史记录时,确定数据记录为新增数据记录;当数据记录在历史记录库中匹配到历史记录,且被匹配到的历史记录与数据记录唯一匹配时,计算数据记录与被匹配到的历史记录的第一相似度,当第一相似度不超过预设相似度阈值时,确定数据记录为对被匹配到的历史记录的修改数据记录;以及当两条或两条以上数据记录在历史记录库中匹配到同一条历史记录时,计算各条数据记录与同一条历史记录的相似度并获取最大的第二相似度,当第二相似度不超过预设相似度阈值时,确定第二相似度对应的数据记录为对同一条历史记录的修改数据记录。进一步地,计算数据记录与历史记录的相似度的步骤包括:根据数据记录与历史记录的价格字段中数值的差值计算第一相似因子,其中,差值越小,第一相似因子越大;根据计算数据记录与历史记录的文本相似度计算第二相似因子,其中,文本相似度越高,第二相似因子越大;以及根据第一相似因子和第二相似因子计算相似度。进一步地,将标准表格文件中的数据记录与历史记录库中的历史记录进行匹配的步骤包括:获取标准表格文件中的第N条数据记录和第N+1条数据记录,以得到第一数据记录和第二数据记录;确定数据记录库的检索范围,其中,当N大于M时,检索范围为第N-M条历史记录至第N+M条历史记录,当N不超过M时,检索范围为第1条历史记录至第N+M条历史记录;根据第一数据记录构造第一检索词,根据第二数据记录构造第二检索词;当第一检索词在检索范围内没有命中历史记录时,确定第一数据记录在历史记录库中没有匹配到历史记录;当第一检索词在检索范围内命中历史记录,且第二检索词在检索范围内没有命中历史记录或者第一检索词和第二检索词在检索范围内命中不同的历史记录时,确定第一检索词命中的历史记录为第一数据记录匹配到的历史记录;当第一检索词和第二检索词命中相同的历史记录时,计算第一数据记录与相同的历史记录的第三相似度,计算第二数据记录与相同的历史记录的第四相似度,当第三相似度大于第四相似度时,确定相同的历史记录为第一数据记录匹配到的历史记录,当第四相似度大于第三相似度时,确定第一数据记录在历史记录库中没有匹配到历史记录。另一方面,为实现上述目的,本专利技术提供了一种数据解析装置。该数据解析装置包括:获取模块,用于获取待解析表格图片;识别模块,用于将待解析表格图片识别为表格文件,得到初始表格文件;解析模板,用于根据预配置的解析模板解析初始表格文件,以得到若干条数据记录,并将数据记录写入标准表格文件;以及更新模块,将标准表格文件与历史记录库进行匹配,以确定新增数据记录或修改数据记录,并根据新增数据记录或修改数据记录更新历史记录库,得到待解析表格图片对应的数据记录库。又一方面,为实现上述目的,本专利技术还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。又一方面,为实现上述目的,本专利技术还提供计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。本专利技术提供的数据解析方法、装置、计算机设备和可读存储介质,将待解析的非可编辑的表格转换为待解析表格图片,获取到待解析表格图片后,对该图片进行识别,识别到带解析的表格所对应的表格文件,定义为初始表格文件,然后根据预配置的解析模板对初始表格文件进行解析,得到数据记录后写入标准表格文件,最后将该标准表格文件与历史记录库进行匹配,以确定新增数据记录或修改数据记录,进而利用新增数据记录或修改数据记录更新历史记录库,将更新后的历史记录库作为待解析表格图片对应的数据记录库,实现了对待解析表格图片中表格数据的自动解析,无需人工录入,同时,将识别出的初始表格文件转化为标准表格文件后与历史记录库进行比对,在历史记录库的基础上进行更新得到最终的解析结果,能够提升数据解析的准确性。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例一提供的本文档来自技高网...

【技术保护点】
1.一种数据解析方法,其特征在于,包括:/n获取待解析表格图片;/n将所述待解析表格图片识别为表格文件,得到初始表格文件;/n根据预配置的解析模板解析所述初始表格文件,以得到若干条数据记录;/n将所述数据记录写入标准表格文件;以及/n将所述标准表格文件与历史记录库进行匹配,以确定新增数据记录或修改数据记录;/n根据所述新增数据记录或所述修改数据记录更新所述历史记录库,得到所述待解析表格图片对应的数据记录库。/n

【技术特征摘要】
1.一种数据解析方法,其特征在于,包括:
获取待解析表格图片;
将所述待解析表格图片识别为表格文件,得到初始表格文件;
根据预配置的解析模板解析所述初始表格文件,以得到若干条数据记录;
将所述数据记录写入标准表格文件;以及
将所述标准表格文件与历史记录库进行匹配,以确定新增数据记录或修改数据记录;
根据所述新增数据记录或所述修改数据记录更新所述历史记录库,得到所述待解析表格图片对应的数据记录库。


2.根据权利要求1所述的数据解析方法,其特征在于,所述待解析表格图片包括若干类表格,根据预配置的解析模板解析所述初始表格文件,以得到若干条数据记录的步骤包括:
获取解析模板列表,其中,所述解析模板列表包括所述解析模板所解析的表格的标题;
读取所述初始表格文件中一行内容得到行文本;
判断所述解析模板列表中是否存在与所述行文本匹配的标题;
若不存在,根据当前解析模板将所述行文本解析为一条数据记录,并将解析得到的所述数据记录写入所述标准表格文件;
若存在,将所述匹配的标题对应的解析模板作为所述当前解析模板。


3.根据权利要求2所述的数据解析方法,其特征在于,所述数据记录包括若干字段,所述解析模板包括用于解析每个所述字段的解析规则,根据当前解析模板将所述行文本解析为一条数据记录的步骤包括:
根据解析模板中的解析规则从所述行文本中提取对应的字段内容;
根据从所述行文本中提取到的所有字段内容构建所述数据记录。


4.根据权利要求3所述的数据解析方法,其特征在于,所述数据记录包括第一字段和第二字段,根据当前解析模板将所述行文本解析为一条数据记录的步骤还包括:
当根据所述第一字段对应的解析规则从所述行文本中提取不到字段内容时,根据相邻数据记录中的第一字段的字段内容构建所述数据记录,其中,所述相邻数据记录为根据所述初始表格文件中上一行内容得到的数据记录;
当根据所述第二字段对应的所述解析规则从所述行文本中提取出所述第二字段的字段内容时,对提取出的所述第二字段的字段内容进行校验,并在校验合法时,根据从所述第二字段的字段内容构建所述数据记录。


5.根据权利要求1所述的数据解析方法,其特征在于,将所述标准表格文件与历史记录库进行匹配,以确定新增数据记录或修改数据记录的步骤包括:
将所述标准表格文件中的数据记录与所述历史记录库中的历史记录进行匹配;
当所述数据记录在所述历史记录库中没有匹配到历史记录时,确定所述数据记录为所述新增数据记录;
当所述数据记录在所述历史记录库中匹配到历史记录,且被匹配到的历史记录与所述数据记录唯一匹配时,计算所述数据记录与所述被匹配到的历史记录的第一相似度,当所述第一相似度不超过预设相似度阈值时,确定所述数据记录为对所述被匹配到的历史记录的修改数据记录;以及
当两条或两条以上所述数据记录在所述历史记录库中匹配到同一条历史记录时,计算各条所述数据记录与所述同一条历史记录的相似度并获取最大的第二相似...

【专利技术属性】
技术研发人员:张彬李果成应洪峰
申请(专利权)人:广联达科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1