文本的提取方法和装置、存储介质及电子装置制造方法及图纸

技术编号:35018005 阅读:16 留言:0更新日期:2022-09-24 22:45
本申请公开了一种文本的提取方法和装置、存储介质及电子装置,涉及智能家居领域,方法包括:在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本。图书格式文件中提取所述目标文本。图书格式文件中提取所述目标文本。

【技术实现步骤摘要】
文本的提取方法和装置、存储介质及电子装置


[0001]本专利技术涉及通信领域,具体而言,涉及一种文本的提取方法和装置、存储介质及电子装置。

技术介绍

[0002]如今人工智能、大数据等技术的不断发展,人类社会对服务自动化、智能化的需求越来越高,知识图谱成为技术方案中必要的一环。对于家电来说,说明书是一个重要的知识来源。但是说明书的格式往往是数字图书格式PDF文件,很难直接使用人工智能技术提取。PDF文件提取的难点就在于,PDF文件不同于word或者其他文本格式,基本属于图像。现有技术中,会针对不同类型的PDF 文件,类如合同、发票、年报等,利用光学字符识别OCR技术将PDF文件转为文本,再定向获取文本知识。或者是先利用OCR技术,将PDF文件转为HTML 格式的文件,然后再用自然语言处理技术提取。
[0003]但是在利用光学字符识别OCR技术将PDF文件转为文本之后,失去了文本的格式信息,比如文本的字体、大小、颜色、缩进等,后续只能通过文本的语义信息理解对目标文本进行提取。
[0004]针对相关技术中,只能通过文本的语义信息理解对PDF文件中的目标文本进行提取等问题,尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种文本的提取方法和装置、存储介质及电子装置,以至少解决相关技术中,只能通过文本的语义信息理解对PDF文件中的目标文本进行提取等问题。
[0006]根据本专利技术实施例的一个实施例,提供了一种文本的提取方法,包括:在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
[0007]在一个示例性实施例中,根据所述第一文本框面积确定所述第一文本框中文本的第一字号,包括:确定所述第一文本框中的文本字数;根据所述第一文本框面积和所述文本字数确定任一文字的文字面积;通过文字面积和字号的第一对应关系确定所述任一文字的文字面积对应的字号,并将所述任一文字对应的字号作为所述第一文本框中文本的第一字号。
[0008]在一个示例性实施例中,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本之前,所述方法还包括:确定所述目录标识的第一标题类型,并通过标题类型与字号的第二对应关系确定所述目录标识对应的第二字号;在所述第一字号中确定与所述第二字号一致的字号,以及在所述第一文本中确定与所述第
二字号一致的字号对应的第二文本;在所述第二文本中确定所述目录标识。
[0009]在一个示例性实施例中,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本,包括:在所述数字图书格式文件中确定所述目录标识所在的页面;在所述页面中确定所述目录标识所对应的目录文本。
[0010]在一个示例性实施例中,根据所述目录文本在所述数字图书格式文件中提取所述目标文本之前,所述方法还包括:提取所述目录文本的第一文字内容和第二文字内容,其中,所述第一文字内容用于指示所述数字图书格式文本的标题,所述第二文字内容用于指示所述第二文字内容对应的第一页码;建立所述第一文字内容和所述第二文字内容的第三对应关系;根据所述第三对应关系对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的子数字图书格式文本。
[0011]在一个示例性实施例中,根据所述第三对应关系对所述数字图书格式文本进行分割,包括:确定标题文本的第二标题类型,并通过标题类型与字号的第二对应关系确定所述标题文本对应的第三字号,其中,所述标题文本的文本内容与所述目录文本的第一文本内容相同;根据所述第一字号和所述标题文本对应的第三字号在所述第一文本中确定所述标题文本;根据所述第三对应关系确定所述标题文本对应的页面的第二页码,并根据所述第二页码对所述数字图书格式文本进行分割,以得到每个标题文本对应的子数字图书格式文本。
[0012]在一个示例性实施例中,根据所述目录文本在所述数字图书格式文件中提取所述目标文本,包括:确定所述目标文本对应的目标标题文本,以及确定所述目标标题文本对应的目标子数字图书格式文本,其中,所述标题文本至少包括:目标标题文本;通过光学字符识别技术获取所述目标子数字图书格式文件中的第二文本、所述第二文本分别对应的第二文本框以及所述第二文本框对应的第二面积;根据所述第二面积确定所述第二文本框中文本的第二字号;根据所述第二字号在所述第二文本中提取目标文本。
[0013]根据本专利技术实施例的另一个实施例,还提供了一种文本的提取装置,包括:获取模块,用于在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;第一确定模块,用于根据所述第一文本框面积确定所述第一文本框中文本的第一字号;第二确定模块,用于根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;提取模块,用于根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
[0014]根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本的提取方法。
[0015]根据本专利技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文本的提取方法。
[0016]在本专利技术实施例中,在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第
一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本;本专利技术实施例,基于OCR技术获取所有文本的文本框的位置信息,从而分析得出各文本的字体大小,分析得出数字图书格式文件的各级标题,进而对目标文本进行提取,采用上述技术方案,解决了只能通过文本的语义信息理解对PDF文件中的目标文本进行提取等问题,由于根据各级标题分割了说明书语义,缩小了提取的范围,降低了处理难度,提高了提取效率。
附图说明
[0017]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0018]为了更清楚地说明本申请实施例或现有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的提取方法,其特征在于,包括:在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本。2.根据权利要求1所述的方法,其特征在于,根据所述第一文本框面积确定所述第一文本框中文本的第一字号,包括:确定所述第一文本框中的文本字数;根据所述第一文本框面积和所述文本字数确定任一文字的文字面积;通过文字面积和字号的第一对应关系确定所述任一文字的文字面积对应的字号,并将所述任一文字对应的字号作为所述第一文本框中文本的第一字号。3.根据权利要求1所述的方法,其特征在于,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本之前,所述方法还包括:确定所述目录标识的第一标题类型,并通过标题类型与字号的第二对应关系确定所述目录标识对应的第二字号;在所述第一字号中确定与所述第二字号一致的字号,以及在所述第一文本中确定与所述第二字号一致的字号对应的第二文本;在所述第二文本中确定所述目录标识。4.根据权利要求1所述的方法,其特征在于,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本,包括:在所述数字图书格式文件中确定所述目录标识所在的页面;在所述页面中确定所述目录标识所对应的目录文本。5.根据权利要求1所述的方法,其特征在于,根据所述目录文本在所述数字图书格式文件中提取所述目标文本之前,所述方法还包括:提取所述目录文本的第一文字内容和第二文字内容,其中,所述第一文字内容用于指示所述数字图书格式文本的标题,所述第二文字内容用于指示所述第二文字内容对应的第一页码;建立所述第一文字内容和所述第二文字内容的第三对应关系;根据所述第三对应关系对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的...

【专利技术属性】
技术研发人员:刘畅
申请(专利权)人:海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1