文本的提取方法和装置、存储介质及电子装置制造方法及图纸

技术编号：35018005 阅读：16 留言：0更新日期：2022-09-24 22:45

本申请公开了一种文本的提取方法和装置、存储介质及电子装置，涉及智能家居领域，方法包括：在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下，通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积；根据所述第一文本框面积确定所述第一文本框中文本的第一字号；根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本；根据所述目录文本在所述数字图书格式文件中提取所述目标文本。图书格式文件中提取所述目标文本。图书格式文件中提取所述目标文本。

全部详细技术资料下载

【技术实现步骤摘要】
文本的提取方法和装置、存储介质及电子装置

[0001]本专利技术涉及通信领域，具体而言，涉及一种文本的提取方法和装置、存储介质及电子装置。

技术介绍

[0002]如今人工智能、大数据等技术的不断发展，人类社会对服务自动化、智能化的需求越来越高，知识图谱成为技术方案中必要的一环。对于家电来说，说明书是一个重要的知识来源。但是说明书的格式往往是数字图书格式PDF文件，很难直接使用人工智能技术提取。PDF文件提取的难点就在于，PDF文件不同于word或者其他文本格式，基本属于图像。现有技术中，会针对不同类型的PDF 文件，类如合同、发票、年报等，利用光学字符识别OCR技术将PDF文件转为文本，再定向获取文本知识。或者是先利用OCR技术，将PDF文件转为HTML 格式的文件，然后再用自然语言处理技术提取。
[0003]但是在利用光学字符识别OCR技术将PDF文件转为文本之后，失去了文本的格式信息，比如文本的字体、大小、颜色、缩进等，后续只能通过文本的语义信息理解对目标文本进行提取。
[0004]针对相关技术中，只能通过文本的语义信息理解对PDF文件中的目标文本进行提取等问题，尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种文本的提取方法和装置、存储介质及电子装置，以至少解决相关技术中，只能通过文本的语义信息理解对PDF文件中的目标文本进行提取等问题。
[0006]根据本专利技术实施例的一个实施例，提供了一种文本的提取方法，包括：在接收到用于请求在数字图书格...

【技术保护点】

【技术特征摘要】
1.一种文本的提取方法，其特征在于，包括：在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下，通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积；根据所述第一文本框面积确定所述第一文本框中文本的第一字号；根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本；根据所述目录文本在所述数字图书格式文件中提取所述目标文本。2.根据权利要求1所述的方法，其特征在于，根据所述第一文本框面积确定所述第一文本框中文本的第一字号，包括：确定所述第一文本框中的文本字数；根据所述第一文本框面积和所述文本字数确定任一文字的文字面积；通过文字面积和字号的第一对应关系确定所述任一文字的文字面积对应的字号，并将所述任一文字对应的字号作为所述第一文本框中文本的第一字号。3.根据权利要求1所述的方法，其特征在于，根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本之前，所述方法还包括：确定所述目录标识的第一标题类型，并通过标题类型与字号的第二对应关系确定所述目录标识对应的第二字号；在所述第一字号中确定与所述第二字号一致的字号，以及在所述第一文本中确定与所述第二字号一致的字号对应的第二文本；在所述第二文本中确定所述目录标识。4.根据权利要求1所述的方法，其特征在于，根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本，包括：在所述数字图书格式文件中确定所述目录标识所在的页面；在所述页面中确定所述目录标识所对应的目录文本。5.根据权利要求1所述的方法，其特征在于，根据所述目录文本在所述数字图书格式文件中提取所述目标文本之前，所述方法还包括：提取所述目录文本的第一文字内容和第二文字内容，其中，所述第一文字内容用于指示所述数字图书格式文本的标题，所述第二文字内容用于指示所述第二文字内容对应的第一页码；建立所述第一文字内容和所述第二文字内容的第三对应关系；根据所述第三对应关系对所述数字图书格式文本进行分割，以得到每个第二文字内容对应的...

【专利技术属性】
技术研发人员：刘畅，
申请(专利权)人：海尔智家股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人