一种文档段落搜索的方法和电子设备技术

技术编号:37989441 阅读:17 留言:0更新日期:2023-06-30 10:04
本发明专利技术涉及一种文档段落搜索的方法和电子设备,文档段落搜索的方法包括:获取文档的类型;基于所述文档的类型进行对应的内容读取;对读取的内容进行分段处理;根据搜索引擎进行关键词搜索,以确定对应的文档段落,其中,对文档进行不同的类型的采集,并且进行不同类型的文档的内容的读取,以实现多个类型文档的内容读取,从而进行不同内容格式的段落定位,提高了文档段落搜索的方法在各个类型的文档的应用率,以适用不同的使用环境。以适用不同的使用环境。以适用不同的使用环境。

【技术实现步骤摘要】
一种文档段落搜索的方法和电子设备


[0001]本申请涉及文档段落搜索的
,尤其涉及一种文档段落搜索的方法和电子设备。

技术介绍

[0002]随着科技的发展,电子文档逐步应用于人们工作和生活中,电子文档中存在较多的内容,并且按照段落进行对应的分段,在现有技术中,使用者在office办公软件中通过目录定位到目标段落或者通过Ctrl+F搜索,可是,文档存在多种类型,并且部分文档类型无法采用目录定位到目标段落或者通过Ctrl+F搜索,导致现有的文档段落搜索的方法应用率较低。

技术实现思路

[0003]本申请实施例的目的在于提出一种文档段落搜索的方法和电子设备,以解决现有的文档段落搜索的方法应用率较低的问题。
[0004]为了解决上述技术问题,本申请实施例提供一种文档段落搜索的方法,采用了如下所述的技术方案:
[0005]获取文档的类型;
[0006]基于所述文档的类型进行对应的内容读取;
[0007]对读取的内容进行分段处理。
[0008]为了解决上述技术问题,本申请实施例还提供一种电子设备,采用了如下所述的技术方案:
[0009]包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的文档段落搜索的方法的步骤。
[0010]为了解决上述技术问题,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序。
[0011]为了解决上述技术问题,本申请实施例还提供一种文档段落搜索的系统,包括:获取模块,用于获取文档的类型;读取模块,用于基于所述文档的类型进行对应的内容读取;分段模块,用于对读取的内容进行分段处理;段落模块,用于根据搜索引擎进行关键词搜索,以确定对应的文档段落。
[0012]本申请提供了一种文档段落搜索的方法和电子设备,文档段落搜索的方法包括:获取文档的类型;基于所述文档的类型进行对应的内容读取;对读取的内容进行分段处理;其中,对文档进行不同的类型的采集,并且进行不同类型的文档的内容的读取,以实现多个类型文档的内容读取,从而进行不同内容格式的段落定位,提高了文档段落搜索的方法在各个类型的文档的应用率,以适用不同的使用环境。
附图说明
[0013]为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1是本申请实施例一提供的文档段落搜索的方法的实现流程图;
[0015]图2是图1中步骤S110的一种具体实施方式的流程图;
[0016]图3是图1中步骤S120的一种具体实施方式的流程图;
[0017]图4是根据本申请的电子设备的一个实施例的电子设备基本结构框图;
[0018]图5是本申请实施例一提供的文档段落搜索的系统的示意图。
具体实施方式
[0019]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0020]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0021]为了使本
的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0022]实施例一
[0023]继续参考图1至5,示出了本申请实施例一提供的文档段落搜索的方法的实现流程图,文档段落搜索的方法包括步骤S110至步骤S140。
[0024]步骤S110:获取文档的类型。
[0025]在本申请实施例中,文档作为常用文件,并且在不同的环境下存在不同的类型。
[0026]具体包括:
[0027]步骤S111:获取文档;
[0028]其中,对文档的获取可以在系统中进行采集,或者通过邮件进行收集。
[0029]步骤S112:对文档进行类型读取,并且确定文档的类型,其中,文档的类型可以为图片类型、PDF类型、Docx类型;
[0030]具体的,对文档进行类型读取,以便于确定文档的对应类型,从而根据不同的文档类型进行对应的分段处理,其中,图片类型和不可编辑Pdf,由于计算机无法直接读取到文档内容,需要借助OCR(Optical Character Recognition,光学字符识别)进行文字识别才拿到文档中的内容,由于本专利聚焦点是在定位段落,并充分利用OCR(Optical Character Recognition,光学字符识别)服务。
[0031]可编辑Pdf,是一种便捷式文档格式,大多数编程语言都有可解析的工具包,如
python语言的Pdfminer/pyPDF直接解析出Pdf内容及格式。Docx格式是微软的Word文件格式。
[0032]步骤S120:基于所述文档的类型进行对应的内容读取。
[0033]在本申请实施例中,根据不同的文档类型进行对应的内容的读取,以便于对文档的内容进行后续的分段,从而进行对应的处理。
[0034]具体包括:
[0035]步骤S121:基于所述文档的类型进行内容读取,并获取读取对应的内容,其中,读取的内容可以为含有图片的信息或者含有字符的信息。
[0036]步骤S130:对读取的内容进行分段处理。
[0037]在本申请实施例中,读取的内容需要进行对应的分段,并且各段落的内容进行对应的呈现。
[0038]其中,对读取的内容进行图片处理,并输出对应的图片,其中,每张单独的图片作为一个段落;根据OCR识别各图片,并输出对应的文字内容,以形成各段落的内容。
[0039]此时,图像切割的前提需要将所有文件先转为图片格式,接着从上至下切成一张张单独的图片,每张单独的图片作为一个段落,再丢给OCR识别,识别结果最终拼成字符串作为一段。
[0040]但这里有个问题,如按照图片像素y轴等长切分,切开处很容易切在文字上,如果该文字正是需要定位的关键词,可能会导致定位错误,所以需要借助滑窗思想,此时,所述对读取的内容进行图片处理,包括:对待处理的图片进行坐标处理;基于图片的y轴坐标对图片进行滑窗累加处理,并预设滑窗的大小;若相邻的两图片存在重复部分,则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档段落搜索的方法,其特征在于,包括:获取文档的类型;基于所述文档的类型进行对应的内容读取;对读取的内容进行分段处理。2.根据权利要求1所述的文档段落搜索的方法,其特征在于,所述基于所述文档的类型进行对应的内容读取,包括:基于所述文档的类型进行内容读取,并获取读取对应的内容。3.根据权利要求1所述的文档段落搜索的方法,其特征在于,所述对读取的内容进行分段处理,包括:对读取的内容进行图片处理,并输出对应的图片,其中,每张单独的图片作为一个段落;根据OCR识别各图片,并输出对应的文字内容,以形成各段落的内容。4.根据权利要求3所述的文档段落搜索的方法,其特征在于,所述对读取的内容进行图片处理,包括:对待处理的图片进行坐标处理;基于图片的y轴坐标对图片进行滑窗累加处理,并预设滑窗的大小;若相邻的两图片存在重复部分,则对图片进行去重处理,并输出单一段落的内容。5.根据权利要求1所述的文档段落搜索的方法,其特征在于,所述对读取的内容进行分段处理,还包括:对读取的内容进行字符处理,并设置段落字符的步长变量;根据段落字符的步长变量和步长偏移量进行分段...

【专利技术属性】
技术研发人员:董润华张晓程
申请(专利权)人:上海弘玑信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1