【技术实现步骤摘要】
本专利技术实施例涉及文档处理,尤其涉及一种文档处理方法、装置、计算机设备及存储介质。
技术介绍
1、在工作和学习中经常需要用文档记录工作和学习内容,一般文档中的文本内容冗长,当进行检索时无法快速准确的确定需要的内容。例如,招标项目都有招标书和投标书,这些标书的内容格式基本各不相同,而文本内容又浩繁冗长,单纯使用人工的方式来处理整理标书信息就显得效率十分低下。在当今信息化时代,标书一般使用pdf格式存储和发布,纸质版标书也一般会使用扫描存储为pdf文件。解决处理整理标书信息问题的一个途径是在pdf文档中实现特定内容的提取标书内容。
2、但是,目前利用开源解析库来进行pdf文档的解析时,特别是对汉字文档的解析往往存在错误和偏差,且同时还存在提取的内容存在大量空格且提取的内容杂乱无序的问题。因此,如何从文档中准确提取信息成为现在亟待解决的问题。
技术实现思路
1、鉴于此,为解决上述从文档中准确提取信息的技术问题,本专利技术实施例提供一种文档处理方法、装置、计算机设备及存储介质。
>2、第一方面本文档来自技高网...
【技术保护点】
1.一种文档处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将目标文档中的文字信息划分为多个信息片段,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标文档对应的检索规则对多个所述信息片段进行检索,得到检索结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,所述获取所述检索结果在所述目标文档中的位置信息,以用于展示,包括:
6.根据权利要求1所述的方法,其特征在于,所述当接收到针对所述检索结果的第一操作
...【技术特征摘要】
1.一种文档处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将目标文档中的文字信息划分为多个信息片段,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标文档对应的检索规则对多个所述信息片段进行检索,得到检索结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,所述获取所述检索结果在所述目标文档中的位置信息,以用于展示,包括:
6.根据权利要求1所述的方法,其特征在于,所述当接...
【专利技术属性】
技术研发人员:赵世文,刘慧,赵金洲,徐甘来,宋海川,李旭韩,
申请(专利权)人:珠海格力电器股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。