基于大数据的文档智能检索方法技术

技术编号:36407740 阅读:42 留言:0更新日期:2023-01-18 10:16
本发明专利技术提供了一种基于大数据的文档智能检索方法,涉及文档检索技术领域。本发明专利技术通过本发明专利技术的方法,用户在输入检索语句后,系统会根据检索语句与PPT文档各页的描述文本相似程度智能地从数据库中检索出若干PPT文档,且在获取PPT文档各页的描述文本时,本申请并非对所有页面中所有的图像都进行描述,过多的描述文本会造成相互干扰,进而使得检索结果不理想,而是根据用户习惯以及图像特性,对其进行筛选后得到目标图像,再对目标图像进行描述作为该页的描述文本,进而与PPT进行关联,能够得到较好的检索结果。到较好的检索结果。到较好的检索结果。

【技术实现步骤摘要】
基于大数据的文档智能检索方法


[0001]本专利技术涉及文档检索
,具体涉及一种基于大数据的文档智能检索方法。

技术介绍

[0002]文档检索是指从某一数据库中查找达到所需要的信息资料过程。目前的智能检索主要是针对文字为主的文档进行关键字检索。这种方式针对大多数word、PDF文件有着较好的检索效果。
[0003]但针对PPT文档这种文字占比相对较少,其很多内容与图片具有较强关联的文档,普通的关键字检索并不能起到很好的效果,针对上述问题,目前亟需一种能够适用于PPT文档的智能检索方法。

技术实现思路

[0004](一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于大数据的文档智能检索方法,解决了现有的智能检索方法针对PPT文档检索效果不理想的问题。
[0005](二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于大数据的文档智能检索方法,该方法包括:在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属性,且所述对象属性包本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的文档智能检索方法,其特征在于,该方法包括:在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属性,且所述对象属性包括:尺寸信息、位置信息、图层信息;对象包括图像对象、文本框对象、形状对象;利用大数据训练图像描述模型,得到训练好的图像描述模型;将PPT文档中的图像对象划分为内容图像和装饰图像;基于PPT文档的对象信息,获取各页中各个内容图像的未遮挡面积,并基于未遮挡面积的排序确定该页的目标图像;利用训练好的图像描述模型获取目标图像的描述文本,并将描述文本与对应的PPT文档进行关联;获取用户输入的检索语句,并获取各个描述文本与检索语句的相似度,基于相似度排序生成检索结果。2.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述图像描述模型采用基于CNN和LSTM的网络模型,且采用Flickr_30K数据集对图像描述模型进行训练。3.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述将PPT文档中的图像对象划分为内容图像和装饰...

【专利技术属性】
技术研发人员:常智山孟超越程建文周志扬肖丽王海霞王伟
申请(专利权)人:铭台北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1