【技术实现步骤摘要】
基于大数据的文档智能检索方法
[0001]本专利技术涉及文档检索
,具体涉及一种基于大数据的文档智能检索方法。
技术介绍
[0002]文档检索是指从某一数据库中查找达到所需要的信息资料过程。目前的智能检索主要是针对文字为主的文档进行关键字检索。这种方式针对大多数word、PDF文件有着较好的检索效果。
[0003]但针对PPT文档这种文字占比相对较少,其很多内容与图片具有较强关联的文档,普通的关键字检索并不能起到很好的效果,针对上述问题,目前亟需一种能够适用于PPT文档的智能检索方法。
技术实现思路
[0004](一)解决的技术问题针对现有技术的不足,本专利技术提供了一种基于大数据的文档智能检索方法,解决了现有的智能检索方法针对PPT文档检索效果不理想的问题。
[0005](二)技术方案为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于大数据的文档智能检索方法,该方法包括:在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的文档智能检索方法,其特征在于,该方法包括:在PPT文档导入数据库时,获取该PPT文档中各页的对象信息;所述对象信息包括每页包含的对象文件,以及对象属性,且所述对象属性包括:尺寸信息、位置信息、图层信息;对象包括图像对象、文本框对象、形状对象;利用大数据训练图像描述模型,得到训练好的图像描述模型;将PPT文档中的图像对象划分为内容图像和装饰图像;基于PPT文档的对象信息,获取各页中各个内容图像的未遮挡面积,并基于未遮挡面积的排序确定该页的目标图像;利用训练好的图像描述模型获取目标图像的描述文本,并将描述文本与对应的PPT文档进行关联;获取用户输入的检索语句,并获取各个描述文本与检索语句的相似度,基于相似度排序生成检索结果。2.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述图像描述模型采用基于CNN和LSTM的网络模型,且采用Flickr_30K数据集对图像描述模型进行训练。3.如权利要求1所述的一种基于大数据的文档智能检索方法,其特征在于,所述将PPT文档中的图像对象划分为内容图像和装饰...
【专利技术属性】
技术研发人员:常智山,孟超越,程建文,周志扬,肖丽,王海霞,王伟,
申请(专利权)人:铭台北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。