文档检索的方法和装置制造方法及图纸

技术编号:11697275 阅读:79 留言:0更新日期:2015-07-08 19:29
本申请公开了一种文档检索的方法和装置,所述方法的一个实施方式包括:获取第一关键词;基于所述第一关键词,开始如下检索步骤:根据所述第一关键词,检索出与所述第一关键词相关的文档;基于所述文档,获取与所述第一关键词相关的第二关键词;基于所述第二关键词与所述第一关键词的比较判断所述第二关键词是否收敛;如果所述第二关键词收敛,则输出所述文档;如果所述第二关键词不收敛,则将所述第二关键词作为第一关键词继续执行所述检索步骤。该实施方式提高了文档检索的全面性。

【技术实现步骤摘要】

本申请涉及计算机
,具体涉及数据检索
,尤其涉及一种文档检 索的方法和装置。
技术介绍
文档检索是基于数据的匹配从文档库中获得相关文档并输出的一种技术。例如, 利用文档检索技术可以基于申请号、申请日或关键词的匹配从专利文献库中检索一份或多 份专利文献,也可以是根据关键词、作者或标题的匹配从论文库中检索一篇或多篇学术论 文文档,等等。 当前基于关键词匹配的文档检索技术中,通常需要依赖已知的关键词进行匹配检 索。这样的检索过程在预知的关键词不够完备时存在文档检索不全面的问题。
技术实现思路
本申请的目的在于提出一种改进的文档检索的方法和装置,来解决以上
技术介绍
部分提到的一个或多个技术问题。 第一方面,本申请提供了一种文档检索的方法,所述方法包括:获取第一关键词; 基于所述第一关键词,执行如下检索步骤:根据所述第一关键词,检索出与所述第一关键词 相关的文档;基于所述文档,获取与所述第一关键词相关的第二关键词;基于所述第二关 键词与所述第一关键词的比较判断所述第二关键词是否收敛;如果所述第二关键词收敛, 则输出所述文档;如果所述第二关键词不收敛,则将所述第二关键词作为第一关键词继续 执行所述检索步骤。 在一些实施例中,所述基于所述文档,获取与所述第一关键词相关的第二关键词 包括:提取所述文档的关键词;基于预先训练的分类模型,将所述文档的关键词中符合以 下筛选条件的关键词作为与所述第一关键词相关的第二关键词:所述关键词属于所述分类 模型中所述第一关键词的分类下的关键词之一。 在一些实施例中,所述基于所述文档,获取与所述第一关键词相关的第二关键词 还包括:将符合筛选条件的所述文档的关键词在分类模型中所属分类的类别名称作为第二 关键词。 在一些实施例中,所述基于所述文档,获取与所述第一关键词相关的第二关键词 还包括:将所述第一关键词作为第二关键词。 在一些实施例中,所述提取所述文档的关键词包括:通过词频-逆向文件频率模 型、隐含狄利克雷分布模型中的至少一种模型提取所述文档的关键词。 在一些实施例中,所述判断所述第二关键词是否收敛包括:将所述第二关键词的 数量与所述第一关键词的数量进行对比;若所述第二关键词的数量与所述第一关键词的数 量相同,则判断为所述第二关键词收敛;若所述第二关键词的数量大于所述第一关键词的 数量,则判断为所述第二关键词不收敛。 第二方面,本申请提供了一种文档检索的装置,所述装置包括:获取模块,配置用 于获取第一关键词;检索模块,配置用于基于所述第一关键词,驱动以下单元执行如下检索 步骤:检索单元,根据所述第一关键词,检索出与所述第一关键词相关的文档;提取单元, 基于所述文档,获取与所述第一关键词相关的第二关键词;判断单元,基于所述第二关键词 与所述第一关键词的比较判断所述第二关键词是否收敛;输出单元,如果所述第二关键词 收敛,则输出所述文档;反馈模块,配置用于如果所述第二关键词不收敛,则将所述第二关 键词作为第一关键词反馈给所述获取模块。 在一些实施例中,所述提取单元包括:提取子单元,配置用于提取所述文档的关键 词;确定子单元,配置用于基于预先训练的分类模型,将所述文档的关键词中符合以下筛选 条件的关键词作为与所述第一关键词相关的第二关键词:所述关键词属于所述分类模型中 所述第一关键词的分类下的关键词之一。 在一些实施例中,所述确定子单元还配置用于:将符合筛选条件的所述文档的关 键词在分类模型中所属分类的类别名称作为第二关键词。 在一些实施例中,所述确定子单元还配置用于:将所述第一关键词作为第二关键 O 在一些实施例中,所述提取子单元配置用于:通过词频-逆向文件频率模型、隐含 狄利克雷分布模型中的至少一种模型提取所述文档的关键词。 在一些实施例中,所述判断单元还配置用于:将所述第二关键词的数量与所述第 一关键词的数量进行对比;若所述第二关键词的数量与所述第一关键词的数量相同,则判 断为所述第二关键词收敛;若所述第二关键词的数量大于所述第一关键词的数量,则判断 为所述第二关键词不收敛。 本申请提供的文档检索的方法和装置,根据第一关键词,检索出与第一关键词相 关的文档,再基于所述文档,获取与所述第一关键词相关的第二关键词,然后判断第二关键 词是否收敛,如果第二关键词收敛,将文档输出,如果第二关键词不收敛,可以将第二关键 词作为第一关键词重复上述检索过程,以继续获取更多的文档和第二关键词,直至第二关 键词收敛,则不能再根据关键词检索到新的文档。本申请提供的文档检索的方法和装置提 高了文档检索的全面性。【附图说明】 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显: 图1是根据本申请的文档检索的方法的一个实施例的流程图; 图2是根据本申请的文档检索的方法的另一个实施例的流程图; 图3是根据本申请的文档检索的方法应用于领域文档挖掘的一个流程图; 图4是根据本申请的文档检索的装置的一个实施例的结构示意图; 图5示出了适用于实现本申请实施例的电子设备或文档检索装置的计算机系统 的结构示意图。【具体实施方式】 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与有关专利技术相关的部分。 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本申请。 请参考图1,其示出了文档检索的方法的一个流程100。本实施例主要以该方法应 用于包含有处理器和/或存储器的电子设备中来举例说明,该电子设备可以包括但不限于 智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudio LayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroup AudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计 算机等等。本申请的文档检索的方法,包括以下步骤: 步骤101,获取第一关键词。 在本实施例中,电子设备可以从本地获取检索词作为第一关键词。该检索词可以 是用户通过电子设备输入的检索关键词,也可以是检索分类的类别名称,例如,计算机编程 语g等等。 在本实施例中,关键词可以是单个媒体在制作使用索引时,所用到的词汇,也可以 是用于表达文档主题内容的词汇,等等。可选地,该第一关键词可以是一个,也可以有多个。 步骤102,基于所述第一关键词,开始如下检索步骤:根据第一关键词,检索出与 第一关键词相关的文档;基于上述文档,获取与第一关键词相关的第二关键词;基于第二 关键词与第一关键词的比较判断第二关键词是否收敛;如果第二关键词收敛,则输出上述 文档。 在本实施例中,步骤102可以包括子步骤1021、1022、1023、1024。其中: 步骤1021,根据第一关键词,检索出与第一关键词相关的文档。 在本实施例中,电子设备可以首先根据第一关键词从本地或远程地检索出与第一 关键词相关的文档。其中,与该第一关键词相关的文档可以是包含该第一关键本文档来自技高网...

【技术保护点】
一种文档检索的方法,其特征在于,所述方法包括:获取第一关键词;基于所述第一关键词,执行如下检索步骤:根据所述第一关键词,检索出与所述第一关键词相关的文档;基于所述文档,获取与所述第一关键词相关的第二关键词;基于所述第二关键词与所述第一关键词的比较判断所述第二关键词是否收敛;如果所述第二关键词收敛,则输出所述文档;如果所述第二关键词不收敛,则将所述第二关键词作为第一关键词继续执行所述检索步骤。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘水
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1