文本检索方法和装置制造方法及图纸

技术编号:8704030 阅读:216 留言:0更新日期:2013-05-16 17:44
本发明专利技术提供了文本检索方法和装置。该方法包括:A,从文本中抽取关键词库包含的关键词;B,利用抽取的关键词确定所述文本所属的标签类别;D,根据确定的标签类别为所述文本建立标签体系;E,在所述标签体系中利用标签检索所述文本。

【技术实现步骤摘要】

本专利技术涉及数据业务领域,特别涉及文本检索方法和装置
技术介绍
目如,互联网上文本/[目息越来越多,但是,如何在众多文本/[目息中精确、快速检索出需求的文本信息,目前尚没有一种方法能够实现。因此,提供一种能够在海量文本信息中精确、快速检索出需求的文本信息是当前亟待解决的技术问题。
技术实现思路
本专利技术提供了文本检索方法和装置,以实现文本信息的精确、快速检索。本专利技术提供的技术方案包括:一种文本检索方法,包括:Α,从文本中抽取关键词库包含的关键词;B,利用抽取的关键词确定所述文本所属的标签类别;C,根据确定的标签类别为所述文本建立标签体系;D,在所述标签体系中利用标签检索所述文本。一种文本检索装置,该装置包括:抽取模块,用于从文本中抽取关键词库包含的关键词;确定模块,用于利用抽取的关键词确定所述文本所属的标签类别;建立模块,用于根据确定的标签类别为所述文本建立标签体系;检索模块,用于在所述标签体系中利用标签检索所述文本。由以上技术方案可以看出,本专利技术中,从文本中抽取关键词库包含的关键词,利用抽取的关键词确定所述文本所属的标签类别,根据确定的标签类别为所述文本建立标签体系,在所述标签体系中利用标签检索所述文本,而非直接利用文本进行检索,这样能够实现文本信息的精确、快速检索。附图说明图1为本专利技术实施例提供的基本流程图;图2为本专利技术实施例提供的步骤101实现流程图;图3为本专利技术实施例提供的关键词属性示意图;图4为本专利技术实施例提供的词条列表结构示意图;图5为本专利技术实施例提供的对公共词进行消词的流程图;图6为本专利技术实施例提供的步骤103实现流程图;图7a为本专利技术实施例提供的步骤105实现流程图;图7b为标签树结构示意图8为本专利技术实施例提供的单类型标签实例示意图;图9为本专利技术实施例提供的多类型标签实例I示意图;图10为本专利技术实施例提供的多类型标签实例2示意图;图11为本专利技术实施例提供的标签体系示意图;图12为本专利技术提供的装置结构图。具体实施例方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。本专利技术提供的流程如图1所示:参见图1,图1为本专利技术实施例提供的流程图。如图1所示,该流程可包括以下步骤:步骤101,从文本中抽取关键词库包含的关键词。关键词库是预先针对应用领域创建的,不同的应用领域比如音乐领域和生活领域创建不同的关键词库。本步骤101中的关键词库是依据文本中的内容所属的应用领域确定的。步骤102,利用抽取的关键词确定所述文本所属的标签类别。步骤103,根据确定的标签类别为所述文本建立标签体系。步骤104,在所述标签体系中利用标签检索所述文本。至此,完成图1所示的流程。需要说明的是,在关键词抽取过程中,通常会出现抽取的关键词可分为多个词的情况,比如,假设抽取的关键词W可分为其他词,比如Wl、W2...WN,之后在利用该抽取的关键词W进行标签类别确定时,Wl、W2...WN会影响该确定结果,即对确定结果造成一定的干扰,为了避免这种干扰,需要对抽取的关键词去噪,即在步骤101和步骤102之间,包括:对步骤101抽取的关键词去噪,基于此,上述的步骤102可包括:利用去噪后的关键词确定所述文本所属的标签类别。在图1所示的流程中,步骤101具体实现时可包括图2所示的流程:参见图2,图2为本专利技术实施例提供的步骤101实现流程图。如图2所示,该流程可包括以下步骤:步骤201,确定关键词库中关键词的最大长度和最小长度。在具体应用中,关键词库中关键词的最大长度通常为5,而最小长度通常为2。步骤202,将最大长度、最小长度、以及最大长度与最小长度之间的设定数量Xl个数值分别作为拆分单位对所述文本进行拆分,得到多个词条。以关键词库中关键词的最大长度为5,最小长度为2、最大长度与最小长度之间的Xl个数值为3、4为例,则本步骤202依据最大长度5、最小长度2、以及2至5之间的正整数值3、4分别作为拆分单位对所述文本进行拆分,得到多个词条。至于如何对文本拆分,以最大长度为5为例,其他情况原理类似,其通过以下步骤实现:将文本的第一个字作为当前字,从当前字开始起以最大长度5拆分文本,在拆分完之后,再将文本的第二个字作为当前字,从该当前字开始起以最大长度5拆分文本,依次类推,直至文本中倒数第5个字作为当前字完成文本拆分为止。步骤203,针对每一词条,计算该词条在得到的所有词条中的词频。本步骤203可与步骤202无固定时间先后顺序,两者可同时进行。本步骤203中,词条的词频为该词条在所有词条中出现的最多次数。步骤204,针对每一词条,在所述关键词库中查找该词条,如果查找到,确定该词条为所述关键词库包含的关键词,将该词条、以及该词条被计算的词频记录至词条列表中。通过步骤204能够实现拆分出的词条与关键词库中的关键词精确匹配。需要说明的是,在图2所示的流程中,还可进一步包括以下步骤205和步骤206。步骤205,针对词条列表中的每一词条,从所述关键词库中获取该词条作为关键词对应的关键词属性,将获取的关键词属性记录至所述词条列表。本专利技术中,关键词属性可如图3所示。其中,图3中的tokendataspliter为分隔符,关键词类型为关键词所属的类型,其与标签类别对应。关键词被设定的词频为预先被设定的,其不同于上述词条被计算的词频。通过步骤201至步骤205,能够实现关键词及关键词属性的抽取。为便于实现关键词去噪,图2所示的流程还进一步包括:步骤206,针对词条列表中的每一词条,判断所述词条列表中是否存在该词条的子词条,如果存在,则将该存在的子词条作为该词条的公共词。执行完步骤205和步骤206,词条列表可包括图4所示的结构。基于图4所示的词条列表结构,上述的对抽取的关键词去噪具体实现时可为:确定是采用单类型减频消词法还是采用多类型分类减频消词法对所述词条列表中的词条去噪,如果是前者,则针对所述词条列表中每一词条,采用公共词减频消词法对该词条的公共词进行消词,如果是后者,则依据所述词条列表中词条的公共词所属的类型对词条列表中的词条去噪。其中,依据词条列表中词条的公共词所属的类型对词条列表中的词条去噪包括:针对所述词条列表中每一词条,如果该词条的公共词所属的类型均相同,则采用公共词减频消词法对该词条的公共词进行消词,否则,采用公共词减频消词法对该词条的、且所属类型相同的公共词进行消词。具体地,所述采用公共词减频消词法对词条的公共词进行消词具体可包括图5所示的流程:参见图5,图5为本专利技术实施例提供的对公共词进行消词的流程图。如图5所示,该流程可包括以下步骤:步骤501,针对一词条,在所述词条列表中遍历该词条的公共词,将遍历到的公共词作为当前公共词。步骤502,查找该词条是否包含当前公共词,如果是,则将所述当前公共词被计算的词频减去设定值,将得到的差值替换为当前公共词被计算的词频即用该差值作为当前公共词被计算的词频。步骤502中的查找具体为:判断该词条是否可以拆分为当前公共词。其中,步骤502的设定值可为I。步骤503,判断当前公共词被计算的词频是否小于等于预设值,如果是,则将所述当前公共词从所述关键词列表中删除。本步骤503中,预设值可为O。步骤504,判断该词条的公共词是否被遍历完,如果是,则结束当前流程,本文档来自技高网...

【技术保护点】
一种文本检索方法,其特征在于,该方法包括:A,从文本中抽取关键词库包含的关键词;B,利用抽取的关键词确定所述文本所属的标签类别;C,根据确定的标签类别为所述文本建立标签体系;D,在所述标签体系中利用标签检索所述文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:简勤郭正平王全礼曾东廖勤耘
申请(专利权)人:中国移动通信集团四川有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1