一种文本检索方法和装置制造方法及图纸

技术编号:10147710 阅读:135 留言:0更新日期:2014-06-30 16:52
本发明专利技术实施例提供一种文本检索方法和装置,其中一种文本检索方法,包括:获取用户输入的原始文本;从原始文本中获取检索词;依据用户的检索需求,对检索词进行过滤,得到关键词;对关键词进行组合,并依据组合后的关键词对文本数据库中的文本进行检索,得到至少一个检索文本;对检索文本以相关性倒序显示,并在检索文本中突显关键词,相关性用于原始文本和检索文本具有关联关系的程度。由于关键词是依据用户的检索需求对检索词进行过滤,所以关键词为无效词的几率降低,并且相比于直接从原始文本得到的检索词更符合检索需求,进而应用组合后的关键词检索得到的检索文本也比较符合检索需求,提高检索的准确度。

【技术实现步骤摘要】
一种文本检索方法和装置
本专利技术涉及文本挖掘
,特别涉及一种文本检索方法和装置。
技术介绍
文本检索顾名思义就是从文本抽取出有价值的信息,将有价值的信息在电子设备的显示屏上显示给用户。目前文本检索原理是对文本分词后直接进行匹配搜索,通用的两种文本检索方式是:为用户提供分类浏览的查询方式或基于关键词的全文检索方式。上述两种检索方式都是通过对用户输入的文本分词后得到关键词匹配,但是这种单纯的文本分词方式得到的关键词包括无效词,其中所述无效词为在多数文本中出现且会导致检索结果增大的词语。例如用户输入的文本为:一种基于图像识别方法的图像匹配装置,在经过分词后得到的关键词包括:一种、基于、图像识别、方法、图像匹配和装置,而一种、基于、方法和装置在很多文本中都会出现,这样在采用or组合关键词进行检索时,会使得检索结果增多,并且有部分检索结果与用户想要的结果不同。从上述技术方案可以看出,现有文本分词不能充分理解用户的检索需求,因此在对文本分词时提取出的关键词可能是无效词,且不是无效词的关键词也可能不符合用户的检索需求,进而在基于这些关键词的全文模糊检索时会使得检索结果中存在不符合检索需求的文本,且检索准确度降低。
技术实现思路
本专利技术所要解决的技术问题是提供一种文本检索方法和装置,用以依据用户的检索需求得到关键词,从而使得检索结果比较符合检索需求。技术方案如下:本专利技术实施例提供了一种文本检索方法,包括:获取用户输入的原始文本;从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;依据用户的检索需求,对所述检索词进行过滤,得到关键词;对所述关键词进行组合,并依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。优选地,从所述原始文本中获取检索词,包括:使用中文分词方法对所述原始文本进行分词,得到一级检索词;依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。优选地,从所述原始文本中获取检索词之后,依据用户的检索需求,对所述检索词进行过滤,得到关键词之前,所述方法还包括:对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。优选地,依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。优选地,对所述关键词进行组合,包括:任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m;对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。本专利技术实施例还提供一种文本检索装置,包括:第一获取单元,用于获取用户输入的原始文本;第二获取单元,用于从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;过滤单元,用于依据用户的检索需求,对所述检索词进行过滤,得到关键词;组合单元,用于对所述关键词进行组合;检索单元,用于依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;显示单元,用于对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。优选地,所述第二获取单元包括:分词子单元,用于使用中文分词装置对所述原始文本进行分词,得到一级检索词;加权计算子单元,用于依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;提取子单元,用于提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。优选地,所述装置还包括:扩展单元,用于对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。优选地,所述过滤单元依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。优选地,所述组合单元对所述关键词进行组合,包括:任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m。对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。与现有技术相比,本专利技术包括以下优点:通过以上技术方案,在从用户输入的原始文本中获取检索词后,依据用户的检索需求对检索词进行过滤,得到关键词;然后对关键词进行组合,依据组合后的关键词对文本数据库中的文本进行检索。由于关键词是依据用户的检索需求对检索词进行过滤,所以关键词为无效词的几率降低,并且相比于直接从原始文本得到的检索词更符合检索需求,进而应用组合后的关键词检索得到的检索文本也比较符合检索需求,提高检索的准确度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的文本检索方法的一种流程图;图2是本专利技术实施例提供的电子设备的一种示意图;图3是图1中获取检索词的流程图;图4是本专利技术实施例提供的词语展示界面的示意图;图5是本专利技术实施例基于图1提供的文本检索方法的另一种流程图;图6是本专利技术实施例提供的文本检索装置的一种结构示意图;图7是本专利技术实施例基于图6提供的文本检索装置的另一种结构示意图。具体实施方式在现有基于关键词的文本检索时,直接采用对原始文本分词后得到的关键词进本文档来自技高网...
一种文本检索方法和装置

【技术保护点】
一种文本检索方法,其特征在于,包括:获取用户输入的原始文本;从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;依据用户的检索需求,对所述检索词进行过滤,得到关键词;对所述关键词进行组合,并依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。

【技术特征摘要】
1.一种文本检索方法,其特征在于,包括:获取用户输入的原始文本;从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;依据用户的检索需求,对所述检索词进行过滤,得到关键词;对所述关键词进行组合,并依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度;其中,从所述原始文本中获取检索词,包括:使用中文分词方法对所述原始文本进行分词,得到一级检索词;依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。2.根据权利要求1所述的方法,其特征在于,从所述原始文本中获取检索词之后,依据用户的检索需求,对所述检索词进行过滤,得到关键词之前,所述方法还包括:对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。3.根据权利要求1所述的方法,其特征在于,依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。4.根据权利要求1所述的方法,其特征在于,对所述关键词进行组合,包括:任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m;对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。5.一种文本检索装置,其特征在于,包括...

【专利技术属性】
技术研发人员:杨芳盛兴李蔚君彭珍赵鹏贾辉辉
申请(专利权)人:国家电网公司国家电网公司信息通信分公司保定市大为计算机软件开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1