目标信息搜索方法和装置制造方法及图纸

技术编号:8241541 阅读:206 留言:0更新日期:2013-01-24 22:27
本发明专利技术公开了一种目标信息搜索方法和装置。其中,该方法包括如下步骤:接收用户选择的分词器和用户输入的字符串,其中,该分词器为与该用户输入的字符串匹配的分词器;使用该分词器对上述字符串进行分词,得到搜索词语;将得到的搜索词语输入搜索引擎进行搜索,得到目标信息。通过本发明专利技术,解决了现有搜索引擎存在搜索结果不准确的问题,方便了用户使用,提高了检索的质量。

【技术实现步骤摘要】
目标信息搜索方法和装置
本专利技术涉及信息搜索领域,具体而言,涉及一种目标信息搜索方法和装置。
技术介绍
搜索引擎技术正在被越来越多地应用到各种IT系统中,搜索引擎索引库中的数据因而呈指数级增长,随着汉字文档在索引库中的不断增加,越来越多的汉字词汇进入到索引库中,各类新词和专用词汇(如人名或特定领域的术语)在进入分词库后对分词器的分词准确率产生了极大的负面影响,使得很多汉语句子无法按照语义被正确分解,例如汉语句子:“离子云集中分布”,如果不对专业术语“离子云”做额外处理,那么该汉语句子将被分词器分解为“离子云集中分布”,这样的分词结果会导致搜索引擎无法搜索到用户期望的资料。可见,目前的搜索方式还无法根据用户的搜索目标进行分词,导致分词结果与用户的检索目的不符;另外,上述分词结果不够全面,使得无法将某些关键检索条件从用户输入的字符串中提取出来。针对相关技术中搜索引擎存在搜索结果不准确的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种目标信息搜索方法和装置,以至少解决上述搜索引擎存在搜索结果不准确的问题。根据本专利技术的一个方面,提供了一种目标信息搜索方法,本文档来自技高网...
目标信息搜索方法和装置

【技术保护点】
一种目标信息搜索方法,其特征在于包括如下步骤:接收用户选择的分词器和所述用户输入的字符串,其中,所述分词器为与所述用户输入的字符串匹配的分词器;使用所述分词器对所述字符串进行分词,得到搜索词语;将得到的所述搜索词语输入搜索引擎进行搜索,得到目标信息。

【技术特征摘要】
1.一种目标信息搜索方法,其特征在于包括如下步骤:接收用户选择的分词器和所述用户输入的字符串,其中,所述分词器为与所述用户输入的字符串匹配的分词器;使用所述分词器对所述字符串进行分词,得到搜索词语;将得到的所述搜索词语输入搜索引擎进行搜索,得到目标信息;其中,接收所述用户选择的分词器和所述用户输入的字符串之前,所述方法还包括:使用与技术领域对应的分类文档建立所述技术领域对应的分词器,包括:对技术领域进行分类,确定当前分类对应的分类文档;根据所述分类文档中每个字符出现的频率,计算所述每个字符在所述当前分类中的权值;确定所述当前分类中指定字符串中的字符在所述当前分类中的权值;根据所述指定字符串中每个字符的权值计算所述指定字符串在所述当前分类中的权值;将所述指定字符串和所述指定字符串在所述当前分类中的权值绑定,得到所述当前分类的分词器。2.根据权利要求1所述的方法,其特征在于,所述根据所述分类文档中每个字符出现的频率,计算所述每个字符在所述当前分类中的权值包括:删除所述分类文档中的停止词;统计删除所述停止词后的所述分类文档中每个字符出现的频率;统计所述分类文档中包含所述字符的文档频率;根据所述字符的频率、所述字符的文档频率和所述分类文档的总数计算所述每个字符在所述当前分类中的权值。3.根据权利要求1所述的方法,其特征在于,所述确定所述当前分类中指定字符串中的字符在所述当前分类中的权值包括:当所述当前分类中指定字符串中有未包含在所述分类文档中的字符时,设置所述未包含在所述分类文档中的字符的权值为默认权值。4.根据权利要求1-3任一项所述的方法,其...

【专利技术属性】
技术研发人员:王琦左杨眉
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1