基于语义归一化的检索系统、检索方法以及信息处理方法技术方案

技术编号:6842362 阅读:416 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于语义归一化的检索系统、检索方法,以及基于语义归一化的整合数据库/分拆数据库的信息处理方法。基于语义归一化的检索系统包括:归一化模块,用于对条目信息以及用户输入的检索式信息进行语义归一化变换,获取归一化表述;整合数据库,用于根据条目信息的归一化表述,生成整合信息文件;第一索引库,用于根据条目信息和整合信息文件,生成关联条目信息和整合信息文件的索引目录;搜索引擎,用于根据检索式信息的归一化表述在第一索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。本发明专利技术通过语义归一化转换,利用整合数据库和/或分拆数据库进行信息比对,从而提高检索的准确性和全面性。

【技术实现步骤摘要】

本专利技术涉及搜索引擎领域,尤其涉及一种基于语义归一化的检索系统、检索方法, 以及基于语义归一化的整合数据库/分拆数据库的信息处理方法。
技术介绍
用户使用搜索引擎时,通过query查询承载其需求以便寻找所需资源。但是,用户表达一种需求时可能存在很多种描述形式,例如“宫保鸡丁怎么烧”,“宫保鸡丁菜谱”;虽然二者在表述形式上存在差别,但是本领域技术人员知晓该用户搜索所希望获取的资源是一致的。如果只是对用户录入的关键词进行传统方式的搜索,如对“宫保鸡丁怎么烧”进行主题词检索,而仅仅向用户返回含有“宫保鸡丁怎么烧”和“宫保鸡丁菜谱”条目信息的网页, 则可能遗漏相似或相关条目对应的信息资源,如“宫保鸡丁做法”、“宫保鸡丁制作方法”和 “烹饪宫保鸡丁”等。因此,为了满足用户更全面、更便捷地获取相关检索信息,有必要将不同表述方式且代表同一种含义的条目信息一并搜索出来,从而向用户返回更全面的检索信肩、ο
技术实现思路
本专利技术要解决的一个技术问题是提供一种基于语义归一化的检索系统、检索方法,以及基于语义归一化的整合数据库/分拆数据库的信息处理方法,用以提高检索的准确性和全面性。本专利技术的一个方面提供了一种基于语义归一化的检索系统,该系统包括归一化模块,用于对网页中含有实体词的条目信息进行语义归一化变换,获取条目信息的归一化表述;以及对用户输入的含有实体词的检索式信息进行语义归一化变换,获取检索式信息的归一化表述;整合数据库,用于根据归一化模块获取的条目信息的归一化表述,生成并保存条目信息的整合信息文件;第一索引库,用于根据含有实体词的条目信息和整合信息文件,生成并保存用于关联条目信息和整合信息文件的索引目录;搜索引擎,用于根据归一化模块获取的检索式信息的归一化表述在第一索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。本专利技术提供的基于语义归一化的检索系统的一个实施例中,该系统还包括分拆数据库,用于根据归一化模板获取的条目信息的归一化表述,生成并保存条目信息的分拆信息文件;第二索引库,用于根据含有实体词的条目信息和分拆信息文件,生成并保存用于关联条目信息和分拆信息文件的索引目录;搜索引擎,还用于根据归一化模块获取的检索式信息的归一化表述在第一索引库和第二索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。本专利技术的另一个方面提供了一种基于语义归一化的检索方法,该方法包括归一化模块对网页中含有实体词的条目信息进行语义归一化变换,获取含有实体词的条目信息的归一化表述;整合数据库根据归一化模块获取的条目信息的归一化表述,生成并保存条目信息的整合信息文件;第一索引库根据含有实体词的条目信息和整合信息文件,生成并保存用于关联条目信息和整合信息文件的索引目录;归一化模块对用户输入的含有实体词的检索式信息进行语义归一化变换,获取检索式信息的归一化表述;搜索引擎根据归一化模块获取的检索式信息的归一化表述在第一索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。本专利技术提供的基于语义归一化的检索方法的一个实施例中,该方法还包括在第一索引库生成并保存用于关联条目信息和整合信息文件的索引目录之后,分拆数据库根据归一化模板获取的条目信息的归一化表述,生成并保存条目信息的分拆信息文件;第二索引库根据含有实体词的条目信息和分拆信息文件,生成并保存用于关联条目信息和分拆信息文件的索引目录;归一化模块对用户输入的含有实体词的检索式信息进行语义归一化变换,获取检索式信息的归一化表述;以及搜索引擎根据归一化模块获取的检索式信息的归一化表述在第一索引库和第二索引库中进行搜索,并根据索引目录指示的路径向用户返回相应的条目信息。本专利技术的又一个方面提供了一种基于语义归一化的整合数据库的信息处理方法, 该方法包括根据整合数据库中的模板文件和垃圾数据库中的模板文件生成模板文件库; 依据模板文件库对当前的查询日志文件进行查询过滤,去除查询日志文件中能够被模板文件库匹配的查询,形成待挖掘模板文件的查询日志簇;从待挖掘模板文件的查询日志簇中挖掘种子模板,统计种子模板的频次并进行排序,生成种子模板文件;从种子模板文件中选取预定数量的种子模板,生成同义模板候选文件;对同义模板候选文件进行筛选,并将筛选得到的同义模板候选文件添加到整合数据库的模板文件中。本专利技术提供的基于语义归一化的整合数据库的信息处理方法的一个实施例中,从待挖掘模板文件的查询日志簇中挖掘种子模板,统计种子模板的频次并进行排序,生成种子模板文件进一步包括从待挖掘模板文件的查询日志簇中提取实体词;根据实体词获取查询日志簇对应的种子模板;统计具有相同属性的种子模板的频次,根据统计的频次进行排序,并选取高于预定频次的种子模板族生成种子模板文件。本专利技术提供的基于语义归一化的整合数据库的信息处理方法的一个实施例中,该方法还包括读取整合数据库中的模板文件和当前的查询日志文件;从整合数据库中模板文件获取每个模板文件相应的实体词,生成实体词文件;依据实体词文件对当前的查询日志文件进行实体词增量挖掘,生成实体词增量文件;根据整合数据库中的模板文件和实体词增量文件生成整合数据库更新文件;根据整合数据库的整合信息文件和整合数据库更新文件,进行文件合并,并更新整合数据库的整合信息文件。本专利技术的又一个方面提供了一种基于语义归一化的分拆数据库的信息处理方法, 该方法包括从整合数据库中读取整合信息文件,并从整合信息文件中获取实体词和模板文件;其中,整合数据库是根据前述基于语义归一化的整合数据库的信息处理方法得到的整合数据库;对整合数据库中获取的实体词和实体词文件中的实体词进行上位概念的抽象化处理,生成实体词对应的实体词抽象类,并根据实体词和实体词抽象类生成实体词抽象信息文件;根据整合数据库中获取的模板文件和实体词抽象类生成抽象规则信息文件;统计抽象规则信息文件出现的频次,根据统计的频次进行排序,选取高于预定频次的抽象规则信息文件;并将所选取的抽象规则信息文件和对应的实体词抽象信息文件添加到分拆信息文件中;以及根据分拆信息文件生成分拆数据库。本专利技术提供的基于语义归一化的分拆数据库的信息处理方法的一个实施例中,预定频次的阈值选自统计的频次的最大值的三次开平方根和2中的较大的一个。本专利技术提供的基于语义归一化的分拆数据库的信息处理方法的一个实施例中,该方法还包括对于整合数据库中的模板文件,如果模板文件通过人工分析的方式就能够获知模板文件的应用领域,则进行实体词抽象类的人工添加,并生成抽象规则信息文件;以及将实体词抽象信息文件和抽象规则信息文件直接存入分拆信息文件中。本专利技术提供一种基于语义归一化的检索系统、检索方法,以及基于语义归一化的整合数据库/分拆数据库的信息处理方法,通过对网页信息条目和用户检索式信息条目进行语义归一化转换,利用整合数据库和/或分拆数据库进行信息比对,从而提高检索的准确性和全面性,为用户提供更为全面准确的信息搜索服务。附图说明图1示出本专利技术实施例提供的一种基于语义归一化的检索系统的结构示意图;图2示出本专利技术提供的基于语义归一化的检索系统的另一个实施例的结构示意图;图3示出本专利技术实施例提供的一种基于语义归一化的检索方法的流程图;图4示出本专利技术提供的基于语义归一化的检索方法的另一个实本文档来自技高网...

【技术保护点】
1.一种基于语义归一化的检索系统,其特征在于,所述系统包括:归一化模块,用于对网页中含有实体词的条目信息进行语义归一化变换,获取所述条目信息的归一化表述;以及对用户输入的含有实体词的检索式信息进行语义归一化变换,获取所述检索式信息的归一化表述;整合数据库,用于根据所述归一化模块获取的所述条目信息的归一化表述,生成并保存所述条目信息的整合信息文件;第一索引库,用于根据所述含有实体词的条目信息和所述整合信息文件,生成并保存用于关联所述条目信息和所述整合信息文件的第一索引目录;搜索引擎,用于根据所述归一化模块获取的所述检索式信息的归一化表述在所述第一索引库中进行搜索,并根据所述第一索引目录指示的路径向所述用户返回相应的条目信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:呼大为吴雪军
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1