【技术实现步骤摘要】
本申请涉及通信领域中的全文数据检索技术,尤其涉及一种信息检索方法和信 息检索系统。
技术介绍
伴随着互联网搜索引擎技术的飞速普及以及互联网搜索企业的快速发展,信息 检索系统(也称搜索引擎)已经成为越来越多的人使用互联网时必不可少的工具。人们在使用搜索引擎的时候,通常的使用场景是通过输入查询词,然后从搜索 引擎后端获取需要的搜索结果。而组成搜索结果的三大要素为标题、摘要和网址链接 (业界俗称TAU,为Title、Abstract、Url三个英文单词的首字母缩写)。而摘要(Abstract) 在这三大要素中,就信息量而言,其所含信息量最大;从最终页面显示效果而言,其占 据最大篇幅;从最终用户感受而言,其能在很大程度上决定搜索结果的正确与否,使用 户能够根据摘要提供的信息判断搜索的结果是否为用户所需要。因此,一套高性能、可 伸缩、易定制并且人机界面优秀的摘要生成系统,是每一个搜索引擎(即信息检索系统) 不可或缺的重要组成部分。传统的摘要生成方法是根据用户所输入的查询词实时检索全文数据,并在全文 数据的检索结果的基础上,通过计算词频、词距以及其他参数,通过文本匹配和加 ...
【技术保护点】
一种信息检索方法,应用于每个文档对应有正排索引数据的信息检索系统,其中,每个文档的正排索引数据以该文档中的各单词为索引,记录各单词在该文档中的位置,其特征在于,该方法包括以下步骤:接收查询词,通过分词处理得到该查询词中所包含的关键词;通过所述信息检索系统的倒排索引数据查找与所述关键词匹配的文档,以及与所述文档对应的正排索引数据;根据所述文档对应的正排索引数据确定出所述文档的摘要,将所述文档的摘要以及文档的信息作为检索结果进行输出。
【技术特征摘要】
1.一种信息检索方法,应用于每个文档对应有正排索引数据的信息检索系统,其 中,每个文档的正排索引数据以该文档中的各单词为索引,记录各单词在该文档中的位 置,其特征在于,该方法包括以下步骤接收查询词,通过分词处理得到该查询词中所包含的关键词;通过所述信息检索系统的倒排索引数据查找与所述关键词匹配的文档,以及与所述 文档对应的正排索引数据;根据所述文档对应的正排索引数据确定出所述文档的摘要,将所述文档的摘要以及 文档的信息作为检索结果进行输出。2.如权利要求1所述的方法,其特征在于,根据正排索引数据确定出的摘要,具体为根据正排索引数据确定出的所有不超过规定长度的文本段中,所述关键词出现次数 最多的文本段。3.如权利要求2所述的方法,其特征在于,若不超过规定长度、所述关键词出现次数 最多的文本段为多个,则将其中所述关键词重复出现次数最多的文本段作为摘要。4.如权利要求2所述的方法,其特征在于,根据所述文档对应的正排索引数据确定出 所述文档的摘要的过程,具体为针对所述文档中的每个文档,执行以下步骤逐一遍历该文档的正排索引数据中的单词,在第一数据结构中以单词位置为索引记 录每个遍历到的单词,并当遍历到的单词与所述关键词匹配时,在第二数据结构中以单 词为索引记录该单词的位置;根据第二数据结构的记录,确定出摘要的起始位置;根据规定的摘要长度和第一数 据结构的记录,确定出摘要的截止位置;所述起始位置和截止位置之间的文本段的长度 不超过规定的摘要长度、所述关键词在该文本段中的出现次数最多;根据确定出的摘要的起止位置以及正排索引数据生成文档的摘要。5.如权利要求1-4任一项所述的方法,其特征在于,将所述文档的摘要以及所述文档 的信息作为检索结果进行输出,具体为按照所述文档与所述关键词匹配程度从高到低的顺序,将所述文档的摘要以及所述 文档的信息作为检索结果进行排序,并根据规定的数据格式对排序后的检索结果进行输 出ο6.一种信息检索系统,包括存储有该系统倒排索引数据和每个文档对应的正排索引 数据的存储模块,其中,每个文档的正排索引数据以该文档中的各单词为索引,记录各 单词在该文档...
【专利技术属性】
技术研发人员:罗翼,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:KY[开曼群岛]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。