【技术实现步骤摘要】
一种基于综合知识的实体语义和词频的排序方法及装置
本专利技术属于实体搜索
,具体涉及一种基于综合知识的实体语义和词频的排序方法及装置。
技术介绍
当前搜索引擎所采用的主流搜索技术“关键词搜索”是一种“存在性搜索”技术,返回给用户包含关键字的网页列表,用户往往需要进一步浏览这些网页并且过滤掉大量无用信息才能找到真正想要的结果,这个过程信息消费代价高,显著降低了用户体验,用户更希望能够“直接得到答案”。比如查询“贝拉克·奥巴马的妻子是谁”,用户希望的搜索结果是简洁的信息条目“米歇尔·奥巴马”,而不是大量的网页,这种搜索就是实体搜索(EntitySearch)。实体搜索的显著特点是“直接给出答案”,它关注的是“对象”,对象可以是各种不同的类别,比如:人、电影、公司、小说等等。例如,查询“汤姆·汉克斯主演的电影”,希望得到的是一个类别为“电影”的实体列表。传统的实体搜索分为三类:基于网页的问答方式、基于网页的信息提取方式和基于类型标定的搜索方式。基于网页的问答方式通过挖掘网页的多样性来发现特定问题的答案。它需要搜索某些关键字附近的特定类型的信息并且验证更多的证据以确 ...
【技术保护点】
一种基于综合知识的实体语义和词频的排序方法,其特征在于,包括如下步骤:1)收集外部资源的关于实体的描述信息,扩展实体;2)根据查询描述和实体描述,提取数据流;3)将数据流做分词处理,得到单词流;4)提取单词流的词频特征和语义特征,并将提取的特征一并作为排序学习方法的输入,得到按照查询与实体之间相似度排列的实体排序序列。
【技术特征摘要】
1.一种基于综合知识的实体语义和词频的排序方法,其特征在于,包括如下步骤:1)收集外部资源的关于实体的描述信息,扩展实体;2)根据查询描述和实体描述,提取数据流;3)将数据流做分词处理,得到单词流;4)提取单词流的词频特征和语义特征,并将提取的特征一并作为排序学习方法的输入,得到按照查询与实体之间相似度排列的实体排序序列。2.根据权利要求1所述的基于综合知识的实体语义和词频的排序方法,其特征在于,采用多线程技术、爬虫代理池、多个搜索引擎的相互参照和垂直网站爬取技术来收集外部资源关于实体的描述信息。3.根据权利要求1所述的基于综合知识的实体语义和词频的排序方法,其特征在于,所述数据流为查询和实体的标题、正文、或者标题和正文的融合。4.根据权利要求1所述的基于综合知识的实体语义和词频的排序方法,其特征在于,所述分词处理包括中文分词处理和2-gram分词处理。5.根据权利要求1所述的基于综合知识的实体语义和词频的排序方法,其特征在于,所述词频特征包括TF-IDF特征、BM25特征和LMIR特征。6.根据权利要求1所述的基于综合知识的实体语义和词频的排序...
【专利技术属性】
技术研发人员:靳小波,王胜,曹鹤玲,肖乐,费选,
申请(专利权)人:河南工业大学,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。