基于文字异形体信息的搜索引擎方法技术

技术编号:3810366 阅读:247 留言:0更新日期:2012-04-11 18:40
一种基于文字异形体信息的搜索引擎方法,包括通讯连接的客户端和服务器端,其中:所述服务器端包括:文本信息获取步骤,文本分词步骤,转换步骤,索引步骤,用于对所述转换步骤的输出进行倒排序索引;索引文件库建立步骤,用于根据所述索引步骤的输出生成索引文件;所述客户端包括:用户输入步骤,文本分词步骤,转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;查询步骤,用于将所述转换步骤输出的词条与用户输入的查询条件进行组合,查询所述服务器端的索引文件库,并输出查询结果;结果返回步骤。本发明专利技术可广泛应用于含有异形体的文字信息检索,并且可以通过文字的其它形体进行搜索,并返回对应该文字信息的搜索结果。

【技术实现步骤摘要】

本专利技术涉及的是一种文本信息搜索引擎系统,具体是一种基于文字异形体信息的 搜索引擎方法。
技术介绍
随着互联网的发展,搜索引擎成为人们检索信息必不可少的工具之一。在互联网 中,信息主要是以文字的形式呈现,而由于文字形体的多样性,使得相同意义的文字信息, 有不同的表现形式,这主要是由于人们对信息的描述习惯、输入工具、地域等不同而形成的 文字信息的不同形体,简称异形体。文字异形体主要有字符编码不同、语言不同、格式不同。 搜索引擎在对文本信息处理时,通常对原始的信息进行分词(Word Segmentation)处理,处 理后的信息直接生成倒排序索引文件(Reverse Order Index File),其原理在于,通过分 词产生的词条(Term)对应信息所在的文本路径或者URL(Uniform Resource Location)之 间建立一个映射关系,在用户进行信息检索时,通过输入的短语中包含的词条,找到对应的 资源并返回。如果用户输入的信息中含有该词条的异形体的词条就不会被检索出来。目前,搜索引擎在处理异形体词条是将该词条的异形体作为独立的词条,或者将 该词条的异形体作为额外的词本文档来自技高网...

【技术保护点】
一种基于文字异形体信息的搜索引擎方法,包括运行于客户端的步骤和运行于服务器端的步骤,其特征在于:所述运行于服务器端的步骤依次包括:文本信息获取步骤,用于获取文本信息,该文本信息可以是用户输入的,也可以是在互联网中提取的;文本分词步骤,用于将所述文本信息获取步骤获取的文本信息进行分词处理;转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;索引步骤,用于对所述转换步骤的输出进行倒排序索引,并计算权重;索引文件库建立步骤,用于根据所述索引步骤的输出生成索引文件;所述运行于客户端的步骤依次包括:用户输入步骤,用于接受用户输入的查询关键词和查询条件;文本分词步骤,用于将所述用户输入步骤获取...

【技术特征摘要】

【专利技术属性】
技术研发人员:邓晓涛谢兵杨杰程健章
申请(专利权)人:未序网络科技上海有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1