【技术实现步骤摘要】
本专利技术涉及的是一种文本信息搜索引擎系统,具体是一种基于文字异形体信息的 搜索引擎方法。
技术介绍
随着互联网的发展,搜索引擎成为人们检索信息必不可少的工具之一。在互联网 中,信息主要是以文字的形式呈现,而由于文字形体的多样性,使得相同意义的文字信息, 有不同的表现形式,这主要是由于人们对信息的描述习惯、输入工具、地域等不同而形成的 文字信息的不同形体,简称异形体。文字异形体主要有字符编码不同、语言不同、格式不同。 搜索引擎在对文本信息处理时,通常对原始的信息进行分词(Word Segmentation)处理,处 理后的信息直接生成倒排序索引文件(Reverse Order Index File),其原理在于,通过分 词产生的词条(Term)对应信息所在的文本路径或者URL(Uniform Resource Location)之 间建立一个映射关系,在用户进行信息检索时,通过输入的短语中包含的词条,找到对应的 资源并返回。如果用户输入的信息中含有该词条的异形体的词条就不会被检索出来。目前,搜索引擎在处理异形体词条是将该词条的异形体作为独立的词条,或者将 该词条 ...
【技术保护点】
一种基于文字异形体信息的搜索引擎方法,包括运行于客户端的步骤和运行于服务器端的步骤,其特征在于:所述运行于服务器端的步骤依次包括:文本信息获取步骤,用于获取文本信息,该文本信息可以是用户输入的,也可以是在互联网中提取的;文本分词步骤,用于将所述文本信息获取步骤获取的文本信息进行分词处理;转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;索引步骤,用于对所述转换步骤的输出进行倒排序索引,并计算权重;索引文件库建立步骤,用于根据所述索引步骤的输出生成索引文件;所述运行于客户端的步骤依次包括:用户输入步骤,用于接受用户输入的查询关键词和查询条件;文本分词步骤,用于将 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:邓晓涛,谢兵,杨杰,程健章,
申请(专利权)人:未序网络科技上海有限公司,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。