基于文字异形体信息的搜索引擎方法技术

技术编号:3810366 阅读:231 留言:0更新日期:2012-04-11 18:40
一种基于文字异形体信息的搜索引擎方法,包括通讯连接的客户端和服务器端,其中:所述服务器端包括:文本信息获取步骤,文本分词步骤,转换步骤,索引步骤,用于对所述转换步骤的输出进行倒排序索引;索引文件库建立步骤,用于根据所述索引步骤的输出生成索引文件;所述客户端包括:用户输入步骤,文本分词步骤,转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;查询步骤,用于将所述转换步骤输出的词条与用户输入的查询条件进行组合,查询所述服务器端的索引文件库,并输出查询结果;结果返回步骤。本发明专利技术可广泛应用于含有异形体的文字信息检索,并且可以通过文字的其它形体进行搜索,并返回对应该文字信息的搜索结果。

【技术实现步骤摘要】

本专利技术涉及的是一种文本信息搜索引擎系统,具体是一种基于文字异形体信息的 搜索引擎方法。
技术介绍
随着互联网的发展,搜索引擎成为人们检索信息必不可少的工具之一。在互联网 中,信息主要是以文字的形式呈现,而由于文字形体的多样性,使得相同意义的文字信息, 有不同的表现形式,这主要是由于人们对信息的描述习惯、输入工具、地域等不同而形成的 文字信息的不同形体,简称异形体。文字异形体主要有字符编码不同、语言不同、格式不同。 搜索引擎在对文本信息处理时,通常对原始的信息进行分词(Word Segmentation)处理,处 理后的信息直接生成倒排序索引文件(Reverse Order Index File),其原理在于,通过分 词产生的词条(Term)对应信息所在的文本路径或者URL(Uniform Resource Location)之 间建立一个映射关系,在用户进行信息检索时,通过输入的短语中包含的词条,找到对应的 资源并返回。如果用户输入的信息中含有该词条的异形体的词条就不会被检索出来。目前,搜索引擎在处理异形体词条是将该词条的异形体作为独立的词条,或者将 该词条的异形体作为额外的词条进行重复搜索。在日常生活中,文字信息的异形体的形式 很多,这些主要是由于地域或者用户的使用习惯以及输入工具有关。在基于文字异形体信 息的搜索引擎方法中所涉及到的异形体有汉字的简体和繁体、字符的全角和半角、中文数 字和阿拉伯数字、日期的格式。汉字的简、繁体信息的差异主要体现在地域的差异上。另外还有些输入工具具备 这种简繁体的输入,也有用户的个人兴趣使用混合的形体。在互联网中,中文汉字信息以简 繁体两种形体存在,那么就会存在这样一个问题,在输入简体和繁体结合中文进行检索时, 可能得不到我们想要的结果(例如搜索“农業”)。全角字符和半角字符,在计算机字符编码集合中是属于不同的字符编码集(例如 “a”和“a”的字符编码是不同的)。在互联网中,这种编码混合使用的现象也是普遍存在的, 主要体现使用者的一种个性。由于字符集合的不同,在索引时会对全角和半角的字符当作 不同的字符进行索引,而检索时,搜索引擎只会检索对应的词条,因而具有同种意义字符不 会检索到。中文数字和阿拉伯数字在信息中虽然有各自的用途,但是在一些基数和序数的信 息描述以及年月日等的描述上,意义是相同的(例如“一九九七年七月一日”和“1997年7 月1日”)。人们在使用这些数字进行信息描述时,按照不同的场合,数字的异形体使用都存 在(例如“九百九十九朵玫瑰”和“999朵玫瑰”)。而我们在检索信息是,为了减少输入量, 会直接输入阿拉伯数字,这样以中文描述的信息不会被检索到(例如输入“999”进行搜索, 则“九百九十九”不会被检索到)。日期格式也有很多不同的形式,除了上面所描述的中文日期外,还有一些使用习 惯上的格式(例如“2007-07-01”和“20070701”),这些日期格式只是在形式上有不同,但是从人们的认识角度来看表示的一种意思。人们在发布文字信息时习惯用标准的日期格式, 而在搜索时使用数字串日期格式来检索,这样也会存在同上面描述的问题,不能相互检索。为了解决这个问题,在对信息进行分词处理时,对原始信息进行了调整,将所有的 这些异形体形式转换成指定的某一形体(例如将所有的繁体字在分词时以简体字生成倒 排序文件),同样,在进行检索时,将检索的信息以转化成索引中存在的形体形式进行检索, 最后将该词条对应的倒排文件系列返回,通过搜索引擎系统告诉用户信息的所在位置。
技术实现思路
本专利技术的目的在于针对现有文本搜索引擎的不足,提出一种可忽略信息表现的不 同形体进行文本内容搜索的搜索引擎系统。在对该信息进行分词的过程中,针对不同的文 字异形体信息,设计各自的处理器,将这些处理逻辑嵌入到分词过程中,使得对于不同的异 形体在分词后可以获得统一的词条(例如“农業”和“農業”都会以“农业”来进行索引)。 处理完后的词条会由搜索引擎系统进行索引处理,索引处理完成后,搜索引擎可以对用户 输入的查询关键字进行分词,同样通过不同的处理器分成不同的词条,然后搜索引擎系统 可以针对词条来检索出结果,并将结果返回给用户。本专利技术具体采用如下技术方案一种,包括运行于客户端的步骤和运行于服 务器端的步骤,其中所述运行于服务器端的步骤依次包括文本信息获取步骤,用于获取文本信息,该文本信息可以是用户输入的,也可以是 在互联网中提取的;文本分词步骤,用于将所述文本信息获取步骤获取的文本信息进行分词处理;转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;索引步骤,用于对所述转换步骤的输出进行倒排序索引,并计算权重;索引文件库建立步骤,用于根据所述索引步骤的输出生成索引文件;所述运行于客户端的步骤依次包括用户输入步骤,用于接受用户输入的查询关键词和查询条件;文本分词步骤,用于将所述用户输入步骤获取的查询关键词进行分词处理;转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;查询步骤,用于将所述转换步骤输出的词条与用户输入的查询条件进行组合,查 询所述服务器端建立的索引文件库,并输出查询结果;结果返回步骤,用于返回所述查询步骤的查询结果。其中,所述服务器端与客户端的转换步骤中均对应包括以下转换器中的多个或全 部中文简繁体转换步骤,用于中文简体和繁体的转换;字符全半角转换步骤,用于全角字符和半角字符的转换;中文数字转换步骤,用于将中文表示的数字格式转换阿拉伯表示的数字;日期格式转换步骤,用于判别日期格式,并将日期格式转换成定义的统一格式。进一步地,所述中文简繁体转换步骤中包括一简繁体映射表,其内存储有简体字库、繁体字库及简繁映射关系,该步骤具体包括11)简繁体编码判断步骤,用于判断分词后的文本信息中是否需要是行简繁体转换,如果是则输出步骤12),如果否,则直接输出;12)简繁体转换步骤,用于进行简繁体转换并输出。进一步地,所述字符全半角转换步骤依次包括21)字符全角半角判断步骤,用于判断分词后的文本信息是否需要进行字符全角、 半角转换,如果是,则输出至步骤22),如果否,则直接输出;22)字符全角半角转换步骤,用于转换字符中的全角和半角并输出。进一步地,所述中文数字转换步骤中包括一数字映射表,其内存储有中文数字字 库、阿拉伯数字及中文数字与阿拉伯数字的映射关系,具体包括31)中文数字转换判断步骤,用于判断分词后的文本信息是否需要进行字符中文 数字转换,如果是,则输出至步骤32),如果否,则直接输出;32)中文数字转换步骤,用于进行中文数字和阿拉伯数字的转换并输出。进一步地,所述日期格式转换步骤依次包括41)日期格式定义步骤,用于定义日期格式;42)日期格式转换判断步骤,用于判断分词后的文本信息是否需要进行字符日期 格式转换,如果是,则输出至步骤43),如果否,则直接输出;43)日期格式转换步骤,用于将输入的日期格式转换为定义的日期格式并输出。本专利技术可广泛应用于含有异形体的文字信息检索,并且可以通过文字的其它形体 进行搜索,并返回对应该文字信息的搜索结果。如在对文字信息进行索引和用户输入查 询条件时,简繁体转换器对汉字进行简体和繁体转换;查询结果与信息中和用户输入的文 字简、繁形体无关。本文档来自技高网
...

【技术保护点】
一种基于文字异形体信息的搜索引擎方法,包括运行于客户端的步骤和运行于服务器端的步骤,其特征在于:所述运行于服务器端的步骤依次包括:文本信息获取步骤,用于获取文本信息,该文本信息可以是用户输入的,也可以是在互联网中提取的;文本分词步骤,用于将所述文本信息获取步骤获取的文本信息进行分词处理;转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;索引步骤,用于对所述转换步骤的输出进行倒排序索引,并计算权重;索引文件库建立步骤,用于根据所述索引步骤的输出生成索引文件;所述运行于客户端的步骤依次包括:用户输入步骤,用于接受用户输入的查询关键词和查询条件;文本分词步骤,用于将所述用户输入步骤获取的查询关键词进行分词处理;转换步骤,用于将所述文本分词步骤进行分词处理的文本信息进行转换;查询步骤,用于将所述转换步骤输出的词条与用户输入的查询条件进行组合,查询所述服务器端建立的索引文件库,并输出查询结果;结果返回步骤,用于返回所述查询步骤的查询结果。其中,所述服务器端与客户端的转换步骤中均对应包括以下转换器中的多个或全部:中文简繁体转换步骤,用于中文简体和繁体的转换;字符全半角转换步骤,用于全角字符和半角字符的转换;中文数字转换步骤,用于将中文表示的数字格式转换阿拉伯表示的数字;日期格式转换步骤,用于判别日期格式,并将日期格式转换成定义的统一格式。...

【技术特征摘要】

【专利技术属性】
技术研发人员:邓晓涛谢兵杨杰程健章
申请(专利权)人:未序网络科技上海有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1