一种用于旅游垂直搜索引擎的前置解析方法技术

技术编号:15004989 阅读:58 留言:0更新日期:2017-04-04 12:53
本发明专利技术公开了一种用于旅游垂直搜索引擎的前置解析方法,能够分析用户的搜索词,并做语义分析,在匹配多种规则引擎后进一步合并规则,最终将搜索词转换成符合用户需求的查询条件。本发明专利技术负责基于搜索词文本的语义解析,能够理解用户搜索词的意图,将原始请求映射成更符合用户需求的查询条件,令查询结果更为精确。灵活的多规则引擎应用方式,方便开发者自定义更多的规则引擎,优化搜索结果。此外修改规则数据库后,前置解析通过时间戳自动识别修改内容,动态更新前置解析服务,通过新开辟内存空间更新规则引擎,从而不会间断前置解析的服务,方便运营人员基于关键字快速调整搜索结果,而无需做任何开发和代码发布,大大提高了运营的效率。

【技术实现步骤摘要】

本专利技术属于搜索引擎
,具体涉及一种用于旅游垂直搜索引擎的前置解析方法
技术介绍
随着互联网旅游平台的发展,在线可售卖的旅游产品得到极大丰富,如何让用户快速找到想要的产品成为各大旅游网站重点要解决的问题。旅游垂直搜索引擎可以方便用户快速查找产品,是必不可少的快速查找工具。如何返回用户想要的产品是垂直搜索引擎中的一个难题,一般的垂直搜索引擎通过搜索词文本匹配的方式返回产品,例如考虑搜索关键词在产品中出现的词频。但当词频无法表征匹配相关性时,就可能返回用户不想要的产品,例如用户搜索“马尔代夫”可能返回“小马尔代夫”的三亚旅游产品。同时,当出现某些搜索词的搜索结果不理想时,一般的垂直搜索引擎很难快速调整结果,这就导致现有垂直搜索引擎的检索结果常常与用户的需求产生较大的偏差。
技术实现思路
为解决上述问题,本专利技术公开了一种用于旅游垂直搜索引擎的前置解析方法,能够分析用户的搜索词,并做语义分析,在匹配多种规则引擎后进一步合并规则,最终将搜索词转换成符合用户需求的查询条件。为了达到上述目的,本专利技术提供如下技术方案:一种用于旅游垂直搜索引擎的前置解析方法,包括如下步骤:对搜索词进行预处理;对搜索关键词进行分词、实体识别和词性标注;采用若干规则引擎进行匹配,在每一类的规则引擎中,每一条规则都定义有合并操作规则、优先级和互斥规则;不同规则引擎间定义有合并策略和优先级;得到各规则引擎的匹配结果后,首先在同一类匹配规则中根据合并操作规则、优先级和互斥规则进行合并得到初步合并结果后,在不同类匹配规则中根据合并策略和优先级针对初步合并结果进行合并得到最终合并结果;将最终合并结果解析成搜索条件。进一步的,所属若干规则引擎包括精确匹配引擎、语法匹配引擎和词项匹配引擎,匹配的过程包括:步骤B,进入精确匹配引擎进行关键词匹配,若匹配则获取精确匹配结果,匹配结束后直接退出或继续进行其他引擎匹配;步骤C,对搜索关键词进行分词、实体识别和词性标注;步骤D,进入语法匹配引擎进行语法匹配,若步骤C标注后得到的词性组合结果匹配或部分匹配语法匹配规则,则获取语法匹配结果,语法匹配引擎完成后退出或者继续匹配其它引擎;步骤E,进入词项匹配引擎进行词项匹配,将步骤C分词后的词进行匹配,返回所有匹配规则。进一步的,所述合并规则包括“AND”、“OR”。进一步的,所述规则存储在规则数据库中,当规则数据库更新时,前置解析模块通过时间戳自动识别修改内容,动态更新前置解析服务,通过新开辟内存空间更新规则引擎。进一步的,所述规则数据库更新过程如下:1.新增关键词,对关键词进行预处理;2.判断该关键词的规则是否存在,如存在,则跳至步骤3,不存在跳至4;3.该关键词的规则已存在,判断是否需要编辑,如不编辑,则退出,如编辑,跳至5;4.新增关键词,选取规则引擎类型;5.编辑规则具体内容,保存后跳至6;6.审核规则,如驳回,则退出;7.更新规则数据库,前置解析自动更新服务。与现有技术相比,本专利技术具有如下优点和有益效果:本专利技术提供的前置解析方法,负责基于搜索词文本的语义解析,能够理解用户搜索词的意图,将原始请求映射成更符合用户需求的查询条件,从而令查询结果更为精确,克服现有垂直搜索引擎的缺陷。灵活的多规则引擎应用方式,方便开发者自定义更多的规则引擎,优化搜索结果。此外修改规则数据库后,前置解析通过时间戳自动识别修改内容,动态更新前置解析服务,通过新开辟内存空间更新规则引擎,从而不会间断前置解析的服务,方便运营人员基于关键字快速调整搜索结果,而无需做任何开发和代码发布,大大提高了运营的效率。附图说明图1为本专利技术系统架构图;图2为前置解析方法流程图;图3为运营系统新增规则流程图。具体实施方式以下将结合具体实施例对本专利技术提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本专利技术而不用于限制本专利技术的范围。本专利技术提供了一种前置解析方法,基于前置解析模块和规则数据库实现,如图1所示,通过网站、无线客户端获得的原始用户请求经搜索业务处理层提取出原始查询词后,传输至前置解析模块中,前置解析模块理解用户搜索词意图,映射成符合用户需求的查询条件并返回搜索业务处理层,搜索业务处理层根据查询条件、利用产品索引系统进行索引查询获得原始搜索结果,经过处理后返回最终处理结果至网站、无线客户端。具体地说,前置解析模块用于分析用户的搜索词,并做语义分析,然后匹配规则数据库中的精确匹配、词项匹配和语法匹配等规则引擎,把搜索词转换成查询条件。本例提供给前置解析模块的搜索词为“马尔代夫天堂岛跟团游线路”,如图1所示,前置解析方法的处理步骤如下:步骤A,首先预处理模块对搜索词预处理,预处理旨在将输入的搜索词规范化,例如不规范字符处理,可将不规范的字符去除或识别后用规范字符代替;关键词长度限制,当关键词超长时,只截取前n个关键字词;基于空格的分词,以关键词中的空格为界,将关键词进行初步分词等等。上述搜索词中“线路”为停用词,去除该词后得到“马尔代夫天堂岛跟团游”。本专利技术利用多个规则引擎相配合,并采用预先设置好的策略控制搜索时进入哪些引擎,采用插件化的设计方法,规则引擎可以自定义增加,规则引擎的执行顺序也可以根据需要改变。引擎规则均存储在规则数据库中,本例中策略为进入所有的规则引擎,本例中的引擎规则如表1所示,包括精确匹配引擎、语法匹配引擎、词项匹配引擎三类,根据需要,还可以增加其他类别的引擎。在后续匹配过程中,一个关键词不仅可能匹配到不同类引擎中的结果,也有可能匹配到同一类引擎中的多个规则,规则之间的结果合并由每个规则定义,规则之间可以定义取交集、并集等。同一类引擎的各条规则之间可以定义是否互斥,并可以定义这些规则的优先级和合并规则;而不同类引擎之间也可以定义合并策略和优先级。因此,下表1中规则定义有规则名、规则引擎类型、规则合并操作方式、规则优先级、互斥规则及规则内容。注:aa=地区,bb=景点,cc=品类,dd=线路产品表1本例通过以下步骤运用多个引擎进行搜索:步骤B,进入精确匹配引擎进行关键词匹配,精确匹配是指搜索词完整匹配规则库中的一条或多条规则。若匹配则获取精确匹配候选集,添加至结果规则集。利用步骤A处理后得到的关键词在图2中的精确匹配引擎中进行匹配后,匹配到规则1和2添加至结果规则集。当然,本步骤具有匹配结果时可以直接选择退出,不执行其后步骤,但本例继续匹配其本文档来自技高网...

【技术保护点】
一种用于旅游垂直搜索引擎的前置解析方法,其特征在于,包括如下步骤:对搜索词进行预处理;对搜索关键词进行分词、实体识别和词性标注;采用若干规则引擎进行匹配,在每一类的规则引擎中,每一条规则都定义有合并操作规则、优先级和互斥规则;不同规则引擎间定义有合并策略和优先级;得到各规则引擎的匹配结果后,首先在同一类匹配规则中根据合并操作规则、优先级和互斥规则进行合并得到初步合并结果后,在不同类匹配规则中根据合并策略和优先级针对初步合并结果进行合并得到最终合并结果;将最终合并结果解析成搜索条件。

【技术特征摘要】
1.一种用于旅游垂直搜索引擎的前置解析方法,其特征在于,包括如下步骤:
对搜索词进行预处理;
对搜索关键词进行分词、实体识别和词性标注;
采用若干规则引擎进行匹配,在每一类的规则引擎中,每一条规则都定义有合并操作
规则、优先级和互斥规则;不同规则引擎间定义有合并策略和优先级;
得到各规则引擎的匹配结果后,首先在同一类匹配规则中根据合并操作规则、优先级
和互斥规则进行合并得到初步合并结果后,在不同类匹配规则中根据合并策略和优先级针
对初步合并结果进行合并得到最终合并结果;
将最终合并结果解析成搜索条件。
2.根据权利要求1所述的用于旅游垂直搜索引擎的前置解析方法,其特征在于,所属若
干规则引擎包括精确匹配引擎、语法匹配引擎和词项匹配引擎,匹配的过程包括:
步骤B,进入精确匹配引擎进行关键词匹配,若匹配则获取精确匹配结果,匹配结束后
直接退出或继续进行其他引擎匹配;
步骤C,对搜索关键词进行分词、实体识别和词性标注;
步骤D,进入语法匹配引擎进行语法匹配,若步骤C标注后得到的词性匹配或部分匹配
语法匹配规则,则获取语法匹配...

【专利技术属性】
技术研发人员:田舟贤史何富孙旭明
申请(专利权)人:南京途牛科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1