一种基于文本的搜索方法及搜索装置制造方法及图纸

技术编号:8682755 阅读:137 留言:0更新日期:2013-05-09 02:43
本发明专利技术公开了一种基于文本的搜索方法及搜索装置。基于文本的搜索方法包括:获取用户发送的文本流中包含的特征词;从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率;根据特征词对应的各业务的特征概率,计算文本流对应各业务的联合概率;根据计算得到的联合概率输出最终匹配业务,将特征词存入特征概率库,更新特征概率库中该特征词对应的特征概率。应用本发明专利技术,可以提高搜索效率、降低运营成本。

【技术实现步骤摘要】
一种基于文本的搜索方法及搜索装置
本专利技术涉及移动通信业务支撑技术,特别涉及一种基于文本的搜索方法及搜索装置。
技术介绍
用户通过短信等文本通信方式办理或取消通信业务,可以有效节约用户到短信营业厅办理的时间、提高用户的便捷性。但传统的短信营业厅不支持或只能部分支持模糊匹配功能,对于不支持模糊匹配功能的短信营业厅,通过将短信内容与业务库中预先设置的各业务映射的关键词集进行精确匹配,如果匹配成功,则为用户办理相应的业务,如果匹配失败,向用户返回输入错误提示信息。而随着用户越来越多地使用自然语言与短信营业厅进行交互,短信营业厅通过精确匹配的方法对用户的意图越来越难以理解,导致对用户上行的大量短信无法识别,从而无法进行及时有效的处理,影响用户正常的业务订阅;而对于部分支持模糊匹配识别功能的短信营业厅,在精确匹配失败后,需要将短信内容与业务库中预先设置的各业务映射的关键词集进行模糊匹配,获取模糊匹配成功的短信内容所属的业务,对于匹配成功的业务为多个的情况,将相应业务指令采用推送菜单的方式与用户交互,由用户选取需要订阅的业务后再上报至短信营业厅,短信营业厅再进行用户业务的办理。上述业务指令处理逻辑为:用户上行短信由短信网关程序处理接收,经过防攻击机制进行预处理后,短信进入上行队列表中,由分发程序将短信取出分发给后台处理进程,处理进程进行短信业务规则(预先设置的各业务映射的关键词)匹配处理。具体来说,匹配流程为:根据用户上行短信,对存储在业务指令库中的短信业务规则进行一对一精确匹配,如果匹配成功,则取出对应的业务指令进行业务逻辑处理,并结束流程,如果精确匹配失败,进入模糊匹配处理流程,按照包含与被包含的关系进行处理并获取模糊处理结果,举例来说,如果用户上行的短信内容为“我要办理飞信”,而业务指令库中业务指令或短信业务规则为“办理飞信”,则不能实现精确匹配,进入模糊匹配流程。由于短信内容中包含且只包含了业务指令“办理飞信”,可以确定模糊匹配成功,则进入飞信开通流程;再例如,如果用户发送的短信内容为“飞信”,如果查询到业务指令库中包含“开通飞信”的业务指令,则进入对应的开通飞信流程,如果查询到业务指令库中不仅包含“开通飞信”的业务指令,还包含“办理飞信”的业务指令,则表明匹配出来的业务为多项,则将这些业务组装成新的短信菜单,发送给用户进行选择,并依据用户反馈的选择进行办理。为了推进短信营业厅的发展及优化建设,中国移动对短信营业厅的规划提出了进一步的要求:短信营业厅需要承担70%以上的业务办理量;各省应建设短信营业厅智能搜索功能,能够承载本地10086热线可查询的全部业务,并在2011年12月基于短信的搜索成功率应不低于70%。但由上述可见,现有短信营业厅基于短信(文本)搜索实现业务的方法,短信营业厅能够结合精确匹配,按照业务指令中的关键词对用户上行的短信进行业务模糊匹配,对同一条短信中出现不同关键词或同一关键词对应多项业务指令等匹配结果不确定的情况,获取业务指令库中包含这些关键词的不同业务指令,并将全部查询得到的业务名称组装成新的短信菜单推送给用户进行二次交互确认,并通过用户的简单回复完成业务查询和订购。但按照关键词的模糊匹配搜索方法,不能对用户上行短信内容中的同义词或近义词进行辨别和区分,漏失了相关有效信息,降低了搜索的效率;同时,对业务指令的关键词配置成为业务指令库中对用户上行短信进行解析处理的重要依据,使得对用户上行短信内容的理解依赖于大量业务指令与相应关键词映射关系的建立和维护,需要通过人工操作才能完成关键词的选取和补充,不仅给维护管理人员带来很大的工作量,同时随着业务指令与关键词映射关系的不断扩充,会带来另一个严重问题,即同一业务关键词重复出现和使用以及不同业务间关键词的嵌套交叉等,使得用户发送一条短信会查出来十几个甚至几十个业务的局面,虽然仍然可以通过各式各样的分解、去重、补充或删减等手段来完善和精简关键词库,但仍会造成业务指令库难于管理和维护,运营成本高;进一步地,用户需要浏览繁多展示的业务并从中进行选择,使得用户订阅业务的流程相对比较繁琐,不仅降低了业务的服务水平,也压抑了用户的新业务消费冲动,使得用户业务体验差、感知度不强。
技术实现思路
有鉴于此,本专利技术的主要目的在于提出一种基于文本的搜索方法,提高搜索效率、降低运营成本。本专利技术的另一目的在于提出一种基于文本的搜索装置,提高搜索效率、降低运营成本。为达到上述目的,本专利技术提供了一种基于文本的搜索方法,该方法包括:获取用户发送的文本流中包含的特征词;从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率;根据特征词对应的各业务的特征概率,计算文本流对应各业务的联合概率;根据计算得到的联合概率输出最终匹配业务,将特征词存入特征概率库,更新特征概率库中该特征词对应的特征概率。所述获取用户发送的文本流中包含的特征词包括:对用户发送的文本流进行分词处理,获取候选特征词集;根据预先设置的停用词表对获取的候选特征词集进行过滤处理,得到特征词。所述停用词表包括无意义词语、和/或,高文档率词语。构建所述特征概率词库包括:采集训练样本数据集;对训练样本数据集中样本数据进行精确匹配以及模糊匹配,获取匹配成功的样本数据以及对应的分类业务,在特征概率词库中建立分类业务存储区,存储与分类业务匹配成功的样本数据;在分类业务存储区中,获取样本数据中包含的词条,统计词条在分类业务中的文档频率DF;将DF值超过预先设置的分类业务DF阈值的词条作为特征词存入分类业务存储区;计算特征词在分类业务中的特征指示概率;根据特征指示概率计算该特征词的特征概率,并存入分类业务存储区中,建立特征词与特征概率的特征概率词库。所述特征指示概率的计算公式为:式中,pi(w)是第i个分类业务中特征词w的特征指示概率;bi(w)是第i个分类业务中特征词w的目标概率;gi(w)是第i个分类业务中特征词w的非目标概率。所述目标概率计算公式为:式中,DFi(w)为第i个分类业务中含有特征w的目标分类文本数量;Ni为第i个分类业务中总的目标分类文本数量。所述非目标概率计算公式为:式中,DFj(w)为第j个分类业务中含有特征w的文本数量;Nj为第j个分类业务中总的目标分类文本数量;n为总的分类业务数量。所述特征概率计算公式为:式中,m为含特征w的文本数量;s、x为预先设置的常量。所述联合概率的计算公式为:式中,pk()为文本的联合概率;Mi为第i个文本;f(wij)为第i个文本中的第j个特征词的特征概率;K为第i个文本包含的特征词数量。在构建特征概率词库后,进一步包括:利用预先设置的测试样本数据集中的样本数据对构建的特征概率词库进行测试验证。所述根据计算得到的联合概率输出业务指令包括:将计算得到的联合概率与预先设置的联合概率阈值进行大小比较,如果联合本文档来自技高网
...
一种基于文本的搜索方法及搜索装置

【技术保护点】
一种基于文本的搜索方法,其特征在于,该方法包括:获取用户发送的文本流中包含的特征词;从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率;根据特征词对应的各业务的特征概率,计算文本流对应各业务的联合概率;根据计算得到的联合概率输出最终匹配业务,将特征词存入特征概率库,更新特征概率库中该特征词对应的特征概率。

【技术特征摘要】
1.一种基于文本的搜索方法,其特征在于,该方法包括:获取用户发送的文本流中包含的特征词;从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率;根据特征词对应的各业务的特征概率,计算文本流对应各业务的联合概率;根据计算得到的联合概率输出最终匹配业务,将特征词存入特征概率库,更新特征概率库中该特征词对应的特征概率;其中,构建所述特征概率词库包括:采集训练样本数据集;对训练样本数据集中样本数据进行精确匹配以及模糊匹配,获取匹配成功的样本数据以及对应的分类业务,在特征概率词库中建立分类业务存储区,存储与分类业务匹配成功的样本数据;在分类业务存储区中,获取样本数据中包含的词条,统计词条在分类业务中的文档频率DF;将DF值超过预先设置的分类业务DF阈值的词条作为特征词存入分类业务存储区;计算特征词在分类业务中的特征指示概率;根据特征指示概率计算该特征词的特征概率,并存入分类业务存储区中,建立特征词与特征概率的特征概率词库;其中,所述特征指示概率的计算公式为:式中,pi(w)是第i个分类业务中特征词w的特征指示概率;bi(w)是第i个分类业务中特征词w的目标概率;gi(w)是第i个分类业务中特征词w的非目标概率;所述特征概率计算公式为:式中,m为含特征w的文本数量;s、x为预先设置的常量。2.如权利要求1所述的方法,其特征在于,所述获取用户发送的文本流中包含的特征词包括:对用户发送的文本流进行分词处理,获取候选特征词集;根据预先设置的停用词表对获取的候选特征词集进行过滤处理,得到特征词。3.如权利要求2所述的方法,其特征在于,所述停用词表包括无意义词语、和/或,高文档率词语。4.如权利要求1所述的方法,其特征在于,所述目标概率计算公式为:式中,DFi(w)为第i个分类业务中含有特征w的目标分类文本数量;Ni为第i个分类业务中总的目标分类文本数量。5.如权利要求1所述的方法,其特征在于,所述非目标概率计算公式为:式中,DFj(w)为第j个分类业务中含有特征w的文本数量;Nj为第j个分类业务中总的目标分类文本数量;n为总的分类业务数量。6.如权利要求1所述的方法,其特征在于,所述联合概率的计算公式为:式中,pk()为文本的联合概率;Mi为第i个文本;f(wij)为第i个文本中的第j个特征词的特征概率;K为第i个文本包含的特征词数量。7.如权利要求1所述的方法,其特征在于,在构建特征概率词库后,进一步包括:利用预先设置的测试样本数据集中的样本数据对构...

【专利技术属性】
技术研发人员:董宇杨辉
申请(专利权)人:中国移动通信集团贵州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1