【技术实现步骤摘要】
一种基于文本的搜索方法及搜索装置
本专利技术涉及移动通信业务支撑技术,特别涉及一种基于文本的搜索方法及搜索装置。
技术介绍
用户通过短信等文本通信方式办理或取消通信业务,可以有效节约用户到短信营业厅办理的时间、提高用户的便捷性。但传统的短信营业厅不支持或只能部分支持模糊匹配功能,对于不支持模糊匹配功能的短信营业厅,通过将短信内容与业务库中预先设置的各业务映射的关键词集进行精确匹配,如果匹配成功,则为用户办理相应的业务,如果匹配失败,向用户返回输入错误提示信息。而随着用户越来越多地使用自然语言与短信营业厅进行交互,短信营业厅通过精确匹配的方法对用户的意图越来越难以理解,导致对用户上行的大量短信无法识别,从而无法进行及时有效的处理,影响用户正常的业务订阅;而对于部分支持模糊匹配识别功能的短信营业厅,在精确匹配失败后,需要将短信内容与业务库中预先设置的各业务映射的关键词集进行模糊匹配,获取模糊匹配成功的短信内容所属的业务,对于匹配成功的业务为多个的情况,将相应业务指令采用推送菜单的方式与用户交互,由用户选取需要订阅的业务后再上报至短信营业厅,短信营业厅再进行用户业务的办理。上述业务指令处理逻辑为:用户上行短信由短信网关程序处理接收,经过防攻击机制进行预处理后,短信进入上行队列表中,由分发程序将短信取出分发给后台处理进程,处理进程进行短信业务规则(预先设置的各业务映射的关键词)匹配处理。具体来说,匹配流程为:根据用户上行短信,对存储在业务指令库中的短信业务规则进行一对一精确匹配,如果匹配成功,则取出对应的业务指令进行业务逻辑处理,并结束流程,如果精确匹配失败,进入 ...
【技术保护点】
一种基于文本的搜索方法,其特征在于,该方法包括:获取用户发送的文本流中包含的特征词;从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率;根据特征词对应的各业务的特征概率,计算文本流对应各业务的联合概率;根据计算得到的联合概率输出最终匹配业务,将特征词存入特征概率库,更新特征概率库中该特征词对应的特征概率。
【技术特征摘要】
1.一种基于文本的搜索方法,其特征在于,该方法包括:获取用户发送的文本流中包含的特征词;从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率;根据特征词对应的各业务的特征概率,计算文本流对应各业务的联合概率;根据计算得到的联合概率输出最终匹配业务,将特征词存入特征概率库,更新特征概率库中该特征词对应的特征概率;其中,构建所述特征概率词库包括:采集训练样本数据集;对训练样本数据集中样本数据进行精确匹配以及模糊匹配,获取匹配成功的样本数据以及对应的分类业务,在特征概率词库中建立分类业务存储区,存储与分类业务匹配成功的样本数据;在分类业务存储区中,获取样本数据中包含的词条,统计词条在分类业务中的文档频率DF;将DF值超过预先设置的分类业务DF阈值的词条作为特征词存入分类业务存储区;计算特征词在分类业务中的特征指示概率;根据特征指示概率计算该特征词的特征概率,并存入分类业务存储区中,建立特征词与特征概率的特征概率词库;其中,所述特征指示概率的计算公式为:式中,pi(w)是第i个分类业务中特征词w的特征指示概率;bi(w)是第i个分类业务中特征词w的目标概率;gi(w)是第i个分类业务中特征词w的非目标概率;所述特征概率计算公式为:式中,m为含特征w的文本数量;s、x为预先设置的常量。2.如权利要求1所述的方法,其特征在于,所述获取用户发送的文本流中包含的特征词包括:对用户发送的文本流进行分词处理,获取候选特征词集;根据预先设置的停用词表对获取的候选特征词集进行过滤处理,得到特征词。3.如权利要求2所述的方法,其特征在于,所述停用词表包括无意义词语、和/或,高文档率词语。4.如权利要求1所述的方法,其特征在于,所述目标概率计算公式为:式中,DFi(w)为第i个分类业务中含有特征w的目标分类文本数量;Ni为第i个分类业务中总的目标分类文本数量。5.如权利要求1所述的方法,其特征在于,所述非目标概率计算公式为:式中,DFj(w)为第j个分类业务中含有特征w的文本数量;Nj为第j个分类业务中总的目标分类文本数量;n为总的分类业务数量。6.如权利要求1所述的方法,其特征在于,所述联合概率的计算公式为:式中,pk()为文本的联合概率;Mi为第i个文本;f(wij)为第i个文本中的第j个特征词的特征概率;K为第i个文本包含的特征词数量。7.如权利要求1所述的方法,其特征在于,在构建特征概率词库后,进一步包括:利用预先设置的测试样本数据集中的样本数据对构...
【专利技术属性】
技术研发人员:董宇,杨辉,
申请(专利权)人:中国移动通信集团贵州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。