电子渠道应用上的FAQ识别系统及方法技术方案

技术编号:8594052 阅读:194 留言:0更新日期:2013-04-18 07:15
本发明专利技术提供一种电子渠道应用上的FAQ识别系统及方法,包括FAQ分词模块、检索出多候选模块、同义词扩展模块、自学习模块;FAQ分词采用电子渠道上专有词典进行要素词分词;根据要素词计算,得到多候选;在计算过程中,采用特定的电子渠道同义词辅助准确计算;最后是离线通过自学习模块对日志进行标注。本发明专利技术形成专有字典。对增值业务划分要素词。分为:业务要素词、操作要素词、特殊要素词等。同时支持词性扩展;检索时,侧重于业务要素词检索;同义词也根据词性划分,多组同义词见不传递。使得提高识别率时,多候选中至少出现与用户输入存在相同词;自学习中,知识更新,通过资源升级工具,对比出差异后,提交给运营商知识库人员审核后,线上更新。

【技术实现步骤摘要】

本专利技术涉及FAQ识别的
,具体涉及一种电子渠道应用上的FAQ识别系统及方法
技术介绍
电信运营商急需一种针对增值业务的问答对的系统,能够快速自动地解答用户纷繁的疑问。电子渠道应用上的FAQ识别,主要通过基于要素词的FAQ识别,在电信运营商增值业务方面,分析用户的咨询意向,给用户解答增值业务细节疑问。例如用户咨询数据流量有哪些套餐。系统通过FAQ识别,从预设的问题中找到最适合的问题,找到相似的回复给用户。并且能够在补充对应的QA对,让相关的知识,立即生效,达到自学习功能。现有技术的方案为电子渠道应用上的FAQ识别是针对运营商增值业务方面的疑问依次进行分词、业务要素词提取、索引构建、文本相似度计算判决等过程,查找最相近的Question,回复对应的Answer。后续进行自学习。具体的,如附图说明图1所示,首先形成索引;如图2所示,接着进行检索;如图3所示,最后进行自学习的流程图。现有技术的缺点1.分词仅基于名词、动词,无法体现电子渠道增值业务的特征。2.基于普通分词的FAQ检索,计算出来的得分,更多是基于字面含义的,误识别的现象比较明显。3.基于普通分词的同义词,由于非侧重于增值业务的,存在多候选答案,与用户输入找不到相同点,用户感知度很差。4.自学习基于统计进行,基于用户的词频,或者用户之间的反馈进行。由于电信运营商增值业务回复准确性,全权属于电信运营商,用户反馈的结果,不适用。
技术实现思路
针对现有技术的缺点,本专利技术目的在于提供一种电子渠道应用上的FAQ识别系统及方法,该方法可以体现电子渠道增值业务的特征,误识别的现象比较少,用户感知度好。本专利技术采用的技术方案为一种电子渠道应用上的FAQ识别系统,包括如下模块FAQ分词模块,该模块采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果;检索出多候选模块,该模块中每个句子的特征向量的维数由基于电信运营商增值业务中相关词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为0的维,即句子中分词结果中的词即可;同义词扩展模块,该模块中同义词扩展计算得分的方式为将可进行扩展的词依次换为该词的同义词,计算其得分;自学习模块,该模块主要用于离线日志标注,该模块首先对比,运营商今日与昨日更新的资源知识,根据此差别,工具主动修改线下运营商积累一些知识问题,并录入识别知识的储备资源库,若最小粒度的问答对中,问题一半以上发生变化,则线下标注的部分,提示运营商进行核定。其中,所述的FAQ分词模块采用的具体算法为采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果。其中,所述的检索出多候选模块采用的具体算法为每个句子的特征向量的维数由字典中词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为0的维,即句子中分词结果中的词即可;具体如下 首先在索引文件时会针对建索引的句子进行计算它的要素词权重得分,(I)、如表I所示第一条模板表I “数据流量功能暂停与恢复”分词结果为本文档来自技高网...

【技术保护点】
一种电子渠道应用上的FAQ识别系统,其特征在于:包括如下模块:?FAQ分词模块,该模块采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果;?检索出多候选模块,该模块中每个句子的特征向量的维数由基于电信运营商增值业务中相关词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为0的维,即句子中分词结果中的词即可;?同义词扩展模块,该模块中同义词扩展计算得分的方式为:将可进行扩展的词依次换为该词的同义词,计算其得分;?自学习模块,该模块主要用于离线日志标注,该模块首先对比,运营商今日与昨日更新的资源知识,根据此差别,工具主动修改线下运营商积累一些知识问题,并录入识别知识的储备资源库,若最小粒度的问答对中,问题一半以上发生变化,则线下标注的部分,提示运营商进行核定。

【技术特征摘要】
1.一种电子渠道应用上的FAQ识别系统,其特征在于包括如下模块FAQ分词模块,该模块采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果;检索出多候选模块,该模块中每个句子的特征向量的维数由基于电信运营商增值业务中相关词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为O的维,即句子中分词结果中的词即可;同义词扩展模块,该模块中同义词扩展计算得分的方式为将可进行扩展的词依次换为该词的同义词,计算其得分;自学习模块,该模块主要用于离线日志标注,该模块首先对比,运营商今日与昨日更新的资源知识,根据此差别,工具主动修改线下运营商积累一些知识问题,并录入识别知识的储备资源库,若最小粒度的问答对中,问题一半以上发生变化,则线下标注的部分,提示运营商进行核定。2.根据权利要求1所述的一种电子渠道应用上的FAQ识别系统,其特征在于所述的 FAQ分词模块采用的具体算法为采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果。3.根据权利要求1所述的一种电子渠道应用上的FAQ识别系统,其特征在于所述的检索出多候选模块采用的具体算法为每个句子的特征向量的维数由字典中词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高, 但其中只有几维值不为0,所以我们只关心其中不为O的维,即句子中分词结果中的词即可;具体如下首先在索引文件时会针对建索引的句子进行计算它的要素词权重得分,(I)、如表I所不第一条模板4.根据权利要求3所述的一种电子渠道应用上的FAQ识别系统,其特征在于所述的同义词扩展模块采用的具体算法为同义词扩展计算得分的方法为将可进行扩展的词依次换为该词的同义词,计算其得分;如果用户输入为“想把我的gprs暂停了” ;提要素结果为表4所示表45...

【专利技术属性】
技术研发人员:徐伟沈明花周正友张磊江涛聂小林
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1