文本意图识别方法、装置、系统以及文本分类系统制造方法及图纸

技术编号:26791066 阅读:40 留言:0更新日期:2020-12-22 17:06
本发明专利技术公开了一种文本意图识别方法、装置、系统以及文本分类系统,涉及计算机技术领域。该方法的一具体实施方式包括:获取待识别文本中的一个或多个分词;在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。该实施方式能够在意图识别错误时实现系统的及时修复。

【技术实现步骤摘要】
文本意图识别方法、装置、系统以及文本分类系统
本专利技术涉及计算机
,尤其涉及一种文本意图识别方法、装置、系统以及文本分类系统。
技术介绍
意图识别是聊天机器人等对话系统的重要工作环节,现有的文本意图识别方法主要有三种。其一是基于文本模板的方法,依靠人工方式归纳出不同的意图模式,之后整理成正则表达式模板与待识别文本匹配;其二是基于知识工程的方法,利用人的经验为每种意图定义推理规则,当待识别文本满足某种规则即判定具有相应意图;其三是基于统计学习的方法,通过标注数据训练意图分类模型,利用训练完成的模型预测待识别文本的意图,常用算法有决策树、深度神经网络等。以上前两种方法覆盖的文本范围有限,第三种方法的识别精度较低。同时,对于采用任一种方法或者结合多种方法实现的意图识别系统,在遇到意图识别结果错误的情况时,往往需要重新开发代码或者重新训练模型进行紧急修复,之后重新发布版本并进行版本上线和线上验证。由于系统上线具有较高风险和成本,需要经过开发、测试和层层审批,因此上述修复过程需耗费较多时间和较高的人力成本,还需要承担一定的风险。<本文档来自技高网...

【技术保护点】
1.一种文本意图识别方法,其特征在于,包括:/n获取待识别文本中的一个或多个分词;/n在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。/n

【技术特征摘要】
1.一种文本意图识别方法,其特征在于,包括:
获取待识别文本中的一个或多个分词;
在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。


2.根据权利要求1所述的方法,其特征在于,所述数据库中存储的历史文本包括:在历史时期意图识别结果错误、并由人工标记意图信息的文本。


3.根据权利要求1所述的方法,其特征在于,判断所述数据库中是否存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本的步骤包括:
在所述数据库中查询到包含至少一个所述分词的历史文本时,将查询到的历史文本中与待识别文本的相关程度不符合预设规则的历史文本去除。


4.根据权利要求3所述的方法,其特征在于,所述将查询到的历史文本中与待识别文本的相关程度不符合预设规则的历史文本去除,包括:
将查询到的历史文本按照与待识别文本的相关程度降序排列;
将在前的预设数量的历史文本保留,将其余历史文本去除。


5.根据权利要求4所述的方法,其特征在于,所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本通过以下步骤获得:
获取保留的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本确定为所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本。


6.根据权利要求4所述的方法,其特征在于,所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本通过以下步骤获得:
将保留的历史文本根据历史文本的意图信息分成至少一个类别;
获取包含历史文本数量最大的类别;在该类别中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该类别中的历史文本确定为所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本。


7.根据权利要求5或6所述的方法,其特征在于,所述依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息,包括:
将所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本的意图信息确定为待识别文本的意图信息。


8.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
在判断预先建立的数据库中未存储包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,利用预先建立的意图模板集合、和/或预先训练完成的意图分类模型确定待识别文本的意图信息;
其中,意图模板集合中包括至少一个意图模板,每一意图模板配置有表征一种意图信息的规则。


9.根据权利要求3-6任一所述的方法,其特征在于,
所述数据库为弹性搜索引擎ElasticSearch;
所述相似度包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;
以及,历史文本与待识别文本的相关程度由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。


10.一种文本意图识别装置,其特征在于,包括:
分词单元,用于获取待识别文本中的一个或多个分词;
意图识别单元,用于:在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。


11.一种文本意图识别系统,其特征在于,包括:预先建立的、存储有至少一个历史文本和所述历史文本的意图信息的数据库,以及相似度判断单元;其中,
所述数据库用于:响应于携带有待识别文本的查询请求,输出包含至少一个待识别文本分词的历史文本;
所述相似度判断单元用于:获取所述数据库输出的历史文本中与待识别文本的相似度符合预设条件的历史文本,依据该历史文本的意图信息确定待识别文本的意图信息。


12.根据权利要求11所述的系统,其特征在于,
所述数据库中存储的历史文本包括:在历史时期意图识别结果错误、并由人工标记意图信息的文本;
所述数据库进一步用于:将包含至少一个待识别文本分词的历史文本按照与待识别文本的相关程度降序排列,将在前的预设数量的历史文本输出。


13.根据权利要求11所述的系统,其特...

【专利技术属性】
技术研发人员:罗辉陈勇
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1