基于字典树分类的可配置化领域识别方法技术

技术编号:30769735 阅读:61 留言:0更新日期:2021-11-10 12:36
本发明专利技术涉及语义识别领域,具体涉及一种基于字典树分类的可配置化领域识别方法,实现了对新增领域的支持,相比缓存和规则,拥有更好的泛化性,并且实现动态添加、删除以及修改领域特征词,达到了可配置的效果。本发明专利技术基于字典树分类的可配置化领域识别方法,包括:分析各领域请求文本,提取各领域关键词,并生成字典树数据,根据字典树数据构建字典树,并为字典树添加数据增添、删除以及修改方法,将请求文本预处理后输入字典树,计算其命中领域权重,判断权重最大领域是否在配置领域内,若是则输出领域识别结果,否则返回空值。本发明专利技术适用于对领域识别。用于对领域识别。用于对领域识别。

【技术实现步骤摘要】
基于字典树分类的可配置化领域识别方法


[0001]本专利技术涉及语义识别领域,具体涉及一种基于字典树分类的可配置化领域识别方法。

技术介绍

[0002]意图识别是自然语言处理中的一个方向,常用的方法有:基于词典模板的规则分类、基于过往日志匹配(适用于搜索引擎)、基于分类模型进行意图识别。这三种方式基本上是目前比较主流的方法。基于词典的模板规则匹配通用性有限,当请求文本发生变化时(无法预测用户请求的说法),容易出现识别失误的情况。基于日志匹配的方法不适用于电视上语音交互系统。分类模型的方法难点主要是两点,一点是数据来源的匮乏,因为方法已经比较固定,基本都是有监督学习,需要很多的标记数据。第二点是尽管是分类工作,但是意图识别分类种类很多,并且要求的准确性,拓展性都不是之前的分类可比的,这一点也是很困难的。
[0003]目前的领域识别服务中,当需要新增一个领域时,算法模型需新增大量的对应训练数据,训练过程耗时较长,并由于数据量不平衡,对新增领域的支持效果不够好;采用规则、缓存的形式新增领域,可以解决上述训练模型的问题,但是由于缓存一类方法要求本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于字典树分类的可配置化领域识别方法,其特征在于,包括:步骤1、分析各领域请求文本,提取各领域关键词,并生成字典树数据;步骤2、根据字典树数据构建字典树,并为字典树添加数据增添、删除以及修改方法;步骤3、将请求文本预处理后输入字典树,计算其命中领域权重;步骤4、判断权重最大领域是否在配置领域内,若是则输出领域识别结果,否则返回空值。2.根据权利要求1所述的基于字典树分类的可配置化领域识别方法,其特征在于,步骤1中,分析各领域请求,提取各领域关键词,并生成字典树数据的具体方法包括:步骤101、从用户请求、训练数据以及测试数据中获取分析各领域的请求文本;步骤102、通过tf

idf方法提取各领域关键词;步骤103、对得到的关键词进行数据分词,并构建特征规则,根据特征规则替换其中包含的具体实体内容,若没有具体实体内容则替换为特征数据;步骤104、根据替换后的分词数据生成字典树数据。3.根据权利要求2所述的基于字典树分类的可配置化领域识别方法,其特征在于,步骤2中,根据字典树数据构建字典树的具体方法包括:将字典树数据中的字符按照阅读先后顺序,分别作为字典树的父节点、子节点构建字典树。4.根据权利要求3所述的基于字典树分类的可配置化领域识别方法,其特征在于,步骤2中,数据增添方法包括:增添数据时,若特征规则已在字典树中并且所属数据领域不同时,则在子节点添加领域值。5.根据权利要求4所述的...

【专利技术属性】
技术研发人员:刘光毅
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1