基于文本分类的意图识别方法、装置、设备及存储介质制造方法及图纸

技术编号:21914038 阅读:19 留言:0更新日期:2019-08-21 12:27
本发明专利技术公开了一种基于文本分类的意图识别方法、装置、计算机设备及存储介质,所述方法包括:获取用户的语音信息,并将语音信息转换为待识别文本信息;对待识别文本信息进行预处理,得到待分类数据,其中,预处理用于过滤待识别文本信息中的冗余信息;使用预先训练好的N个分类模型对待分类数据进行识别,并将每个分类模型识别出的用户意图组成待确定用户意图集合,其中,N为大于1的整数;按照预设带权选举方式,对待确定用户意图集合中的用户意图进行置信度计算,并根据计算结果确定与待识别文本信息匹配的用户意图。本发明专利技术的技术方案在基于文本分类的意图识别中,提高了用户意图识别的准确率。

Intention Recognition Method, Device, Equipment and Storage Media Based on Text Classification

【技术实现步骤摘要】
基于文本分类的意图识别方法、装置、设备及存储介质
本专利技术涉及信息处理领域,尤其涉及基于文本分类的意图识别方法、装置、设备及存储介质。
技术介绍
基于文本分类的意图识别是自然语言处理领域中一个很重要的分支。随着人工智能技术的不断发展,基于基于文本分类的意图识别的应用场景也越来越多。在智能客服、智能问答、智能助理等应用中均有基于文本分类的意图识别处理的身影。以苹果手机中的智能助理Siri为例,Siri就是一项具有智能语音控制功能的应用,它可以理解用户所说的话和表达的意图。其中,“用户说的话”就是文本,“意图”就是分类模型的标签。分类问题,作为机器学习领域中的常见问题,通常可以用传统的监督学习分类方法去解决。常用的分类模型有逻辑回归、支持向量机、决策树等。然而,由于基于文本分类的意图识别问题具有特殊性,即一方面,文本是由很多词组成的,每个词之间有很强的前后关联;另一方面,分类模型通常是基于特定的算法,而单一算法难以全面覆盖词之间的前后关联;因此,采用基于单一分类模型的意图识别方法进行识别时,具有一定的局限性,使得对用户意图的识别准确率不高,应用范围有限。
技术实现思路
本专利技术实施例提供一种基于文本分类的意图识别方法、装置、设备及存储介质,以解决在基于文本分类的意图识别中,用户意图识别的准确率不高的问题。一种基于文本分类的意图识别方法,包括:获取用户的语音信息,并将所述语音信息转换为待识别文本信息;对所述待识别文本信息进行预处理,得到待分类数据,其中,所述预处理用于过滤所述待识别文本信息中的冗余信息;使用预先训练好的N个分类模型对所述待分类数据进行识别,并将每个所述分类模型识别出的用户意图组成待确定用户意图集合,其中,N为大于1的整数;按照预设带权选举方式,对所述待确定用户意图集合中的所述用户意图进行置信度计算,并根据计算结果确定与所述待识别文本信息匹配的用户意图。一种基于文本分类的意图识别装置,包括:信息获取模块,用于获取用户的语音信息,并将所述语音信息转换为待识别文本信息;预处理模块,用于对所述待识别文本信息进行预处理,得到待分类数据,其中,所述预处理用于过滤所述待识别文本信息中的冗余信息;识别模块,用于使用预先训练好的N个分类模型对所述待分类数据进行识别,并将每个所述分类模型识别出的用户意图组成待确定用户意图集合,其中,N为大于1的整数;选举模块,用于按照预设带权选举方式,对所述待确定用户意图集合中的所述用户意图进行置信度计算,并根据计算结果确定与所述待识别文本信息匹配的用户意图。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于文本分类的意图识别方法。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于文本分类的意图识别方法。上述基于文本分类的意图识别方法、装置、设备及存储介质,将用户的语音信息转换成待识别文本信息,并对待识别文本信息进行预处理,得到待分类数据;即,过滤掉待识别文本信息中的冗余信息,有利于减少冗余信息对文本分类的干扰,提高文本分类的准确度和速度;使用预先训练好的至少2个分类模型对待分类数据进行分类,得到与待识别文本信息相对应的待确定用户意图集合;然后按照预设带权选举方式,对待确定用户意图集合中的用户意图进行置信度计算,并根据计算结果确定与待识别文本信息匹配的用户意图,即综合多个分类模型的分类结果,利用带权选举的方式对用户意图置信度进行加权计算,从而得到与待识别文本信息最匹配的用户意图,避免了单一算法难以全面覆盖文本之间关联性的问题;且与基于单一文本分类模型意图识别方法相比,用户意图识别的准确率更高,应用范围更广。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中基于文本分类的意图识别方法的一应用环境示意图;图2是本专利技术一实施例中基于文本分类的意图识别方法的流程图;图3是本专利技术一实施例中基于文本分类的意图识别方法中步骤S2的流程图;图4是本专利技术一实施例中基于文本分类的意图识别方法中进行词嵌入处理的流程图;图5是本专利技术一实施例中基于文本分类的意图识别方法中步骤S4的流程图;图6是本专利技术一实施例中基于文本分类的意图识别装置的示意图;图7是本专利技术一实施例中计算机设备的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供的基于文本分类的意图识别方法,可应用在如图1的应用环境中,其中,服务端是提供基于文本分类的意图识别服务的计算机设备,服务端可以是服务器或服务器集群;客户端是提出意图识别需求,并从服务端获取意图识别服务的计算机终端设备或虚拟终端,包括但不限于PC机、平板电脑、智能手机、浏览器或手机APP等;客户端与服务端之间通过网络连接,网络可以是有线网络或无线网络。本专利技术实施例提供的基于文本分类的意图识别方法应用于服务端。在一实施例中,如图2所示,提供了一种基于文本分类的意图识别方法,其具体实现流程包括如下步骤:S1:获取用户的语音信息,并将语音信息转换为待识别文本信息。用户的语音信息,即用户说的话。用户可以使用客户端将说的话转换成音频数据发送到服务端。其中,音频数据的格式包括但不限于WAV,MP3,MIDI等。例如,在智能客服的应用中,用户通过客户端输入语音信息,客户端将语音信息转换成MDI格式的音频文件,然后通过socket(套接字)发送到服务端。待识别文本信息,是语音信息的文字表示,即,服务端对获取到的语音信息进行转换处理后得到的待识别用户意图的文本数据。待识别文本信息可以以文件的形式进行存储,文件的格式包括但不限于txt、doc等文本格式。具体地,服务端从客户端获取语音信息后,可以通过ASR语音识别技术将语音信息进行转换处理,得到待识别文本信息。其中,ASR,即AutomaticSpeechRecognition,也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。优选地,服务端可以采用基于CNN的语音分类模型对语音信息作转换处理,得到待识别文本信息。其中,CNN,即ConvolutionalNeuralNetwork,卷积神经网络,是一种包含卷积计算且具有深度结构的前馈神经网络。S2:对待识别文本信息进行预处理,得到待分类数据,其中,预处理用于过滤待识别文本信息中的冗余信息。服务端在对待识别文本信息进行文本分类识别之前,需要过滤掉待识别文本中的冗余信息。其中,过滤掉冗余信息的数据,称为待分类数据,即服务端进行文本分类识别时的输入数据;冗余信息相当于待分类数据中无意义的噪声信息。过滤掉冗余信息,将有利减少冗余信息对文本分类的干扰,提高本文档来自技高网...

【技术保护点】
1.一种基于文本分类的意图识别方法,其特征在于,所述基于文本分类的意图识别方法包括:获取用户的语音信息,并将所述语音信息转换为待识别文本信息;对所述待识别文本信息进行预处理,得到待分类数据,其中,所述预处理用于过滤所述待识别文本信息中的冗余信息;使用预先训练好的N个分类模型对所述待分类数据进行识别,并将每个所述分类模型识别出的用户意图组成待确定用户意图集合,其中,N为大于1的整数;按照预设带权选举方式,对所述待确定用户意图集合中的所述用户意图进行置信度计算,并根据计算结果确定与所述待识别文本信息匹配的用户意图。

【技术特征摘要】
1.一种基于文本分类的意图识别方法,其特征在于,所述基于文本分类的意图识别方法包括:获取用户的语音信息,并将所述语音信息转换为待识别文本信息;对所述待识别文本信息进行预处理,得到待分类数据,其中,所述预处理用于过滤所述待识别文本信息中的冗余信息;使用预先训练好的N个分类模型对所述待分类数据进行识别,并将每个所述分类模型识别出的用户意图组成待确定用户意图集合,其中,N为大于1的整数;按照预设带权选举方式,对所述待确定用户意图集合中的所述用户意图进行置信度计算,并根据计算结果确定与所述待识别文本信息匹配的用户意图。2.如权利要求1所述的基于文本分类的意图识别方法,其特征在于,所述对所述待识别文本信息进行预处理,得到待分类数据,包括:对所述待识别文本信息进行分词处理,得到分词集合;对所述分词集合中的标点符号和语助词进行过滤,得到所述待分类数据。3.如权利要求2所述的基于文本分类的意图识别方法,其特征在于,所述对所述分词集合中的标点符号和语助词进行过滤,得到所述待分类数据之后,所述基于文本分类的意图识别方法,还包括:根据所述预设深度学习模型的类型,对所述待分类数据进行词嵌入处理,得到以词向量表示的所述待分类数据。4.如权利要求3所述的基于文本分类的意图识别方法,其特征在于,所述根据所述预设深度学习模型的类型,对所述待分类数据进行词嵌入处理,得到以词向量表示的所述待分类数据,包括:根据所述预设深度学习模型的类型,确定词嵌入长度;将所述待分类数据转换成词向量,并根据所述词嵌入长度对所述词向量进行填充,得到所述以词向量表示的所述待分类数据。5.如权利要求1所述的基于文本分类的意图识别方法,其特征在于,所述用户意图包括意图标签和所述意图标签对应的概率值,所述按照预设带权选举方式,对所述待确定用户意图集合中的所述用户意图进行置信度计算,并根据计算结果确定与所述待识别文本信息匹配的用户意图,包括:按照预设的权重分配方式,为每个所述分类模型分配权值,得到每个所述分类模型的权值;将所述待确定用户意图集合中,具有...

【专利技术属性】
技术研发人员:于凤英王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1