本发明专利技术适用于自然语言处理技术领域,提供了一种会话文本的意图识别方法、意图识别装置及终端。其中,所述意图识别方法包括:获取会话文本;将所述会话文本转换为包含上下文特征的第一文本向量;通过卷积运算将所述第一文本向量转换为第二文本向量;对所述第二文本向量进行特征提取,获得所述会话文本的语义特征;基于所述语义特征获得所述会话文本的会话意图。本发明专利技术通过将文本转换为向量,并利用文本向量的向量运算及向量转换实现会话文本的关键语义特征提取,可适于识别多样化的口语语料,具备较好的泛化能力,在利用训练语料进行训练测试之后,能够获得较好的识别准确度,应用于会话机器人,可以提高其识别会话文本的会话意图的效率和准确度。
【技术实现步骤摘要】
会话文本的意图识别方法、意图识别装置及终端
本专利技术属于自然语言处理
,尤其涉及一种会话文本的意图识别方法、意图识别装置、终端及计算机可读存储介质。
技术介绍
目前,随着语音识别技术的发展,将语音识别为文本的识别准确度已经大大提高,这为人与机器人的会话提供了可行性。然而,语音识别后,得到的只是一串文本,机器人无法直接理解文本的语义,也就无法获知用户的会话意图。传统技术中,通常需要配置大量的问答模板,机器人通过将用户的会话文本与问答模板进行匹配来确定会话意图。然而,这样需要穷举很多问答语料,工作量大;并且,问答模板存在数量局限性以及泛化能力弱的问题,难以匹配多样化的口语语料,因此其对会话意图的匹配效率和匹配准确率都不够高。
技术实现思路
有鉴于此,本专利技术提供了一种会话文本的意图识别方法、意图识别装置、终端及计算机可读存储介质,以解决现有技术中会话机器人对会话意图的匹配效率和匹配准确率都不够高的问题。本专利技术实施例的第一方面提供了一种会话文本的意图识别方法,包括:获取会话文本;将所述会话文本转换为包含上下文特征的第一文本向量;通过卷积运算将所述第一文本向量转换为第二文本向量;对所述第二文本向量进行特征提取,获得所述会话文本的语义特征;基于所述语义特征获得所述会话文本的会话意图。本专利技术实施例的第二方面提供了一种会话文本的意图识别装置,包括:会话文本获取单元,用于获取会话文本;文本向量转换单元,用于将所述会话文本获取单元获取的会话文本转换为包含上下文特征的第一文本向量;文本向量运算单元,用于通过卷积运算将所述文本向量转换单元得到的第一文本向量转换为第二文本向量;语义特征提取单元,用于对所述文本向量运算单元得到的第二文本向量进行特征提取,获得所述会话文本的语义特征;会话意图确定单元,用于基于所述语义特征提取单元提取的语义特征获得所述会话文本的会话意图。本专利技术实施例的第三方面提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如任一项所述会话文本的意图识别方法的步骤。本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如任一项所述会话文本的意图识别方法的步骤。本专利技术与现有技术相比存在的有益效果是:本专利技术通过获取会话文本,并将该会话文本转换为包含上下文特征的第一文本向量,通过卷积运算将所述第一文本向量转换为第二文本向量,在该运算过程中实现对上下文特征的集中,从而有利于对集中的上下文特征进行特征提取,以获得该会话文本的关键语义特征,该关键语义特征可以指示该会话文本的会话意图,从而实现了对会话文本的会话意图的识别。本专利技术利用文本向量的向量运算及向量转换实现会话文本的关键语义特征提取,能够适用于多样化的口语语料,并且具备较好的泛化能力,在利用训练语料经过训练测试之后,能够获得较好的识别准确度,应用于会话机器人,可以提高其识别会话文本的会话意图的效率和准确度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的会话文本的意图识别方法的实现流程图;图2是本专利技术实施例提供的图1所示实施例中步骤102的实现流程图;图3是本专利技术实施例提供的对第一文本向量进行说明的一个示意图;图4是本专利技术实施例提供的会话文本的意图识别装置的结构示意图;图5是本专利技术实施例提供的终端的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。本专利技术实施例可应用于与机器人进行会话,使机器人能够理解用户一方的会话文本对应的意图,以便返回与该意图对应的回答。会话文本的意图可以包括多个类别,比如,会话文本为“今天天气怎么样?”,其对应的会话意图为天气类意图;再比如,会话文本为“我想了解怎么退票。”,其对应的会话意图为票务类意图;又比如,会话文本为“我想听歌”、“给我唱首歌”或者“播放音乐”,其对应的会话意图为歌唱类意图。参见图1,其示出了本专利技术实施例提供的会话文本的意图识别方法的实现流程图,详述如下:在步骤101中、获取会话文本。在本专利技术实施例中,首选获取用户一方的会话文本,该会话文本可以为用户通过文字输入设备输入给会话机器人的一系列文字。在一个实现方式中,会话机器人还可以通过音频采集设备(例如麦克风)对用户会话进行音频采集,并接收音频采集设备采集到的会话音频,通过音频转文本处理将其转换为与该会话音频对应的会话文本。在本专利技术实施例中,会话文本由一系列的文字(包括字及词)组成,可以为一句话,也可以为一段话。应用于会话机器人,可以为用户对会话机器人的一次问询对应的文本。在步骤102中、将所述会话文本转换为包含上下文特征的第一文本向量。由于文本是一种非结构化的数据,计算机无法直接对其进行直接处理,而计算机能够处理的对象可以为向量。因此,需要将文本进行向量化表示,以便于计算机对文本进行识别和处理。传统技术中,通常将文本进行分词,然后将每个词转换为对应的词向量,进而以词向量的集合作为文本的向量表示。然而,实际上,每个词通常具有多个含义,其在一个会话文本中的具体含义需根据其在会话文本中的上下文共同确定。上述传统的文本向量表示方式对词的上下文特征有所丢失,故其向量表示所包含的语义特征可能不够准确。在本专利技术实施例中,可以根据会话文本的语序,对每个词的前一个词(上文)和后一个词(下文)分别进行特征向量的提取,并与该词(当前词)合并,得到每个词的新的词向量表示,该新的词向量表示包含了该词的上下文特征,保存了准确的语义特征,将会话文本中的每个词以该新的词向量进行表示,从而可以得到会话文本的包含上下文特征的向量表示(即第一文本向量)。如此以来,第一文本向量既能够保留会话文本的词序信息,也能够保存较远的词与词之间的联系信息,从而更加全面的对会话文本的语义进行了保留。具体的,可以利用word2vec词向量模型进行词向量的训练,将得到的词向量集合组成输入矩阵,并利用双向循环神经网络实现词向量的上下文特征的提取,并获得包含上下文特征的第一文本向量。可选的,所述第一文本向量的数学表示可以为:xi=本文档来自技高网...
【技术保护点】
1.一种会话文本的意图识别方法,其特征在于,包括:/n获取会话文本;/n将所述会话文本转换为包含上下文特征的第一文本向量;/n通过卷积运算将所述第一文本向量转换为第二文本向量;/n对所述第二文本向量进行特征提取,获得所述会话文本的语义特征;/n基于所述语义特征获得所述会话文本的会话意图。/n
【技术特征摘要】
1.一种会话文本的意图识别方法,其特征在于,包括:
获取会话文本;
将所述会话文本转换为包含上下文特征的第一文本向量;
通过卷积运算将所述第一文本向量转换为第二文本向量;
对所述第二文本向量进行特征提取,获得所述会话文本的语义特征;
基于所述语义特征获得所述会话文本的会话意图。
2.根据权利要求1所述的会话文本的意图识别方法,其特征在于,所述将所述会话文本转换为包含上下文特征的第一文本向量包括:
对所述会话文本进行分词操作,得到与所述会话文本对应的词集合;
利用词向量映射模型将所述词集合映射为词向量集合;
将所述词向量集合表示为按词序排列的词向量矩阵;
基于所述词向量矩阵,计算每个词向量的上文向量及下文向量;
将每个词向量、该词向量的上文向量以及该词向量的下文向量进行拼接,得到包含上下文特征的第一文本向量。
3.根据权利要求2所述的会话文本的意图识别方法,其特征在于,所述基于所述词向量矩阵,计算每个词向量的上文向量及下文向量包括:
将目标词向量的前一个词向量的上文向量与该前一个词向量合并,得到所述目标词向量的上文向量;
将目标词向量的后一个词向量的下文向量与该后一个词向量合并,得到所述目标词向量的下文向量。
4.根据权利要求2所述的会话文本的意图识别方法,其特征在于,所述第一文本向量的数学表示为:
xi=[cl(wi);e(wi);cr(wi)]
其中,i={1,2,3,...,I-1,I},I表示所述第一文本向量的长度,e(wi)表示词wi对应的词向量,cl(wi)表示词向量e(wi)的上文向量,cr(wi)表示词向量e(wi)的下文向量。
5.根据权利要求4所述的会话文本的意图识别方法,其特征在于,所述通过卷积运算将所述第一文本向量转换为第二文本向量,包括:
根据以下运算函...
【专利技术属性】
技术研发人员:熊友军,罗沛鹏,廖洪涛,
申请(专利权)人:深圳市优必选科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。