本发明专利技术公开了一种数据处理方法、装置及计算机存储介质和电子设备,方法包括:获取初始语料,所述初始语料至少包括对话目标和历史语料;对所述初始语料进行词向量转换,得到语料词向量;根据所述语料词向量进行分类训练,得到分类结果;根据所述分类结果判断所述对话目标是否完成。本发明专利技术提供的数据处理方法、装置及计算机存储介质和电子设备,通过引入对话目标来约束对话,并把对话目标的完成与否当作分类任务来进行分类训练判断对话目标是否完成,若完成则不再对同一对话目标进行无意义的回复;若对话目标未完成,则据此生成更为符合对话目标的回复文本来约束对话,以产生更有价值的对话,最终有助于提高对话机器人的用户满意度,提高商业价值。
A data processing method, device, computer storage medium and electronic equipment
【技术实现步骤摘要】
一种数据处理方法、装置及计算机存储介质和电子设备
本专利技术涉及信息处理
,尤其涉及一种数据处理方法、装置及计算机存储介质和电子设备。
技术介绍
近年来,聊天机器人受到了广泛的关注和发展,聊天机器人是一种通过自然语言模拟人类进行对话的程序,其中,开放域聊天机器人在生活中发挥着重要作用。传统的开放域对话一般没有明确的目标,机器人基于对话生成模型所生成的回复语句中经常出现没有实际意义的万能回复,比如中文里的“哈哈哈哈”等回复非常容易被选中,而且一旦用户向机器输入这种没有意义的语句时,机器与人之间的多轮对话就有很高概率会陷入死循环。人和机器之间没有目的的闲聊,这样的聊天一方面很难深入,商业价值较小,而且另一方面用户体验感也较差。
技术实现思路
本专利技术实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种数据处理方法,包括:获取初始语料,所述初始语料至少包括对话目标和历史语料;对所述初始语料进行词向量转换,得到语料词向量;根据所述语料词向量进行分类训练,得到分类结果;根据所述分类结果判断所述对话目标是否完成。在一可实施方式中,所述方法还包括:根据所述语料词向量进行文本回复训练,得到回复文本;当所述对话目标未完成时,输出所述回复文本。在一可实施方式中,通过栈式双向循环神经网络根据所述语料词向量进行分类训练。在一可实施方式中,通过神经网络根据所述语料词向量进行文本回复训练。在一可实施方式中,根据所述语料词向量进行二分类训练;所述根据所述分类结果判断对话目标是否完成包括:当所述分类结果大于第一阈值时,所述对话目标完成;当所述分类结果小于第一阈值时,所述对话目标未完成。本专利技术实施例另一方面提供一种数据处理装置,包括:语料获取模块,用于获取初始语料,所述初始语料至少包括对话目标和历史语料;向量转换模块,用于对所述初始语料进行词向量转换,得到语料词向量;分类训练模块,用于根据所述语料词向量进行分类训练,得到分类结果;结果判断模块,用于根据所述分类结果判断所述对话目标是否完成。在一可实施方式中,所述装置还包括:回复训练模块,用于根据所述语料词向量进行文本回复训练,得到回复文本;输出模块,用于当所述对话目标未完成时,输出所述回复文本。在一可实施方式中,所述分类训练模块包括:分类训练单元,用于通过栈式双向循环神经网络根据所述语料词向量进行分类训练。在一可实施方式中,所述分类训练模块还包括:二分类单元,用于根据所述语料词向量进行二分类训练。本专利技术实施例另一方面提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行上述中任一项所述的数据处理方法。本专利技术实施例另一方面提供一种电子设备,包括存储器和处理器,所述存储器中储存有计算机程序指令,所述指令由所述处理器加载并执行以实现上述中任一项所述的数据处理方法。本专利技术实施例提供的数据处理方法、装置及计算机存储介质和电子设备,先获取初始语料,获取的初始语料中包括有对话目标和历史语料,其中历史语料为截至当前的历史对话语料。然后初始语料转换为词向量形式,得到语料词向量,再对得到的语料词向量进行分类训练,得到分类结果;再通过将对话目标的完成与否当作分类任务,根据分类结果判断对话目标是否完成。本专利技术实施例通过引入对话目标来约束对话,并把对话目标的完成与否当作分类任务来进行分类训练判断对话目标是否完成,若完成则不再对同一对话目标进行无意义的回复;若对话目标未完成,则据此生成更为符合对话目标的回复文本来约束对话,以便产生更有价值的对话,最终有助于提高对话机器人的用户满意度,提高商业价值。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。图1为本专利技术一实施例所提供的一种数据处理方法的一种实现流程示意图;图2为本专利技术一实施例所提供的一种数据处理方法的另一种实现流程示意图;图3为本专利技术一实施例所提供的一种数据处理装置的一种组成结构图;图4为本专利技术一实施例所提供的一种数据处理装置的另一种组成结构图。具体实施方式为使本专利技术的目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本专利技术的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书中的一些方面相一致的方法、装置或设备的例子。请参考图1,本专利技术实施例一方面提供一种数据处理方法,包括:步骤101,获取初始语料,初始语料至少包括对话目标和历史语料;步骤102,对初始语料进行词向量转换,得到语料词向量;步骤103,根据语料词向量进行分类训练,得到分类结果;步骤104,根据分类结果判断对话目标是否完成。本专利技术实施例步骤101中获取的初始语料包括有对话目标和历史语料,其中历史语料为截至当前的历史对话语料。然后通过步骤102将初始语料转换为词向量形式,得到语料词向量,步骤103再对得到的语料词向量进行分类训练,得到分类结果;再通过步骤104将对话目标的完成与否当作分类任务,根据分类结果判断对话目标是否完成。本专利技术实施例通过引入对话目标来约束对话,并把对话目标的完成与否当作分类任务来进行分类训练判断对话目标是否完成,若完成则不再对同一对话目标进行无意义的回复;若对话目标未完成,则据此生成更为符合对话目标的回复文本来约束对话,以便产生更有价值的对话,最终有助于提高对话机器人的用户满意度,提高商业价值。本专利技术实施例中,可以采用循环神经网络来学习建立语料词向量的分类映射关系,进行分类训练,并最后连接分类函数进行计算,从而能够提高对语料的判断准确性。其中具体可以采用栈式双向循本文档来自技高网...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取初始语料,所述初始语料至少包括对话目标和历史语料;/n对所述初始语料进行词向量转换,得到语料词向量;/n根据所述语料词向量进行分类训练,得到分类结果;/n根据所述分类结果判断所述对话目标是否完成。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取初始语料,所述初始语料至少包括对话目标和历史语料;
对所述初始语料进行词向量转换,得到语料词向量;
根据所述语料词向量进行分类训练,得到分类结果;
根据所述分类结果判断所述对话目标是否完成。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述语料词向量进行文本回复训练,得到回复文本;
当所述对话目标未完成时,输出所述回复文本。
3.根据权利要求1或2所述的方法,其特征在于,通过栈式双向循环神经网络根据所述语料词向量进行分类训练。
4.根据权利要求1或2所述的方法,其特征在于,通过神经网络根据所述语料词向量进行文本回复训练。
5.根据权利要求1或2所述的方法,其特征在于,根据所述语料词向量进行二分类训练;
所述根据所述分类结果判断所述对话目标是否完成包括:
当所述分类结果大于第一阈值时,所述对话目标完成;
当所述分类结果小于第一阈值时,所述对话目标未完成。
6.一种数据处理装置,其特征在于,包括:
语料获取模块,用于获取初始语料,所述初始语料至少包括对话目标和历史...
【专利技术属性】
技术研发人员:林凤绿,王东升,范红杰,雷欣,
申请(专利权)人:出门问问信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。