一种数据处理方法、装置、服务器及存储介质制造方法及图纸

技术编号:20363516 阅读:20 留言:0更新日期:2019-02-16 16:48
本发明专利技术公开了一种数据处理方法、装置、服务器及存储介质,所述方法包括:获取待识别语句数据;将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;当判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;其中,所述召回阈值为数据被召回的下限值,所述可出阈值为数据被召回的上限值。利用本发明专利技术实施例提供的技术方案可以减少对待识别语句数据进行人工标注识别的人力成本,有效提高处理效率。

【技术实现步骤摘要】
一种数据处理方法、装置、服务器及存储介质
本专利技术涉及互联网通信
,尤其涉及一种数据处理方法、装置、服务器及存储介质。
技术介绍
智能问答系统是一种新型的信息服务系统,在知识处理、语义识别等功能的基础上能够分析用户意图,为用户解答问题。目前,智能问答系统在智能客服、智能家电等领域得到了广泛的应用,也受到了广大用户的喜爱。现有的智能问答系统进行问答处理过程中由于终端用户的表达千差万别,常常遇到系统不支持的语句。现有技术中往往导出所有不支持的语句进行人工标注,确定用户需要查询的语句的意图,进而确定相应的应答结果。但对大量的不支持的语句进行人工,需要大量的人力成本,处理效率低。因此,需要提供更高效的方案。
技术实现思路
本专利技术提供了一种数据处理方法、装置、服务器及存储介质,可以减少对待识别语句数据进行人工标注识别的人力成本,有效提高处理效率。第一方面,本专利技术提供了一种数据处理方法,所述方法包括:获取待识别语句数据;将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;当判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;其中,所述召回阈值为数据被召回的下限值,所述可出阈值为数据被召回的上限值。第二方面提供了一种数据处理装置,所述装置包括:语句数据模块,用于获取待识别语句数据;意图识别模块,用于将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;第一判断模块,用于判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;待标注语句数据确定模块,用于当所述第一判断模块判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;其中,所述召回阈值为数据被召回的下限值,所述可出阈值为数据被召回的上限值。第三方面提供了一种数据处理服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的数据处理方法。第四方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的数据处理方法。本专利技术提供的数据处理方法、装置、服务器及存储介质,具有如下技术效果:本专利技术可以大大减少对无法理解的待识别语句数据进行人工标注识别的人力成本,且可以有效提高处理效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是本专利技术实施例提供的一种服务系统的示意图;图2是本专利技术实施例提供的意图识别模型训练及应用的一种示意图;图3是本专利技术实施例提供的一种数据处理方法的流程示意图;图4本专利技术实施例提供的一种确定某一领域的可出阈值的流程示意图;图5本专利技术实施例提供的一种确定某一领域的召回阈值的流程示意图;图6是本专利技术实施例提供的一种基于意图训练模型训练过程中多个阈值所对应的准确率—召回率曲线确定可出阈值和召回阈值的一种示意图;图7是本专利技术实施例提供的另一种数据处理方法的流程示意图;图8是本专利技术实施例提供的另一种数据处理方法的流程示意图;图9是本专利技术实施例提供的另一种数据处理方法的流程示意图;图10是本专利技术实施例提供的一种数据处理装置的结构示意图;图11是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。请参阅图1,图1是本专利技术实施例提供的一种服务系统的示意图,如图1所示,该服务系统可以包括客户端01和服务器02。具体的,客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载、音箱、电视、机器人等类型的实体设备,也可以包括运行于实体设备中的软体,例如虚拟机等。本专利技术实施例中客户端01可以支持用户通过人类语言和设备交互。具体的,本说明书实施例中,所述服务器02可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器02可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器02可以为上述客户端提供后台服务。在实际应用中,服务系统在向用户提供服务的过程中,当客户端接收到无法理解的语言表述时,可以通过人工识别来不断增强对用户获取服务的语言表述的理解能力。考虑到现有技术直接将全部无法理解的语言表述均进行人工识别打俩的巨大工作量和人力成本高等问题。本说明书实施例中,客户端通过接收到无法理解的语言表述时,可以将该无法理解的语言表述反馈给服务器;服务器对每一条无法理解的语言表述先进行意图识别,对于无法进行意图识别且具有一定学习价值的语言表述作为待标注的语言标注,以在增强对用户获取服务的语言表述的理解能力有效减少工作量,降低人力成本等。在实际应用中,一个服务系统向用户提供的服务往往包括一个或多个领域的服务。相应的,当服务相应包括多个领域的服务时,本说明书实施例中,可以针对不同领域训练相应的领域的意图识别模型,以对无法理解的语言表述进行意图识别。以下介绍一种意图识别模型训练的具体实施例,具体的,可以包括:1)获取预设领域的语料数据。本说明书实施例中,可以先收集某一领域的大量语料数据,具体的,所述语料数据可以通过线下采集的方式获取,也可以通过线上识别出领域的语料数据。2)基于预设机器学习算法对所述预设领域的语料数据进行意图训练,得到所述预设领域的意图识别模型。本说明书实施例中,基于预设机器学习算法可以包括但不限于采用卷积神经网络、递归神经网络或逻辑回归网络等机器学习算法。在一个具体的实施例中,以逻辑回归网络进行某一领域的意图识别模型训练为例,可以包括:将训练数据(正例语料数据和负例语料数据)输入到逻辑回归模型,逻辑回归模型的输出为训练数据为本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:获取待识别语句数据;将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;当判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;其中,所述召回阈值为数据被召回的下限值,所述可出阈值为数据被召回的上限值。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取待识别语句数据;将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;当判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;其中,所述召回阈值为数据被召回的下限值,所述可出阈值为数据被召回的上限值。2.根据权利要求1所述的方法,其特征在于,所述预设领域的可出阈值包括采用下述方式确定包括:获取预设领域的正例语料数据和反例语料数据;将所述正例语料数据和反例语料数据输入预设意图训练模型进行意图训练;在训练过程中调整所述预设意图训练模型中的阈值,记录每一阈值所对应的准确率和召回率数据;基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第一阈值,且准确率和召回率的调和平均最大的阈值;将所述准确率大于第一阈值,且准确率和召回率的调和平均最大的阈值作为所述预设领域的可出阈值。3.根据权利要求1所述的方法,其特征在于,所述预设领域的召回阈值包括采用下述方式确定包括:获取预设领域的正例语料数据和反例语料数据;将所述正例语料数据和反例语料数据输入预设意图训练模型进行意图训练;在训练过程中调整所述预设意图训练模型中的阈值,记录每一阈值所对应的准确率和召回率数据;基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第二阈值,且召回率最大的阈值;将所述准确率大于第二阈值,且召回率最大的阈值作为所述预设领域的召回阈值。4.根据权利要求1所述的方法,其特征在于,所述预设领域的意图识别模型包括采用下述方式确定:获取所述预设领域的语料数据;基于预设机器学习算法对所述预设领域的语料数据进行意图识别训练,得到所述预设领域的意图识别模型。5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:当判断的结果为否时,判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的可出阈值;当判断出所述待识别语句数据具有所述预设领域的意图的概率大于等于预设领域的可出阈值时,将所述待识别语句数据标注为所述预设领域的正例语料数据。6.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:确定所述待标注语句数据的领域信息;对所述待标注语句数据进行所述领域信息所对应领域的意图识别处理,得到所述待标注语句数据在所述所对应领域的意图信息。7.一种数据处理装置,其特征在于,所述装置包括:语句数据模块,用于获取待识别语句数据;意图识别模块,用于将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;第一判断模块,用于判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;待标注语句数据确定模块,用于当所述第一判断模块判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数...

【专利技术属性】
技术研发人员:王文斌赵学敏苏可
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1