语料收集方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20588948 阅读:14 留言:0更新日期:2019-03-16 07:11
本发明专利技术提供一种语料收集方法及装置,所述方法包括:向网络终端发送语料模板;向语音终端发送读出所述语料模板的语音提示消息;接收所述语音终端发送的目标语料;判断所述目标语料与所述语料模板是否匹配;若是,生成与所述语料模板对应的语料文件。本发明专利技术能够本发明专利技术能够针对预先设定的语料模板,有针对性的收集所需的语料并制成语料文件,可以高仿真地收集手机或者座机渠道进线的语音,逼近客户真实场景下说话的背景,显著提高语音识别模型的准确率。

【技术实现步骤摘要】
语料收集方法、装置、计算机设备及存储介质
本专利技术涉及互联网应用
,尤其涉及一种语料收集方法、装置、计算机设备及存储介质。
技术介绍
随着AI语音识别技术的成熟和广泛应用,针对特殊场景收集大量语料的需求日益增多,高质量的语料可以训练出高可用的语音识别模型,进一步准确的识别出客户的意图。现有相关技术中,大多基于对话的形式收集语料,该种语料的收集方法所收集的语料应用场景比较单一,仅用于聊天的场景;另一方面,该种语料的收集方法一般采用效仿聊天的收集方式,由熟悉业务的相关人员自行通过想象模拟对话场景,收集对话语料。这种语料收集方式,远离真实场景,容易陷入个人的思维及语言定式,导致语料真实度差,并且需要自行想象场景,效率低下。因此,现有的技术方案中,语料的收集没有针对性,收集的语料不精准,语料真实度差,训练出的语音识别模型适用性不强,语料内容不够丰富。
技术实现思路
本专利技术提供一种语料收集方法及相应的装置,其主要实现了针对预先设定的语料模板,有针对性的收集所需的语料,并制成语料文件,可以高仿真地收集手机或者座机渠道进线的语音,逼近客户真实场景下说话的背景,如噪音、各种手机型号设备,显著提高语音识别模型的准确率。本专利技术还提供一种用于执行本专利技术的语料收集方法的计算机设备及可读存储介质。为解决上述问题,本专利技术采用如下各方面的技术方案:第一方面,本专利技术提供一种语料收集方法,所述方法包括:向网络终端发送语料模板;向语音终端发送读出所述语料模板的语音提示消息;接收所述语音终端发送的目标语料;判断所述目标语料与所述语料模板是否匹配;若是,生成与所述语料模板对应的语料文件。具体的,还包括:接收用户的语音信息;提取所述语音信息中的业务信息;根据所述语料文件处理所述业务信息。具体的,所述语料文件包含目标业务,所述根据所述语料文件,处理所述业务信息包括:获取所述语料文件中的所述目标业务,向用户的网络终端推送所述目标业务。优选的,所述判断目标语料与语料模板是否匹配之后,还包括:若否,向所述语音终端发送重新读出所述语料模板的语音提示消息。具体的,所述判断目标语料与语料模板是否匹配,包括:识别所述目标语料中的第一语料内容,获取所述语料模板中的第二语料内容;判断所述第一语料内容与所述第二语料内容是否相同。具体的,所述向网络终端发送语料模板之前,包括:接收包含所述语音终端对应的用户号码的注册信息,执行注册;向已注册的用户号码的语音终端发送呼叫请求。具体的,还包括:实时记录制进度信息并创建录制进度信息数据库;接收网络终端提交的判断当前语料是否录制完成的查询请求;查询所述录制进度信息数据库并向所述网络终端反馈查询结果。第二方面,本专利技术提供一种语料收集装置,所述方法包括:发送模块,用于向网络终端发送语料模板;向语音终端发送读出所述语料模板的语音提示消息;接收模块,用于接收所述语音终端发送的目标语料;判断模块,用于判断所述目标语料与所述语料模板是否匹配;生成模块,用于若判断所述目标语料与所述语料模板匹配,则生成与所述语料模板对应的语料文件。第三方面,本专利技术提供一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如第一方面中任一项权利要求所述语料收集方法的步骤。第四方面,本专利技术提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如第一方面中任一项权利要求所述语料收集方法的步骤。相对于现有技术,本专利技术的技术方案至少具备如下优点:1、本专利技术提供一种语料收集方法,其特征在于,所述方法通过向网络终端发送语料模板;向语音终端发送读出所述语料模板的语音提示消息;接收所述语音终端发送的目标语料;判断所述目标语料与所述语料模板是否匹配;若是,生成与所述语料模板对应的语料文件。本专利技术能够针对预先设定的语料模板,有针对性的收集所需的语料,并制成语料文件,可以高仿真地收集手机或者座机渠道进线的语音,逼近客户真实场景下说话的背景,显著提高语音识别模型的准确率以及适用性。2、本专利技术可以应用于多种场景中,可以是被客户的意图,根据识别结果处理相关的业务。具体的,本专利技术可以通过接收用户的语音信息;提取所述语音信息中的业务信息;根据所述语料文件处理所述业务信息。可选的,所述语料文件包含目标业务,所述根据所述语料文件,处理所述业务信息时,获取所述语料文件中的所述目标业务,向用户的网络终端推送所述目标业务。本专利技术根据所收集的语料可以逼近真实场景,帮助更精准地识别客户意图,便于后续业务的处理。附图说明图1为一个实施例中语料收集方法流程图;图2为一个实施例中语料收集装置结构框图;图3为一个实施例中计算机设备的内部结构框图。本专利技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。在本专利技术的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S11、S12等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本领域普通技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例提供一种语料收集方法,该方法所实现的功能需要包括用户、语音终端、网络终端及服务器的参与,以服务器为本专利技术实施例的执行主体,执行、实现所述方法的功能本文档来自技高网
...

【技术保护点】
1.一种语料收集方法,其特征在于,所述方法包括:向网络终端发送语料模板;向语音终端发送读出所述语料模板的语音提示消息;接收所述语音终端发送的目标语料;判断所述目标语料与所述语料模板是否匹配;若是,生成与所述语料模板对应的语料文件。

【技术特征摘要】
1.一种语料收集方法,其特征在于,所述方法包括:向网络终端发送语料模板;向语音终端发送读出所述语料模板的语音提示消息;接收所述语音终端发送的目标语料;判断所述目标语料与所述语料模板是否匹配;若是,生成与所述语料模板对应的语料文件。2.根据权利要求1所述的语料收集方法,其特征在于,还包括:接收用户的语音信息;提取所述语音信息中的业务信息;根据所述语料文件处理所述业务信息。3.根据权利要求2所述的语料收集方法,其特征在于,所述语料文件包含目标业务,所述根据所述语料文件,处理所述业务信息包括:获取所述语料文件中的所述目标业务,向用户的网络终端推送所述目标业务。4.根据权利要求1所述的语料收集方法,其特征在于,所述判断目标语料与语料模板是否匹配之后,还包括:若否,向所述语音终端发送重新读出所述语料模板的语音提示消息。5.根据权利要求1所述的语料收集方法,其特征在于,所述判断目标语料与语料模板是否匹配,包括:识别所述目标语料中的第一语料内容,获取所述语料模板中的第二语料内容;判断所述第一语料内容与所述第二语料内容是否相同。6.根据权利要求1所述的语料收集方法,其特征在于,所述向网络终端发送语料模板之...

【专利技术属性】
技术研发人员:张鹏敬大彦
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1