一种数据处理方法、装置及存储介质制造方法及图纸

技术编号：24455807 阅读：33 留言：0更新日期：2020-06-10 15:30

本发明专利技术公开了一种数据处理方法。获取预备输出的第一数据；利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据；输出所述第二数据。本发明专利技术还公开了一种数据处理装置、存储介质。

A data processing method, device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置及存储介质
本专利技术涉及计算机应用技术，尤其涉及一种数据处理方法、装置及存储介质。
技术介绍
人机对话领域中，人工智能经常使用预存的语言材料。语言材料可以从网络资源中收集而来，但是收集的语言材料情况复杂，常有非口语话的语言材料。为了使人工智能的对话能达到人与人之间的真实口语对话的体验，通常需要将收集的语言材料中的非口语语言材料清洗，即去除非口语语言材料。语言材料的清洗通常由人工处理。人工清洗对清洗人员提出了较高的能力要求，并且预先需要定制大量清洗规则。
技术实现思路
为克服相关技术中存在的问题，本专利技术提供一种数据处理方法、装置及存储介质。根据本专利技术实施例的第一方面，提供一种数据处理方法，包括：获取预备输出的第一数据；利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据；输出所述第二数据。在一个实施例中，所述利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据，包括：采用所述数据模型确定所述第一数据中待确定数据的困惑度(PPL，Perplexity)，其中，所述PPL用于指示对应所述待确定数据为不确定所述口语化数据的程度；去除所述第一数据中PPL大于或等于PPL阈值的所述待确定数据，得到所述第二数据。在一个实施例中，所述方法还包括：将所述第二数据作为训练样本加入训练集；利用所述训练集包含的训练样本，优化训练所述数据模型。>在一个实施例中，所述方法还包括：确定所述训练集是否达标；所述获取预备输出的第一数据，包括：响应于所述训练集未达标，获取预备输出的所述第一数据；所述利用所述第二数据优化训练所述数据模型，包括：响应于所述训练集未达标，利用所述训练集包含的训练样本继续训练所述数据模型。在一个实施例中，所述方法还包括：输出所述训练集中的训练样本，并检测针对于所述训练样本的达标指示操作；若检测到所述达标指示操作，确定对应的所述训练样本达标；所述确定所述训练集是否达标，包括：确定所述训练集中达标的所述训练样本的数量是否达到数量阈值；当所述训练集中达标的所述训练样本的数量达到所述数量阈值时，确定所述训练集达标。在一个实施例中，所述方法还包括：当所述训练集达标时，停止所述数据模型的优化训练。在一个实施例中，所述获取预备输出的第一数据，包括：获取人机对话场景下设备预备输出的对话数据。根据本专利技术实施例的第二方面，提供一种数据处理装置，包括：获取模块、筛选模块和输出模块，其中，所述获取模块，用于获取预备输出的第一数据；所述筛选模块，用于利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据；所述输出模块，用于输出所述第二数据。在一个实施例中，所述筛选模块，包括：筛选子模块，用于采用所述数据模型确定所述第一数据中待确定数据的困惑度PPL，其中，所述PPL用于指示对应所述待确定数据为不确定所述口语化数据的程度；去除所述第一数据中PPL大于或等于PPL阈值的所述待确定数据，得到所述第二数据。在一个实施例中，所述装置还包括：训练模块，用于将所述第二数据作为训练样本加入训练集；利用所述训练集包含的训练样本，优化训练所述数据模型。在一个实施例中，所述装置还包括：确定模块，用于确定所述训练集是否达标；所述获取模块，包括：获取子模块，用于响应于所述训练集未达标，获取预备输出的所述第一数据；所述训练模块，包括：训练子模块，用于响应于所述训练集未达标，利用所述训练集包含的训练样本继续训练所述数据模型。在一个实施例中，所述装置还包括：检测模块，用于输出所述训练集中的训练样本，并检测针对于所述训练样本的达标指示操作；若检测到所述达标指示操作，确定对应的所述训练样本达标；所述确定模块，包括：确定子模块，用于确定所述训练集中达标的所述训练样本的数量是否达到数量阈值；当所述训练集中达标的所述训练样本的数量达到所述数量阈值时，确定所述训练集达标。在一个实施例中，所述装置还包括：停止模块，用于当所述训练集达标时，停止所述数据模型的优化训练。在一个实施例中，所述获取预备输出的第一数据，包括：获取人机对话场景下设备预备输出的对话数据。根据本专利技术实施例的第三方面，提供一种数据处理装置，包括处理器、存储器及存储在存储器上并能够有所述处理器运行的可执行程序，所述处理器运行所述可执行程序时执行如第一方面所述数据处理方法的步骤。根据本专利技术实施例的第四方面，提供一种存储介质，其上存储由可执行程序，所述可执行程序被处理器执行时实现如第二方面所述数据处理方法的步骤。根据本专利技术实施例的第四方面，提供一种存储介质，其上存储由可执行程序，所述可执行程序被处理器执行时实现如第一方面所述数据处理方法的步骤。本专利技术实施例公开公开了一种数据处理方法、装置及存储介质；获取预备输出的第一数据；利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据；输出所述第二数据。如此，通过采用口语化数据训练数据模型，使模型可以识别口语化数据，利用数据模型对第一数据中的语言材料数据进行清洗得到口语化数据。一方面，采用数据模型处理第一数据，相对人工筛选可以提高数据清洗的效率。另一方面，采用训练的数据模型进行清洗，相对采用固定的清洗规则，可以适应语言材料情况，使清洗更具灵活性。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本专利技术的实施例，并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种数据处理方法的流程图；图2是根据一示例性实施例示出的一种数据处理方法详细步骤流程图；图3是根据一示例性实施例示出的一种数据处理装置的框图；图4是根据一示例性实施例示出的一种用于数据处理的装置的框图。具体实施方式这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本专利技术实施例的一些方面相一致的装置和方法的例子。在本专利技术实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本专利技术实施例。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相本文档来自技高网...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n获取预备输出的第一数据；/n利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据；/n输出所述第二数据。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
获取预备输出的第一数据；
利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据；
输出所述第二数据。

2.根据权利要求1所述方法，其特征在于，所述利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据，包括：
采用所述数据模型确定所述第一数据中待确定数据的困惑度PPL，其中，所述PPL用于指示对应所述待确定数据为不确定所述口语化数据的程度；
去除所述第一数据中PPL大于或等于PPL阈值的所述待确定数据，得到所述第二数据。

3.根据权利要求1或2所述方法，其特征在于，所述方法还包括：
将所述第二数据作为训练样本加入训练集；
利用所述训练集包含的训练样本，优化训练所述数据模型。

4.根据权利要求3所述方法，其特征在于，所述方法还包括：
确定所述训练集是否达标；
所述获取预备输出的第一数据，包括：
响应于所述训练集未达标，获取预备输出的所述第一数据；
所述利用所述第二数据优化训练所述数据模型，包括：
响应于所述训练集未达标，利用所述训练集包含的训练样本继续训练所述数据模型。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：
输出所述训练集中的训练样本，并检测针对于所述训练样本的达标指示操作；
若检测到所述达标指示操作，确定对应的所述训练样本达标；
所述确定所述训练集是否达标，包括：
确定所述训练集中达标的所述训练样本的数量是否达到数量阈值；
当所述训练集中达标的所述训练样本的数量达到所述数量阈值时，确定所述训练集达标。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：
当所述训练集达标时，停止所述数据模型的优化训练。

7.根据权利要求1或2所述的方法，其特征在于，所述获取预备输出的第一数据，包括：
获取人机对话场景下设备预备输出的对话数据。

8.一种数据处理装置，其特征在于，包括：获取模块、筛选模块和输出模块，其中，
所述获取模块，用于获取预备输出的第一数据；
所述筛选模块，用于利用使用口语化数据训练得到的数据模型，对所述第一数据中...

【专利技术属性】
技术研发人员：肖克聪，崔志，崔建伟，
申请(专利权)人：北京松果电子有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人