语料数据库、语料数据库的维护方法、装置、设备和介质制造方法及图纸

技术编号：36048528 阅读：20 留言：0更新日期：2022-12-21 10:58

本发明专利技术公开了一种语料数据库、语料数据库的维护方法、装置、设备和介质，包括：对写入到语料数据库的基础数据集从不同维度进行细粒度分析，确定基础数据集的应用类型，维度为预先设置好的，应用类型包括通用性型和特定任务型；基于应用类型，对基础数据集进行聚合操作，得到基础数据集对应的训练任务；根据训练任务，采用预训练语言模型对基础数据集进行分析训练，得到目标数据集；在接收到数据交互指令时，采用各个目标数据集进行数据交互，实现通过对写入的基础数据集进行分析聚合和交互，使得写入数据集对于各种任务具有较强适应性，提高数据集的质量。高数据集的质量。高数据集的质量。

全部详细技术资料下载

【技术实现步骤摘要】
语料数据库、语料数据库的维护方法、装置、设备和介质

[0001]本专利技术自然语言处理
，尤其涉及一种语料数据库、语料数据库的维护方法、装置、设备和介质。

技术介绍

[0002]随着机器学习依赖于数据，而数据大多数由技术员收集和处理已发挥其人工智能行业中的价值。但大多数现有数据处理工具都倾向关于现有的数据之上，而不是如何解释和操纵数据。这种过度关注已有数据去进行数据处理的方法会消耗很大成本，是一种被动的方式。
[0003]解释数据是指该工具为适应原有数据的语法、特征等信息，在该份数据上制作的工具（例如规则分析、数据标注、分类器）都只能适应该份数据。这些工具大多数是由数据创建者以自己技术去生产，而没有使用到相应的自然语言处理技术。导致失去自然语言处理先验知识的前提下，分析后的数据信息往往不能被机器学习而使用。操纵数据是指该工具以原数据制作的工具因为上述提到丢失了自然语言处理知识的解释分析方法，生产的数据不能主动适应机器学习的训练方式，給模型训练造成影响。
[0004]这种方法不仅降低了总体开发效率，令项目开发集中于数据处理操作而不是实质性的改良、创造机器学习、人工智能算法开发；还不利于资源复用性，例如数据创建者为节约数据处理操作的开发成本，往往采用不考虑语种特点，混淆语种去进行数据预处理，让后续实际项目花费大量资源去进行数据标准化操作。

技术实现思路

[0005]本专利技术实施例提供一种语料数据库、语料数据库的维护方法、装置、计算机设备和存储介质，以提高自然语言数据集的质量。/>[0006]为了解决上述技术问题，本申请实施例提供一种语料数据库，所述语料数据库包括数据分析模块和数据交互模块；所述数据分析模块包括基础表达单元、数据表、嵌入表达单元、偏差分析单元、聚类预测单元和提示学习单元，其中，所述基础表达单元，用于解析数据的基本信息；所述嵌入表达单元，用于通过模型将数据分层嵌入，并投影到多维，以可视化视图浏览数据集特征；所述偏差分析单元，用于根据参考数据集进行数据误差检查；所述聚类预测单元，用于预测数据集的标签，所述数据集的标签包括分类任务、文本生成任务、语音模型概率任务和结构化预测任务；所述提示学习单元用于预测数据集的性能和指标的输出分数，以提示后续任务的机器学习方法；所述数据交互模块包括数据标准化单元、数据编辑器、预处理任务单元、数据增强单元和结果反馈单元，其中，所述预处理任务单元用于通过预处理模型进行自然语言处理任务，以提供用于任务执行的数据集；所述数据增强单元，用于对数据集进行数据补全和增广。
[0007]可选地，对于给定的数据集，采用所述基础表达单元、所述数据表、所述嵌入表达单元、所述偏差分析单元、所述聚类预测单元、所述提示学习单元、所述数据标准化单元、所述数据编辑器、所述预处理任务单元、所述数据增强单元和所述结果反馈中的任意一个模块单元进行单独处理，或者，结合两个或以上的模块单元全量进行处理。
[0008]为了解决上述技术问题，本申请实施例提供一种语料数据库的维护方法，所述语料数据库的维护方法包括：对写入到语料数据库的基础数据集从不同维度进行细粒度分析，确定所述基础数据集的应用类型，所述维度为预先设置好的，所述应用类型包括通用性型和特定任务型；基于所述应用类型，对所述基础数据集进行聚合操作，得到所述基础数据集对应的训练任务；根据所述训练任务，采用预训练语言模型对所述基础数据集进行分析训练，得到目标数据集；在接收到数据交互指令时，采用各个所述目标数据集进行数据交互。
[0009]可选地，在所述对写入到语料数据库的基础数据集从不同维度进行细粒度分析，确定所述基础数据集的应用类型之后，并且，在所述基于所述应用类型，对所述基础数据进行聚合操作，得到所述基础数据集对应的训练任务之前，所述方法还包括：对所述基础数据集进行偏倚分析，所述偏倚分析包括随机误差偏倚计算和系统偏倚计算；其中，所述随机误差偏倚计算基于统计学方法进行估计，以确保抽样算法中随机化原则的完全实施；所述系统偏倚计算将确定数据领域适应性的方向，采用预设标签评估偏倚的大小，并基于所述偏倚的大小，采用对照组数据集的信息进行匹配和筛选，所述对照组数据集为预先根据系统偏倚计算方法所生成。
[0010]可选地，所述数据交互指令包括数据预处理、数据增强和数据搜索。
[0011]可选地，所述数据交互指令为数据增强，所述在接收到数据交互指令时，采用各个所述目标数据集进行数据交互包括：将所述目标数据集进行预处理后，得到标准数据集；采用参考数据集的不同数据偏差扰动，对所述标准数据集进行鲁棒性测试；若所述标准数据集通过鲁棒性测试，则采用预设的数据增广方式进行数据增强处理，其中，所述预设的数据增广方式包括：命名体识别替换、掩码操作和无监督一致性替换。
[0012]可选地，所述数据交互指令为数据搜索，所述在接收到数据交互指令时，采用各个所述目标数据集进行数据交互包括：接收查询语句；通过自然语言任务处理的方式，从所述查询语句中抽取特定词项，或者，使用布尔匹配，通过修正扩展的方式补充所述查询语句，获取用户意图；根据所述特定词项或者所述用户意图，对各个所述目标数据集进行匹配查询匹配，将匹配成功的文档作为目标文档，并采用聚类的方式，获取与目标文档同一类别的文档，作为参考文档，将所述参考文档和所述目标文档作为搜索结果；或者，
将所述特定词项/所述用户意图和所述目标数据集都进行向量化，根据两者交叉特征构建匹配模型并分配模拟参数，通过机器学习方法进行匹配度进行打分，得到检索和排序结果。
[0013]为了解决上述技术问题，本申请实施例提供一种语料数据库的维护装置，所述语料数据库的维护装置包括：数据集分析模块，对写入到语料数据库的基础数据集从不同维度进行细粒度分析，确定所述基础数据集的应用类型，所述维度为预先设置好的，所述应用类型包括通用性型和特定任务型；任务确定模块，用于基于所述应用类型，对所述基础数据集进行聚合操作，得到所述基础数据集对应的训练任务；数据训练模块，用于根据所述训练任务，采用预训练语言模型对所述基础数据集进行分析训练，得到目标数据集；数据集交互模块，用于在接收到数据交互指令时，采用各个所述目标数据集进行数据交互。
[0014]可选地，所述语料数据库的维护装置还包括：偏倚分析模块，用于对所述基础数据集进行偏倚分析，所述偏倚分析包括随机误差偏倚计算和系统偏倚计算；其中，所述随机误差偏倚计算基于统计学方法进行估计，以确保抽样算法中随机化原则的完全实施；所述系统偏倚计算将确定数据领域适应性的方向，采用预设标签评估偏倚的大小，并基于所述偏倚的大小，采用对照组数据集的信息进行匹配和筛选，所述对照组数据集为预先根据系统偏倚计算方法所生成。
[0015]可选地，所述数据交互指令为数据增强，所述数据集交互模块包括：数据预处理单元，用于将所述目标数据集进行预处理后，得到标准数据集；鲁棒性测试单元，用于采用参考数据集的不同数据偏差扰动，对所述标准数据集进行鲁棒性测试；数据增广单元，用于若所述标准数据集通过鲁棒性测试，则采用本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语料数据库，其特征在于，所述语料数据库包括数据分析模块和数据交互模块；所述数据分析模块包括基础表达单元、数据表、嵌入表达单元、偏差分析单元、聚类预测单元和提示学习单元，其中，所述基础表达单元，用于解析数据的基本信息；所述嵌入表达单元，用于通过模型将数据分层嵌入，并投影到多维，以可视化视图浏览数据集特征；所述偏差分析单元，用于根据参考数据集进行数据误差检查；所述聚类预测单元，用于预测数据集的标签，所述数据集的标签包括分类任务、文本生成任务、语音模型概率任务和结构化预测任务；所述提示学习单元用于预测数据集的性能和指标的输出分数，以提示后续任务的机器学习方法；所述数据交互模块包括数据标准化单元、数据编辑器、预处理任务单元、数据增强单元和结果反馈单元，其中，所述预处理任务单元用于通过预处理模型进行自然语言处理任务，以提供用于任务执行的数据集；所述数据增强单元，用于对数据集进行数据补全和增广。2.如权利要求1所述的语料数据库，其特征在于，对于给定的数据集，采用所述基础表达单元、所述数据表、所述嵌入表达单元、所述偏差分析单元、所述聚类预测单元、所述提示学习单元、所述数据标准化单元、所述数据编辑器、所述预处理任务单元、所述数据增强单元和所述结果反馈单元中的任意一个模块单元进行单独处理，或者，结合两个或以上的模块单元全量进行处理。3.一种语料数据库的维护方法，其特征在于，应用于权利要求1或2所述的语料数据库，所述语料数据库的维护方法包括：对写入到语料数据库的基础数据集从不同维度进行细粒度分析，确定所述基础数据集的应用类型，所述维度为预先设置好的，所述应用类型包括通用性型和特定任务型；基于所述应用类型，对所述基础数据集进行聚合操作，得到所述基础数据集对应的训练任务；根据所述训练任务，采用预训练语言模型对所述基础数据集进行分析训练，得到目标数据集；在接收到数据交互指令时，采用各个所述目标数据集进行数据交互。4.如权利要求3所述的语料数据库的维护方法，其特征在于，在所述对写入到语料数据库的基础数据集从不同维度进行细粒度分析，确定所述基础数据集的应用类型之后，并且，在所述基于所述应用类型，对所述基础数据进行聚合操作，得到所述基础数据集对应的训练任务之前，所述方法还包括：对所述基础数据集进行偏倚分析，所述偏倚分析包括随机误差偏倚计算和系统偏倚计算；其中，所述随机误差偏倚计算基于统计学方法进行估计，以确保抽样算法中随机化原则的完全实施；所述系统偏倚计算将确定数据领域适应性的方向，采用预设标签评估偏倚的大小，并基于所述偏倚的大小，采用对照组数据集的信...

【专利技术属性】
技术研发人员：林余楚，古树桦，
申请(专利权)人：深译信息科技珠海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人