语料修正方法、装置、计算机设备和计算机可读存储介质制造方法及图纸

技术编号：24354674 阅读：37 留言：0更新日期：2020-06-03 02:18

本申请涉及一种语料修正方法、装置、计算机设备和计算机可读存储介质。所述语料修正方法包括：获取文本语料；所述文本语料包括待修正语料；根据所述待修正语料在所述文本语料中的位置，对所述文本语料进行切分，得到包括所述待修正语料的目标语料段；将所述目标语料段中的所述待修正语料替换为对应的无声调拼音语料，并将替换后的目标语料段输入至命名实体识别模型中，得到所述目标语料段中各语料的修正标签。采用本方法能够提升将语音内容转换成文字结果时的转换准确率。

Corpus correction methods, devices, computer equipment and computer-readable storage media

全部详细技术资料下载

【技术实现步骤摘要】
语料修正方法、装置、计算机设备和计算机可读存储介质
本专利技术涉及语音识别
，特别是涉及一种语料修正方法、装置、计算机设备和计算机可读存储介质。
技术介绍
随着互联网技术的高速发展，人工智能逐渐从概念相继落地，应用于社会的各个领域。近年来，语音识别技术取得了显著的进步，开始从实验室走向市场。语音识别技术因其广泛的通用性，在各个领域均有涉及，例如，工业、气象、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等领域。在航空气象领域中，气象会商时，语音识别系统会将识别到的气象播报语音内容转换成文字结果，并打印成文档资料以便于使用。但是，在将语音内容转换成文字结果时，容易受到语音播报的背景声音以及播报人员的主观因素影响，产生转换错误。
技术实现思路
基于此，有必要针对上述技术问题，提供一种能够提升语音内容转换成文字结果时的转换准确率的语料修正方法、装置、计算机设备和计算机可读存储介质。第一方面，本申请实施例提供了一种语料修正方法，所述语料修正方法包括：获取文本语料；所述文本...

【技术保护点】
1.一种语料修正方法，其特征在于，所述方法包括：/n获取文本语料；所述文本语料包括待修正语料；/n根据所述待修正语料在所述文本语料中的位置，对所述文本语料进行切分，得到包括所述待修正语料的目标语料段；/n将所述目标语料段中的所述待修正语料替换为对应的无声调拼音语料，并将替换后的目标语料段输入至命名实体识别模型中，得到所述目标语料段中各语料的修正标签。/n

【技术特征摘要】
1.一种语料修正方法，其特征在于，所述方法包括：
获取文本语料；所述文本语料包括待修正语料；
根据所述待修正语料在所述文本语料中的位置，对所述文本语料进行切分，得到包括所述待修正语料的目标语料段；
将所述目标语料段中的所述待修正语料替换为对应的无声调拼音语料，并将替换后的目标语料段输入至命名实体识别模型中，得到所述目标语料段中各语料的修正标签。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待修正语料在所述文本语料中的位置，对所述文本语料进行切分，得到包括所述待修正语料的目标语料段，包括：
以所述待修正语料在所述文本语料中的位置为滑窗中心，采用预设长度的滑窗从所述文本语料中切分目标语料段；所述目标语料段包括所述待修正语料以及与所述待修正语料相邻的多个中文语料。

3.根据权利要求1所述的方法，其特征在于，所述命名实体识别模型的训练过程包括：
获取多个具有预设长度的训练语料段；所述训练语料段是采用滑窗从训练文本语料中切分的；
将所述训练语料段中的目标语料替换为对应的无声调拼音语料，得到替换后的训练语料段；
对所述替换后的训练语料段中的各语料分别添加对应的中文标签；
根据各所述替换后的训练语料段及对应的中文标签，训练预设的第一初始网络模型，得到所述命名实体识别模型。

4.根据权利要求3所述的方法，其特征在于，所述获取多个具有预设长度的训练语料段，包括：
基于爬取到的语料数据，构建语料库；
从所述语料库中获取原始文本语料；
对所述原始文本语料进行数据预处理，获取所述训练文本语料；
采用滑窗从所述训练文本语料中切分得到多个具有预设长度的训练语料段，所述训练语料段包括所述目标语料以及与所述目标语料相邻的多个中文语料。

5.根据权利要求3或4所述的方法，其特征在于，所述根据各所述替换后的训练语料段及对应的中文标签，训练预设的第一初始网络模型，得到所述命名实体识别模型，包括：
采用预设...

【专利技术属性】
技术研发人员：周康明，陈猛，
申请(专利权)人：上海眼控科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人