文本去口语化方法及装置制造方法及图纸

技术编号：22000426 阅读：32 留言：0更新日期：2019-08-31 05:27

本申请提出一种文本去口语化方法及装置，其中方法包括：获取口语化的文本；将文本输入预设的第一端到端学习模型，获取文本对应的操作序列；操作序列中的各个操作符号与文本中的各个字符符号一一对应，用于表示对对应的字符符号的操作动作；根据对应的操作序列，对文本进行删除操作和保留操作，并将操作序列中除删除符号和保留符号之外的操作符号，添加到文本中的对应位置，得到处理后的文本；判断处理后的文本中是否存在修改符号和增加符号；若处理后的文本中不存在修改符号和增加符号，则将处理后的文本，确定为口语化的文本对应的去口语化文本，该方法对口语化信息文本进行去口语化，提升了翻译后的文本的准确度和流畅度。

Text Decollorization Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
文本去口语化方法及装置
本申请涉及数据处理
，尤其涉及一种文本去口语化方法及装置。
技术介绍
目前，针对带口语信息的文本，不会进行去口语化，是直接对该文本进行翻译处理，得到翻译后的文本，导致翻译后的文本的准确度低。
技术实现思路
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请的第一个目的在于提出一种文本去口语化方法，该方法对口语化信息文本进行去口语化，提升了翻译后的文本的准确度和流畅度。本申请的第二个目的在于提出一种文本去口语化装置。本申请的第三个目的在于提出另一种文本去口语化装置。本申请的第四个目的在于提出一种计算机可读存储介质。本申请的第五个目的在于提出一种计算机程序产品。为达上述目的，本申请第一方面实施例提出了一种文本去口语化方法，包括：获取口语化的文本；将所述文本输入预设的第一端到端学习模型，获取所述文本对应的操作序列；所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应，用于表示对对应的字符符号的操作动作；所述操作符号包括：删除符号、保留符号、修改符号和增加符号；根据所述对应的操作序列，对所述文本进行删除操作和保留操作，并将所述操作序列中除删除符号和保留符号之外的操作符号，添加到所述文本中的对应位置，得到处理后的文本；判断所述处理后的文本中是否存在修改符号和增加符号；若所述处理后的文本中不存在修改符号和增加符号，则将所述处理后的文本，确定为所述口语化的文本对应的去口语化文本。本申请实施例的文本去口语化方法，通过获取口语化的文本；将所述文本输入预设的第一端到端学习模型，获取所述文本对应的操作序列；所述操作序列...

【技术保护点】
1.一种文本去口语化方法，其特征在于，包括：获取口语化的文本；将所述文本输入预设的第一端到端学习模型，获取所述文本对应的操作序列；所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应，用于表示对对应的字符符号的操作动作；所述操作符号包括：删除符号、保留符号、修改符号和增加符号；根据所述对应的操作序列，对所述文本进行删除操作和保留操作，并将所述操作序列中除删除符号和保留符号之外的操作符号，添加到所述文本中的对应位置，得到处理后的文本；判断所述处理后的文本中是否存在修改符号和增加符号；若所述处理后的文本中不存在修改符号和增加符号，则将所述处理后的文本，确定为所述口语化的文本对应的去口语化文本。

【技术特征摘要】
1.一种文本去口语化方法，其特征在于，包括：获取口语化的文本；将所述文本输入预设的第一端到端学习模型，获取所述文本对应的操作序列；所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应，用于表示对对应的字符符号的操作动作；所述操作符号包括：删除符号、保留符号、修改符号和增加符号；根据所述对应的操作序列，对所述文本进行删除操作和保留操作，并将所述操作序列中除删除符号和保留符号之外的操作符号，添加到所述文本中的对应位置，得到处理后的文本；判断所述处理后的文本中是否存在修改符号和增加符号；若所述处理后的文本中不存在修改符号和增加符号，则将所述处理后的文本，确定为所述口语化的文本对应的去口语化文本。2.根据权利要求1所述的方法，其特征在于，还包括：若所述处理后的文本中存在修改符号和/或增加符号，则将所述处理后的文本输入预设的第二端到端学习模型，获取所述口语化的文本对应的去口语化文本。3.根据权利要求1所述的方法，其特征在于，将所述文本输入预设的第一端到端学习模型，获取所述文本对应的操作序列之前，还包括：获取经过预训练的第一端到端学习模型；获取第一训练数据，所述第一训练数据包括：大于预设数量的口语化的文本样本，以及各个文本样本对应的操作序列；采用所述第一训练数据对经过预训练的第一端到端学习模型进行训练，得到所述预设的第一端到端学习模型。4.根据权利要求2所述的方法，其特征在于，将所述处理后的文本输入预设的第二端到端学习模型，获取所述口语化的文本对应的去口语化文本之前，还包括：获取经过预训练的第二端到端学习模型；获取第二训练数据，所述第二训练数据包括：大于预设数量的添加有修改符号和/或增加符号的文本样本，以及对应的去口语化文本样本；采用所述第二训练数据，对所述经过预训练的第二端到端学习模型进行训练，得到所述预设的第二端到端学习模型。5.根据权利要求1所述的方法，其特征在于，所述第一端到端学习模型和所述第二端到端学习模型，为翻译模型。6.一种文本去口语化装置，其特征在于，包括：获取模块，用于获取口语化的文本；输入模块，用于将所述文本输入预设的第一端到端学习模型，获取所述文本对应的操作序列；所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应，用于表示对对应的字符符号的操作动作...

【专利技术属性】
技术研发人员：熊皓，张睿卿，曲宇涛，张传强，何中军，李芝，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人