文本去口语化方法及装置制造方法及图纸

技术编号:22000426 阅读:32 留言:0更新日期:2019-08-31 05:27
本申请提出一种文本去口语化方法及装置,其中方法包括:获取口语化的文本;将文本输入预设的第一端到端学习模型,获取文本对应的操作序列;操作序列中的各个操作符号与文本中的各个字符符号一一对应,用于表示对对应的字符符号的操作动作;根据对应的操作序列,对文本进行删除操作和保留操作,并将操作序列中除删除符号和保留符号之外的操作符号,添加到文本中的对应位置,得到处理后的文本;判断处理后的文本中是否存在修改符号和增加符号;若处理后的文本中不存在修改符号和增加符号,则将处理后的文本,确定为口语化的文本对应的去口语化文本,该方法对口语化信息文本进行去口语化,提升了翻译后的文本的准确度和流畅度。

Text Decollorization Method and Device

【技术实现步骤摘要】
文本去口语化方法及装置
本申请涉及数据处理
,尤其涉及一种文本去口语化方法及装置。
技术介绍
目前,针对带口语信息的文本,不会进行去口语化,是直接对该文本进行翻译处理,得到翻译后的文本,导致翻译后的文本的准确度低。
技术实现思路
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种文本去口语化方法,该方法对口语化信息文本进行去口语化,提升了翻译后的文本的准确度和流畅度。本申请的第二个目的在于提出一种文本去口语化装置。本申请的第三个目的在于提出另一种文本去口语化装置。本申请的第四个目的在于提出一种计算机可读存储介质。本申请的第五个目的在于提出一种计算机程序产品。为达上述目的,本申请第一方面实施例提出了一种文本去口语化方法,包括:获取口语化的文本;将所述文本输入预设的第一端到端学习模型,获取所述文本对应的操作序列;所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应,用于表示对对应的字符符号的操作动作;所述操作符号包括:删除符号、保留符号、修改符号和增加符号;根据所述对应的操作序列,对所述文本进行删除操作和保留操作,并将所述操作序列中除删除符号和保留符号之外的操作符号,添加到所述文本中的对应位置,得到处理后的文本;判断所述处理后的文本中是否存在修改符号和增加符号;若所述处理后的文本中不存在修改符号和增加符号,则将所述处理后的文本,确定为所述口语化的文本对应的去口语化文本。本申请实施例的文本去口语化方法,通过获取口语化的文本;将所述文本输入预设的第一端到端学习模型,获取所述文本对应的操作序列;所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应,用于表示对对应的字符符号的操作动作;所述操作符号包括:删除符号、保留符号、修改符号和增加符号;根据所述对应的操作序列,对所述文本进行删除操作和保留操作,并将所述操作序列中除删除符号和保留符号之外的操作符号,添加到所述文本中的对应位置,得到处理后的文本;判断所述处理后的文本中是否存在修改符号和增加符号;若所述处理后的文本中不存在修改符号和增加符号,则将所述处理后的文本,确定为所述口语化的文本对应的去口语化文本。该方法对口语化信息文本进行去口语化,提升了翻译后的文本的准确度和流畅度。为达上述目的,本申请第二方面实施例提出了一种文本去口语化装置,包括:获取模块,用于获取口语化的文本;输入模块,用于将所述文本输入预设的第一端到端学习模型,获取所述文本对应的操作序列;所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应,用于表示对对应的字符符号的操作动作;所述操作符号包括:删除符号、保留符号、修改符号和增加符号;处理模块,用于根据所述对应的操作序列,对所述文本进行删除操作和保留操作,并将所述操作序列中除删除符号和保留符号之外的操作符号,添加到所述文本中的对应位置,得到处理后的文本;判断模块,用于判断所述处理后的文本中是否存在修改符号和增加符号;确定模块,用于在所述处理后的文本中不存在修改符号和增加符号时,将所述处理后的文本,确定为所述口语化的文本对应的去口语化文本。本申请实施例的文本去口语化装置,通过获取口语化的文本;将所述文本输入预设的第一端到端学习模型,获取所述文本对应的操作序列;所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应,用于表示对对应的字符符号的操作动作;所述操作符号包括:删除符号、保留符号、修改符号和增加符号;根据所述对应的操作序列,对所述文本进行删除操作和保留操作,并将所述操作序列中除删除符号和保留符号之外的操作符号,添加到所述文本中的对应位置,得到处理后的文本;判断所述处理后的文本中是否存在修改符号和增加符号;若所述处理后的文本中不存在修改符号和增加符号,则将所述处理后的文本,确定为所述口语化的文本对应的去口语化文本。该方法对口语化信息文本进行去口语化,提升了翻译后的文本的准确度和流畅度。为达上述目的,本申请第三方面实施例提出了另一种文本去口语化装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的文本去口语化方法。为了实现上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本去口语化方法。为了实现上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的文本去口语化方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本申请第一个实施例的一种文本去口语化方法的流程示意图;图2是根据本申请第二个实施例的一种文本去口语化方法的流程示意图;图3是根据本申请第三个实施例的一种文本去口语化方法的流程示意图;图4是根据本申请第一个实施例的一种文本去口语化装置的结构示意图;图5是根据本申请第二个实施例的一种文本去口语化装置的结构示意图;图6是根据本申请第三个实施例的一种文本去口语化装置的结构示意图;图7是根据本申请一个实施例的另一种文本去口语化装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的文本去口语化方法及装置。图1为本申请实施例提供的一种文本去口语化方法的流程示意图。如图1所示,该文本去口语化方法包括以下步骤:步骤101,获取口语化的文本。具体地,口语化的文本是指带有口语化特征的文本。例如,“嗯,啊,今天我想,我想给大家带来的是”。口语化的文本可在演讲者的演讲记录文本中进行截取以获取,也可以是通过采集语音演讲者语音进行识别,获得相应的口语化特征文字文本。步骤102,将文本输入预设的第一端到端学习模型,获取文本对应的操作序列;操作序列中的各个操作符号与文本中的各个字符符号一一对应,用于表示对对应的字符符号的操作动作;操作符号包括:删除符号、保留符号、修改符号和增加符号。在本申请实施例中,获取到口语化文本后,将口语化文本输入预设的第一端到端学习模型中,该预设的第一端到端学习模型输出相应的操作序列。其中需要说明的是,操作序列是由一串操作符号按照顺序排列构成。操作符号可包括:删除符号、保留符号、修改符号和增加符号。另外,还需要说明的是,操作序列中的各个操作符号与文本中的各个字符符号一一对应,其中,字符符号包括字符和符号。例如,一段口语化文本中,其中,汉字、英文字符等为字符,标点符号为符号。操作符号用于表示对对应的字符符号的操作动作。也就是说,删除符号表示文本中对应的字符需要删除,保留符号表示文本中对应的字符保持原样,修改符号表示文本中对应的字符需要修改,增加符号表示文本中对应的字符需要增加。举例而言,将口语化文本“嗯,啊,今天我想,我想给大家带来的是”输入预设的第一端到端学习模型中,该模型本文档来自技高网...

【技术保护点】
1.一种文本去口语化方法,其特征在于,包括:获取口语化的文本;将所述文本输入预设的第一端到端学习模型,获取所述文本对应的操作序列;所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应,用于表示对对应的字符符号的操作动作;所述操作符号包括:删除符号、保留符号、修改符号和增加符号;根据所述对应的操作序列,对所述文本进行删除操作和保留操作,并将所述操作序列中除删除符号和保留符号之外的操作符号,添加到所述文本中的对应位置,得到处理后的文本;判断所述处理后的文本中是否存在修改符号和增加符号;若所述处理后的文本中不存在修改符号和增加符号,则将所述处理后的文本,确定为所述口语化的文本对应的去口语化文本。

【技术特征摘要】
1.一种文本去口语化方法,其特征在于,包括:获取口语化的文本;将所述文本输入预设的第一端到端学习模型,获取所述文本对应的操作序列;所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应,用于表示对对应的字符符号的操作动作;所述操作符号包括:删除符号、保留符号、修改符号和增加符号;根据所述对应的操作序列,对所述文本进行删除操作和保留操作,并将所述操作序列中除删除符号和保留符号之外的操作符号,添加到所述文本中的对应位置,得到处理后的文本;判断所述处理后的文本中是否存在修改符号和增加符号;若所述处理后的文本中不存在修改符号和增加符号,则将所述处理后的文本,确定为所述口语化的文本对应的去口语化文本。2.根据权利要求1所述的方法,其特征在于,还包括:若所述处理后的文本中存在修改符号和/或增加符号,则将所述处理后的文本输入预设的第二端到端学习模型,获取所述口语化的文本对应的去口语化文本。3.根据权利要求1所述的方法,其特征在于,将所述文本输入预设的第一端到端学习模型,获取所述文本对应的操作序列之前,还包括:获取经过预训练的第一端到端学习模型;获取第一训练数据,所述第一训练数据包括:大于预设数量的口语化的文本样本,以及各个文本样本对应的操作序列;采用所述第一训练数据对经过预训练的第一端到端学习模型进行训练,得到所述预设的第一端到端学习模型。4.根据权利要求2所述的方法,其特征在于,将所述处理后的文本输入预设的第二端到端学习模型,获取所述口语化的文本对应的去口语化文本之前,还包括:获取经过预训练的第二端到端学习模型;获取第二训练数据,所述第二训练数据包括:大于预设数量的添加有修改符号和/或增加符号的文本样本,以及对应的去口语化文本样本;采用所述第二训练数据,对所述经过预训练的第二端到端学习模型进行训练,得到所述预设的第二端到端学习模型。5.根据权利要求1所述的方法,其特征在于,所述第一端到端学习模型和所述第二端到端学习模型,为翻译模型。6.一种文本去口语化装置,其特征在于,包括:获取模块,用于获取口语化的文本;输入模块,用于将所述文本输入预设的第一端到端学习模型,获取所述文本对应的操作序列;所述操作序列中的各个操作符号与所述文本中的各个字符符号一一对应,用于表示对对应的字符符号的操作动作...

【专利技术属性】
技术研发人员:熊皓张睿卿曲宇涛张传强何中军李芝吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1