标点符号添加方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:19062212 阅读:19 留言:0更新日期:2018-09-29 13:16
本申请涉及一种标点符号添加方法、装置、计算机设备和存储介质。所述方法包括:获取待添加标点符号的目标文本;根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。采用本方法能够提高对目标文本对应添加的标点符号的准确性。

【技术实现步骤摘要】
标点符号添加方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种标点符号添加方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,出现了语音识别技术,语音识别技术利用计算机从采集到的语音信息中识别出相应的语音内容,即将数字语音信息识别成相应的文本。用户可以基于语音识别技术将语音信息识别成相应的文本,避免了手动输入文本的繁琐,给人们生活带来了便利。目前语音识别技术识别输出的文本是不带标点符号的,而在实际应用中往往需要在输出的文本中添加相应的标点符号,以便于人们阅读理解文本。目前在文本中添加标点符号的方式,主要是利用额外的分类器根据语音信息中停顿时间的长短确定对应添加的标点符号。然而,文本中添加的标点符号和语音信息中停顿时间的长短没有必然的联系,降低了所添加的标点符号的准确性。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高添加的标点符号的准确性的标点符号添加方法、装置、计算机设备和存储介质。一种标点符号添加方法,所述方法包括:获取待添加标点符号的目标文本;根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。在其中一个实施例中,所述根据所述目标文本和预设标点符号集构造第一加权有限状态转换机,包括:计算所述目标文本的词语个数;根据所述词语个数构造多个的状态节点;分别构造相邻两个状态节点之间的边;根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。在其中一个实施例中,所述词语个数为N;所述目标文本中第n个词语的序号表示为n,其中n的取值范围为1至N;所述根据所述词语个数构造多个的状态节点,包括:构造起始状态节点,所述起始状态节点为第0个状态节点;构造第2(n-1)+1个状态节点和第2n个状态节点;所述分别构造相邻两个状态节点之间的边,包括:构造所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边;所述第2(n-1)个状态节点包括所述起始状态节点和所述第2n个状态节点;对应于预设标点符号集中的每个标点符号,分别构造所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边;构造所述第2(n-1)+1个状态节点到所述第2n个状态节点间的第三状态边;所述根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,包括:在所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边上,添加第n个词语分别作为输入符号和输出符号,并添加权重为0;在每个所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边上,添加对应的预设标点符号集中的标点符号分别作为输入符号和输出符号,并添加权重为0;在所述第2(n-1)+1个状态节点到所述第2n个状态节点间的第三状态边上,添加无值标记分别作为输入符号和输出符号,并添加权重为0。在其中一个实施例中,所述方法还包括:获取带标点符号的文本样本;对所述文本样本进行分词;根据分词后的文本样本进行模型训练,获得相应的语言模型。在其中一个实施例中,所述获取待添加标点符号的目标文本包括:获取语音信息;从获取到的语音信息中识别出相应的语音内容;对识别出的语音内容进行分词;将分词后的语音内容作为待添加标点符号的目标文本。一种标点符号添加装置,所述装置包括:目标文本获取模块,用于获取待添加标点符号的目标文本;构造模块,用于根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;转换模块,用于将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;合并模块,用于对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;搜索模块,用于对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。一种计算机设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待添加标点符号的目标文本;根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待添加标点符号的目标文本;根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。上述标点符号添加方法、装置、计算机设备和计算机可读存储介质,根据待添加标点符号的目标文本和预设标点符号集对应构造第一加权有限状态转换机,将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机,并通过对第一加权有限状态转换机和第二加权有限状态转换机进行合并,以获得目标文本中可能添加的标点符号。进一步地,通过在合并获得的第三加权有限状态转换机中搜索最优路径,根据搜索出的最优路径即可对应确定目标文本中添加的标点符号,从而获得待标点符号的目标文本,提高了对应添加的标点符号的准确性。附图说明图1为一个实施例中标点符号添加方法的应用环境图;图2为一个实施例中标点符号添加方法的流程示意图;图3为一个实施例中加权有限状态转换机的结构示意图;图4为一个实施例中已训练的语言模型;图5为另一个实施例中加权有限状态转换机的结构示意图;图6为图3和图5所示的加权有限状态转换机合并获得的加权有限状态转换机的结构示意图;图7为一个实施例中第一加权有限状态转换机的构造方法的流程示意图;图8为一个实施例中根据图7所示的方法构造出的第一加权有限状态转换机的结构示意图;图9为一个实施例中根据已训练的语言模型转换获得的第二加权有限状态转换机的结构示意图;图10为由图8所示的第一加权有限状态转换机和图9所示的第二加权有限状态转换机合并获得的第三加权有限状态转换机的结构示意图;图11为一个具体的实施例中标点符号添加方法的流程示意图;图12为一个实施例中标点符号添加装置的结构框图;图13为另一个实施例中标点符号添加装置的结构框图;图14为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的标点符号添加方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102可用于检测语音信息,根据检测到的语音信息获得待添加标点符号的目标文本,并将目标文本发送至服务器1本文档来自技高网...

【技术保护点】
1.一种标点符号添加方法,所述方法包括:获取待添加标点符号的目标文本;根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。

【技术特征摘要】
1.一种标点符号添加方法,所述方法包括:获取待添加标点符号的目标文本;根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本和预设标点符号集构造第一加权有限状态转换机,包括:计算所述目标文本的词语个数;根据所述词语个数构造多个的状态节点;分别构造相邻两个状态节点之间的边;根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。3.根据权利要求2所述的方法,其特征在于,所述词语个数为N;所述目标文本中第n个词语的序号表示为n,其中n的取值范围为1至N;所述根据所述词语个数构造多个的状态节点,包括:构造起始状态节点,所述起始状态节点为第0个状态节点;构造第2(n-1)+1个状态节点和第2n个状态节点;所述分别构造相邻两个状态节点之间的边,包括:构造所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边;所述第2(n-1)个状态节点包括所述起始状态节点和所述第2n个状态节点;对应于预设标点符号集中的每个标点符号,分别构造所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边;构造所述第2(n-1)+1个状态节点到所述第2n个状态节点间的第三状态边;所述根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,包括:在所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边上,添加第n个词语分别作为输入符号和输出符号,并添加权重为0;在每个所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边上,添加对应的预设标点符号集中的标点符号分别作为输入符号和输出符号,并添加权重为0;在所述第2(n-...

【专利技术属性】
技术研发人员:张伟彬
申请(专利权)人:深圳市声扬科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1