标点符号添加方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：19062212 阅读：36 留言：0更新日期：2018-09-29 13:16

本申请涉及一种标点符号添加方法、装置、计算机设备和存储介质。所述方法包括：获取待添加标点符号的目标文本；根据所述目标文本和预设标点符号集构造第一加权有限状态转换机；将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机；对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并；对合并获得的第三加权有限状态转换机中进行最优路径搜索，获得带标点符号的目标文本。采用本方法能够提高对目标文本对应添加的标点符号的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
标点符号添加方法、装置、计算机设备和存储介质
本申请涉及计算机
，特别是涉及一种标点符号添加方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展，出现了语音识别技术，语音识别技术利用计算机从采集到的语音信息中识别出相应的语音内容，即将数字语音信息识别成相应的文本。用户可以基于语音识别技术将语音信息识别成相应的文本，避免了手动输入文本的繁琐，给人们生活带来了便利。目前语音识别技术识别输出的文本是不带标点符号的，而在实际应用中往往需要在输出的文本中添加相应的标点符号，以便于人们阅读理解文本。目前在文本中添加标点符号的方式，主要是利用额外的分类器根据语音信息中停顿时间的长短确定对应添加的标点符号。然而，文本中添加的标点符号和语音信息中停顿时间的长短没有必然的联系，降低了所添加的标点符号的准确性。
技术实现思路
基于此，有必要针对上述技术问题，提供一种能够提高添加的标点符号的准确性的标点符号添加方法、装置、计算机设备和存储介质。一种标点符号添加方法，所述方法包括：获取待添加标点符号的目标文本；根据所述目标文本和预设标点符号集构造第一加权有限状态转换机；将根...

【技术保护点】
1.一种标点符号添加方法，所述方法包括：获取待添加标点符号的目标文本；根据所述目标文本和预设标点符号集构造第一加权有限状态转换机；将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机；对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并；对合并获得的第三加权有限状态转换机中进行最优路径搜索，获得带标点符号的目标文本。

【技术特征摘要】
1.一种标点符号添加方法，所述方法包括：获取待添加标点符号的目标文本；根据所述目标文本和预设标点符号集构造第一加权有限状态转换机；将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机；对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并；对合并获得的第三加权有限状态转换机中进行最优路径搜索，获得带标点符号的目标文本。2.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本和预设标点符号集构造第一加权有限状态转换机，包括：计算所述目标文本的词语个数；根据所述词语个数构造多个的状态节点；分别构造相邻两个状态节点之间的边；根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重，获得相应的第一加权有限状态转换机。3.根据权利要求2所述的方法，其特征在于，所述词语个数为N；所述目标文本中第n个词语的序号表示为n，其中n的取值范围为1至N；所述根据所述词语个数构造多个的状态节点，包括：构造起始状态节点，所述起始状态节点为第0个状态节点；构造第2(n-1)+1个状态节点和第2n个状态节点；所述分别构造相邻两个状态节点之间的边，包括：构造所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边；所述第2(n-1)个状态节点包括所述起始状态节点和所述第2n个状态节点；对应于预设标点符号集中的每个标点符号，分别构造所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边；构造所述第2(n-1)+1个状态节点到所述第2n个状态节点间的第三状态边；所述根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重，包括：在所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边上，添加第n个词语分别作为输入符号和输出符号，并添加权重为0；在每个所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边上，添加对应的预设标点符号集中的标点符号分别作为输入符号和输出符号，并添加权重为0；在所述第2(n-...

【专利技术属性】
技术研发人员：张伟彬，
申请(专利权)人：深圳市声扬科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人