一种文本断句的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37506817 阅读：38 留言：0更新日期：2023-05-07 09:43

本申请提供了一种文本断句的方法、装置、电子设备及存储介质，该方法包括：获取待处理文本，该待处理文本为经过语音识别之后得到的无标点的文本；将待处理文本输入到预设神经网络进行处理，得到每一个词后添加预设标点后的概率值；根据每一个词后添加预设标点后的概率值，从预设标点中确定该待处理文本的目标标点和该目标标点的位置，输出添加了目标标点的目标文本。该方法能够在经过语音识别之后得到的文本中添加标点，可以方便用户阅读，避免阅读时出现歧义。时出现歧义。时出现歧义。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本断句的方法、装置、电子设备及存储介质

[0001]本申请涉及语音识别
，尤其涉及一种文本断句的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着科技水平的不断进步，人工智能技术在日常生活中的应用也越来越广泛，比如人工智能技术中的语音识别技术就广泛应用于语音助手、语音翻译等设备或应用中。语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是：利用计算机将获取的人类语音信号自动转换为文本内容的一项技术，再进一步将文本内容转换为计算机可读的输入指令，例如按键、二进制编码或者字符序列等。
[0003]但是现在通过语音识别技术对语音信号进行识别之后输出的结果大多都是没有标点的纯文本内容，这样阅读起来的话会比较困难，有时还会出现歧义，会影响语义的理解效果。
[0004]因此，在阅读经过语音识别后输出的文本内容时，如何提高文本内容的可读性，避免出现歧义及阅读不畅等情况成为亟待解决的问题。

技术实现思路

[0005]本申请提供了...

【技术保护点】

【技术特征摘要】
1.一种文本断句的方法，其特征在于，所述方法包括：获取待处理文本，所述待处理文本为经过语音识别之后得到的无标点的文本；将所述待处理文本输入到预设神经网络进行处理，得到每一个词后添加所述预设标点后的概率值；根据所述每一个词后添加所述预设标点后的概率值，从所述预设标点中确定所述待处理文本的目标标点和所述目标标点的位置，输出添加了所述目标标点的目标文本。2.根据权利要求1所述的方法，其特征在于，所述将所述待处理文本输入到预设神经网络进行处理，得到每一个词后添加所述预设标点后的概率值，包括：通过所述预设神经网络中的断句模型，输出所述待处理文本中每一个词后添加所述预设标点的概率值，其中，所述断句模型中包括经过训练生成的词表，所述词表中每一个词前添加所述预设标点的概率值以及所述词表中每一个词后添加所述预设标点的概率值。3.根据权利要求2所述的方法，所述根据所述每一个词后添加所述预设标点后的概率值，从所述预设标点中确定所述待处理文本的目标标点和所述目标标点的位置，包括：将所述概率值大于或等于预设概率的标点确定为所述待处理文本的目标标点并确定所述目标标点的位置。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：在断句模型的词表中添加新的词表，对所述断句模型进行修复；和/或，在所述断句模型的所述词表中加入场景数据，更新...

【专利技术属性】
技术研发人员：庄文彬，
申请(专利权)人：长城汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人