语音断句的方法、装置和存储介质制造方法及图纸

技术编号：22170621 阅读：40 留言：0更新日期：2019-09-21 12:10

本申请提供一种语音断句的方法、装置和存储介质，该方法包括：获取待断句语音对应的文本；采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。本实施例提供的方法中通过预先获取的断句模型，能够实现实时对待断句语音进行断句，减少了时延。

Method, device and storage medium of voice sentence breaking

全部详细技术资料下载

【技术实现步骤摘要】
语音断句的方法、装置和存储介质
本申请涉及自然语言处理
，尤其涉及一种语音断句的方法、装置和存储介质。
技术介绍
语音断句，通常应用在对接收到的实时语音断句的场景中。对语音进行和准确的断句，是获取语音准确的语义的前提。例如，在同声传译系统需要对实时获取的语音进行断句，使得翻译系统能够获取实时语音的准确的语义，以进行正确翻译。目前，对语音进行断句的方式通常是先把语音转化成文本进行断句处理，以根据文本的断句结果，对该语音进行断句。现有技术中，对语音转化成的文本进行断句的方式为：获取一段完整的语音对应的文本，根据该文本的语义确定文本的断句位置。该种方式应用在同声传译的场景中时，需要获取完整的语音才能实现语音的断句，造成较大的时延。
技术实现思路
本申请提供一种语音断句的方法、装置和存储介质，能够对语音进行断句，减少时延。本申请的第一方面提供一种语音断句的方法，包括：获取待断句语音对应的文本；采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。可选的，所述待断句语音为第一语音，所述方法还包括：若确定所述文本中不存在断句位置，或确定所述文本的断句位置的可信度小于所述阈值，则将所述第一语音和所述第一语音之后的第二语音作为所述待断句语音，并重新对所述待断句语音进行断句操作，所述第二语音对应的文本包括预设数量个单词。可选的，所述方法还包括：使用历史语音对应的文本对语言模型进行训练，获取所述断句模型...

【技术保护点】
1.一种语音断句的方法，其特征在于，包括：获取待断句语音对应的文本；采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。

【技术特征摘要】
1.一种语音断句的方法，其特征在于，包括：获取待断句语音对应的文本；采用断句模型，确定所述文本的断句位置，以及所述文本的断句位置的可信度，所述断句模型用于表征文本与断句位置、断句位置的可信度的对应关系；若确定所述文本的断句位置的可信度大于阈值，则根据所述文本的断句位置，对所述待断句语音进行断句。2.根据权利要求1所述的方法，其特征在于，所述待断句语音为第一语音，所述方法还包括：若确定所述文本中不存在断句位置，或确定所述文本的断句位置的可信度小于所述阈值，则将所述第一语音和所述第一语音之后的第二语音作为所述待断句语音，并重新对所述待断句语音进行断句操作，所述第二语音对应的文本包括预设数量个单词。3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：使用历史语音对应的文本对语言模型进行训练，获取所述断句模型。4.根据权利要求3所述的方法，其特征在于，所述获取所述断句模型，包括：根据所述历史语音对应的文本，获取训练语句序列，所述训练语句序列中包括多个训练语句，后一个训练语句包括：前一个训练语句、且相较于前一个训练语句增加至少一个单词；根据每个所述训练语句，以及每个所述训练语句的期望断句位置对所述语言模型进行...

【专利技术属性】
技术研发人员：张睿卿，熊皓，张传强，何中军，李芝，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人