对流式语音识别文本进行断句的方法及装置制造方法及图纸

技术编号:24173597 阅读:39 留言:0更新日期:2020-05-16 03:48
本说明书实施例提供一种对流式语音识别文本进行断句的方法,该方法包括:首先,响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;接着,对流式语音信号进行流式语音识别,得到各个时刻下的识别文本;其中在各个时刻下,针对该时刻下的识别文本进行断句判断,具体包括:先将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,其中已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;接着基于与第一服务对应的多个关键词,对该增量文本进行匹配,得到匹配词集合,以确定文本特征;然后,至少基于该文本特征,判断是否在当前识别文本后进行断句。

The method and device of sentence breaking in the text of convective speech recognition

【技术实现步骤摘要】
对流式语音识别文本进行断句的方法及装置
本说明书实施例涉及自然语言处理
,具体地,涉及一种对流式语音识别文本进行断句的方法及装置。
技术介绍
越来越多的企业、机构推出基于语音交互技术的产品,如语音点餐系统。这类产品利用语音识别、自然语言处理等技术,分析用户的语音输入,以完成相应的操作或任务,如点单操作或点餐任务。在语音交互过程中,为提高用户体验,这类产品需要及时对用户语音输入进行处理,以降低响应延时。这就需要产品能够准确、快速地判断输入语句的完整性,即是否可以对当前语音输入进行断句,以将其分成语义上相对完成的片段,然后再进行后续解析,例如,解析出用户想要购买一杯大可乐。然而,目前对用户语音进行断句的方式过于单一,无法满足实际应用时的多种需求。因此,迫切需要一种合理、有效的方案,可以及时、准确地实现对用户语音的断句,从而提高用户体验。
技术实现思路
本说明书中的一个或多个实施例提供一种对流式语音识别文本进行断句的方法,通过结合服务场景中的特定信息,确定至少反映当前识别文本语义的文本特征,再基于文本特征,对当前识别文本进行断句判断,如此可以实现准确、有效的断句。第一方面,提供一种对流式语音识别文本进行断句的方法,所述方法的执行主体为服务端,所述方法包括:响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本;其中,各个时刻下,针对该时刻下的识别文本进行断句判断,其中断句判断包括:将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;至少基于所述匹配词集合,确定文本特征;至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。在一个实施例中,在判断是否在当前识别文本后进行断句之后,所述方法还包括:在判断出在当前识别文本后进行断句的情况下,将所述增量文本确定为新增语音片段;将所述新增语义片段续接在所述语义片段序列之后,以更新所述已有语义文本。在一个实施例中,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,包括:确定所述当前识别文本与已有语义文本之间的最长公共序列;基于所述最长公共序列,将所述当前识别文本分割为两部分,并将其中不包括所述最长公共序列的部分作为所述增量文本。在一个实施例中,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,包括:确定所述当前识别文本对应的拼音序列与已有语义文本对应的拼音序列之间的最长公共序列;确定所述当前识别文本中对应于所述最长公共序列的公共文本;基于所述公共文本,将所述当前识别文本分割为两部分,并将其中不包括所述公共文本的部分作为所述增量文本。在一个实施例中,所述第一服务为购物服务,所述多个关键词包括若干商品名和若干商品属性。在一个具体的实施例中,所述多个关键词基于以下步骤而预先获取:从所述客户端获取用于向用户展示的商品列表;确定所述商品列表中包括的所述若干商品名和若干商品属性,归入所述多个关键词。在一个更具体的实施例中,确定所述商品列表中包括的所述若干商品名和若干商品属性,包括:基于预先建立的包括多个商品名和多个商品属性的词语库,对所述商品列表进行匹配,得到所述若干商品名和若干商品属性。在一个实施例中,至少基于所述匹配词集合,确定文本特征,包括:确定所述匹配词集合中所包括词语的数量,归入所述文本特征;和/或,基于预先设定的关键词与权重之间的映射关系,确定所述匹配词集合中各个词语对应的权重,归入所述文本特征。在一个实施例中,至少基于所述匹配词集合,确定文本特征,还包括:确定所述增量文本对应的字符数,归入所述文本特征;和/或,确定所述当前识别文本对应的字符数,归入所述文本特征;和/或,确定所述已有语义文本与所述多个关键词相匹配的关键词的总数,归入所述文本特征。在一个实施例中,在至少基于所述文本特征,判断是否在当前识别文本后进行断句之前,所述方法还包括:确定所述当前识别文本对应的当前语音时长;基于所述当前语音时长和在先获取的对应所述已有语义文本的语音时长,确定所述增量文本对应的增量时长;其中,至少基于所述文本特征,判断是否将所述增量文本确定为新增语义片段,包括:至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。在一个具体的实施例中,至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句,包括:根据预设规则,并基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。在一个实施例中,在至少基于所述文本特征,判断是否在当前识别文本后进行断句之前,所述方法还包括:获取在所述流式语音识别过程中确定的声学特征,所述声学特征包括以下中的至少一种:帧能量、过零率、标准化自相关系数和多阶线性预测系数;其中,至少基于所述文本特征,判断是否在当前识别文本后进行断句,包括:将所述文本特征和所述声学特征共同输入预先训练的断句预测模型中,得到预测结果,所述预测结果指示是否在当前识别文本后进行断句。在一个实施例中,在至少基于所述匹配词集合,确定文本特征之前,所述方法还包括:从客户端接收针对所述第一会话的辅助会话内容,所述辅助会话内容由用户基于除语音交互以外的其他交互模式而输入;其中至少基于所述匹配词集合,确定文本特征,包括:基于所述多个关键词,对所述辅助会话内容进行匹配,得到辅助匹配词集合;基于所述匹配词集合和所述辅助匹配词集合,确定所述文本特征。在一个具体的实施例中,所述第一服务为购物服务,所述辅助会话内容包括当前购物车中已有商品的商品信息,和/或对已对购物车发出的操作指令。根据第二方面,提供一种对流式语音识别文本进行断句的装置,所述装置集成于服务端,所述装置包括:第一接收单元,配置为响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;识别单元,配置为对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本;断句单元,配置为在各个时刻下,针对该时刻下的识别文本进行断句判断。所述断句单元具体包括:比对子单元,配置为将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;匹配子单元,配置为基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;确定子单元,配置为至少基于所述匹配词集合,确定文本特征;判断子单元,配置为至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面本文档来自技高网...

【技术保护点】
1.一种对流式语音识别文本进行断句的方法,所述方法的执行主体为服务端,所述方法包括:/n响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;/n对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本;其中,在各个时刻下,针对该时刻下的识别文本进行断句判断,其中断句判断包括:/n将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;/n基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;/n至少基于所述匹配词集合,确定文本特征;/n至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。/n

【技术特征摘要】
1.一种对流式语音识别文本进行断句的方法,所述方法的执行主体为服务端,所述方法包括:
响应于客户端发送的在第一服务中开始第一会话的通知,持续接收客户端采集的针对该第一会话的流式语音信号;
对所述流式语音信号进行流式语音识别,得到各个时刻下的识别文本;其中,在各个时刻下,针对该时刻下的识别文本进行断句判断,其中断句判断包括:
将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,所述已有语义文本是对当前时刻之前的识别文本进行断句而形成的语义片段序列;
基于预先获取的与所述第一服务对应的多个关键词,对所述增量文本进行匹配,得到匹配词集合;
至少基于所述匹配词集合,确定文本特征;
至少基于所述文本特征,判断是否在当前识别文本后进行断句,从而将所述增量文本确定为新增语义片段。


2.根据权利要求1所述的方法,其中,在判断是否在当前识别文本后进行断句之后,所述方法还包括:
在判断出在当前识别文本后进行断句的情况下,将所述增量文本确定为新增语音片段;
将所述新增语义片段续接在所述语义片段序列之后,以更新所述已有语义文本。


3.根据权利要求1所述的方法,其中,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,包括:
确定所述当前识别文本与已有语义文本之间的最长公共序列;
基于所述最长公共序列,将所述当前识别文本分割为两部分,并将其中不包括所述最长公共序列的部分作为所述增量文本。


4.根据权利要求1所述的方法,其中,将当前时刻下的当前识别文本,与已有语义文本进行比对,得到增量文本,包括:
确定所述当前识别文本对应的拼音序列与已有语义文本对应的拼音序列之间的最长公共序列;
确定所述当前识别文本中对应于所述最长公共序列的公共文本;
基于所述公共文本,将所述当前识别文本分割为两部分,并将其中不包括所述公共文本的部分作为所述增量文本。


5.根据权利要求1所述的方法,其中,所述第一服务为购物服务,所述多个关键词包括若干商品名和若干商品属性。


6.根据权利要求5所述的方法,其中,所述多个关键词基于以下步骤而预先获取:
从所述客户端获取用于向用户展示的商品列表;
确定所述商品列表中包括的所述若干商品名和若干商品属性,归入所述多个关键词。


7.根据权利要求6所述的方法,其中,确定所述商品列表中包括的所述若干商品名和若干商品属性,包括:
基于预先建立的包括多个商品名和多个商品属性的词语库,对所述商品列表进行匹配,得到所述若干商品名和若干商品属性。


8.根据权利要求1所述的方法,其中,至少基于所述匹配词集合,确定文本特征,包括:
确定所述匹配词集合中所包括词语的数量,归入所述文本特征;和/或
基于预先设定的关键词与权重之间的映射关系,确定所述匹配词集合中各个词语对应的权重,归入所述文本特征。


9.根据权利要求1所述的方法,其中,至少基于所述匹配词集合,确定文本特征,还包括:
确定所述增量文本对应的字符数,归入所述文本特征;和/或,
确定所述当前识别文本对应的字符数,归入所述文本特征;和/或,
确定所述已有语义文本与所述多个关键词相匹配的关键词的总数,归入所述文本特征。


10.根据权利要求5所述的方法,其中,所述匹配词集合包括商品名集合和商品属性集合;
其中,至少基于所述匹配词集合,确定文本特征,包括:
分别确定所述商品名集合和商品属性集合中所包括词语的数量,归入所述文本特征;和/或,
基于预先设定的商品名与权重之间的映射关系,确定所述商品名集合中各个商品名对应的权重,归入所述文本特征;和/或,
基于预先设定的商品属性与权重之间的映射关系,确定所述商品属性集合中各个商品属性对应的权重,归入所述文本特征。


11.根据权利要求1所述的方法,其中,在至少基于所述文本特征,判断是否在当前识别文本后进行断句之前,所述方法还包括:
确定所述当前识别文本对应的当前语音时长;
基于所述当前语音时长和在先获取的对应所述已有语义文本的语音时长,确定所述增量文本对应的增量时长;
其中,至少基于所述文本特征,判断是否将所述增量文本确定为新增语义片段,包括:
至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。


12.根据权利要求11所述的方法,其中,至少基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句,包括:
根据预设规则,并基于所述文本特征、当前语音时长和增量时长,判断是否在当前识别文本后进行断句。


13.根据权利要求1所述的方法,其中,在至少基于所述文本特征,判断是否在当前识别文本后进行断句之前,所述方法还包括:
获取在所述流式语音识别过程中确定的声学特征,所述声学特征包括以下中的至少一种:帧能量、过零率、标准化自相关系数和多阶线性预测系数;
其中,至少基于所述文本特征,判断是否在当前识别文本后进行断句,包括:
将所述文本特征和所述声学特征共同输入预先训练的断句预测模型中,得到预测结果,所述预测结果指示是否在当前识别文本后进行断句。


14.根据权利要求1所述的方法,其中,在至少基于所述匹配词集合,确定文本特征之前,所述方法还包括:
从客户端接收针对所述第一会话的辅助会话内容,所述辅助会话内容由用户基于除语音交互以外的其他交互模式而输入;
其中至少基于所述匹配词集合,确定文本特征,包括:
基于所述多个关键词,对所述辅助会话内容进行匹配,得到辅助匹配词集合;
基于所述匹配词集合和所述辅助匹配词集合,确定所述文本特征。


15.根据权利要求14所述的方法,其中,所述第一服务为购物服务,所述辅助会话内容包括当前购物车中已有商品的商品信息,和/或,对已对购物车发出的操作指令。


16.一种对流式语音识别文本进...

【专利技术属性】
技术研发人员:刘思叶王世镇周志衡振天董敏亚余睿
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1