一种基于语义的语音质检方法和装置制造方法及图纸

技术编号:26602258 阅读:21 留言:0更新日期:2020-12-04 21:25
本申请实施例提供了一种基于语义的语音质检方法和装置,该语音质检方法包括:分别获取规则语句和待质检文本;对待质检文本进行分割,获得多个文本片段;利用滑窗算法,将多个文本片段组合成多个候选语句;从多个候选语句中筛选出至少一个目标候选语句;根据规则语句和至少一个目标候选语句,获得语音质检结果。本申请实施例通过对待质检文本进行分割,获得多个文本片段,以及利用滑窗算法,将多个文本片段组合成多个候选语句,即以文本片段为单位进行组合获得多个候选语句,以及还可从多个候选语句中筛选出至少一个目标候选语句,从而减少了后续语义相似度的计算次数,进而提高了语音内容的检索效率。

【技术实现步骤摘要】
一种基于语义的语音质检方法和装置
本申请涉及语音处理领域,具体而言,涉及一种基于语义的语音质检方法和装置。
技术介绍
语音质检是指对语音内容进行检测和分析,判断语音内容是否包含指定必说内容以及是否没有指定禁说内容。通过质检客服(或者坐席)与客户沟通录音,约束其按照作业规范提供服务,保证坐席行为符合公司、行业和监管要求。目前,现有的一种语音质检方法是通过自然语言处理(NaturalLanguageProcessing)技术中语义相似度计算技术检索录音中是否存在指定内容。在实现本专利技术的过程中,专利技术人发现现有技术中存在如下问题:由于现有的语音质检方法需要组合并遍历录音内容中全部语义,从而引起了语音内容检索效率比较低的问题。
技术实现思路
本申请实施例的目的在于提供一种基于语义的语音质检方法和装置,以解决现有使用语义相似度进行语音质检方法中存在着的语音内容检索效率比较低的问题。第一方面,本申请实施例公开了一种基于语义的语音质检方法,该语音质检方法包括:分别获取规则语句和待质检文本,其中,待质检文本是通过对待质检语音进行语音识别后获得的;对待质检文本进行分割,获得多个文本片段;利用滑窗算法,将多个文本片段组合成多个候选语句;从多个候选语句中筛选出至少一个目标候选语句;根据规则语句和至少一个目标候选语句,获得语音质检结果。因此,本申请实施例通过对待质检文本进行分割,获得多个文本片段,以及利用滑窗算法,将多个文本片段组合成多个候选语句,即以文本片段为单位进行组合获得多个候选语句,以及还可从多个候选语句中筛选出至少一个目标候选语句,从而减少了后续语义相似度的计算次数,进而提高了语音内容的检索效率。在一个可能的实施例中,文本片段包括字、词、短语和句子中的一个或其任意组合。在一个可能的实施例中,待质检文本为携带时间信息的文本,对待质检文本进行分割,获得多个文本片段,包括:根据预设符号和时间信息,对待质检文本进行分割,获得多个文本片段。在一个可能的实施例中,根据预设符号和时间信息,对待质检文本进行分割,获得多个文本片段,包括:根据预设符号,对待质检文本进行分割,获得至少一个待比对片段;根据时间信息,确定至少一个待比对片段中每个待比对片段对应的时间;在当前待比对片段对应的时间大于等于第一预设时间的情况下,按照第一预设时间,对当前待比对片段进行分割,获得至少两个文本片段。在一个可能的实施例中,利用滑窗算法,将多个文本片段组合成多个候选语句,包括:获取当前滑窗内的所有文本片段的总长度;在总长度大于等于预设区间的最小值且小于预设区间的最大值的情况下,将所有文本片段组合成一个候选语句,并按照预设步长,将当前滑窗沿着当前滑窗的扩张方向进行扩张,其中,预设区间是根据规则语句确定的。因此,本申请实施例能够通过滑窗算法来精准地获取候选语句。在一个可能的实施例中,语音质检方法还包括:在总长度小于预设区间的最小值的情况下,按照预设步长,将当前滑窗沿着当前滑窗的扩张方向进行扩张。在一个可能的实施例中,语音质检方法还包括:在总长度大于预设区间的最大值的情况下,按照预设步长,将当前滑窗沿着当前滑窗的收缩方向进行收缩。在一个可能的实施例中,预设区间的最小值为第一预设参数和字符个数的乘积值,预设区间的最大值为第二预设参数和字符个数的乘积值,字符个数为规则语句所包含字符的个数。因此,本申请实施例中的预设区间可以根据规则语句来确定,从而能够根据实际需求来确定滑窗的预设区间。在一个可能的实施例中,从多个候选语句中筛选出至少一个目标候选语句,包括:在当前候选语句中的任意两个相邻文本片段之间的时间间隔小于等于第二预设时间的情况下,确定当前候选语句为目标候选语句;或者,在当前候选语句对应的语速大于等于预设语速的情况下,确定当前候选语句为目标候选语句。第二方面,本申请实施例提供了一种基于语义的语音质检装置,该语音质检装置包括:获取模块,用于分别获取规则语句和待质检文本,其中,待质检文本是通过对待质检语音进行语音识别后获得的;分割模块,用于对待质检文本进行分割,获得多个文本片段;组合模块,用于利用滑窗算法,将多个文本片段组合成多个候选语句;筛选模块,用于从多个候选语句中筛选出至少一个目标候选语句;获取模块,还用于根据规则语句和至少一个目标候选语句,获得语音质检结果。第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例提供的一种基于语义的语音质检方法的流程图;图2示出了本申请实施例提供的一种分割待质检文本的方法的示意图;图3示出了本申请实施例提供的一种构建候选语句的方法的示意图;图4示出了本申请实施例提供的一种基于语义的语音质检装置的结构框图;图5是本申请实施例提供的一种电子设备的结构框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。目前,语音质检的第一代技术是通过人工听取录音的方式来进行的;语音质检的第二代技术是通过将录制的录音转换成文本后,从转换后的文本中搜索出与规则语句的文字相同的语句,即其本质是文字相同;语音质检的第三代技术是通过NLP技术计算两个句子之间的相似度,在相似度大于等于预设相似度的情况下,则认为两个句子相同,即其本质是语义相同。其中,前述两个句子中的一个句子可以是希望客服说的内容或者禁止客服说的内容,另外一个句子可以是录音文本中的一个句子。虽然第三代技术可以实现语义的搜索,但是由于语义相似度的计算需要大量计算资源,其可采用穷举法来搜索与规则语句语义相同或者语义相近本文档来自技高网...

【技术保护点】
1.一种基于语义的语音质检方法,其特征在于,包括:/n分别获取规则语句和待质检文本,其中,所述待质检文本是通过对待质检语音进行语音识别后获得的;/n对所述待质检文本进行分割,获得多个文本片段;/n利用滑窗算法,将所述多个文本片段组合成多个候选语句;/n从所述多个候选语句中筛选出至少一个目标候选语句;/n根据所述规则语句和所述至少一个目标候选语句,获得语音质检结果。/n

【技术特征摘要】
1.一种基于语义的语音质检方法,其特征在于,包括:
分别获取规则语句和待质检文本,其中,所述待质检文本是通过对待质检语音进行语音识别后获得的;
对所述待质检文本进行分割,获得多个文本片段;
利用滑窗算法,将所述多个文本片段组合成多个候选语句;
从所述多个候选语句中筛选出至少一个目标候选语句;
根据所述规则语句和所述至少一个目标候选语句,获得语音质检结果。


2.根据权利要求1所述的语音质检方法,其特征在于,所述文本片段包括字、词、短语和句子中的一个或其任意组合。


3.根据权利要求1或2所述的语音质检方法,其特征在于,所述待质检文本为携带时间信息的文本,所述对所述待质检文本进行分割,获得多个文本片段,包括:
根据预设符号和所述时间信息,对所述待质检文本进行分割,获得所述多个文本片段。


4.根据权利要求3所述的语音质检方法,其特征在于,所述根据预设符号和所述时间信息,对所述待质检文本进行分割,获得所述多个文本片段,包括:
根据所述预设符号,对所述待质检文本进行分割,获得至少一个待比对片段;
根据所述时间信息,确定所述至少一个待比对片段中每个待比对片段对应的时间;
在当前待比对片段对应的时间大于等于第一预设时间的情况下,按照所述第一预设时间,对所述当前待比对片段进行分割,获得至少两个文本片段。


5.根据权利要求1所述的语音质检方法,其特征在于,所述利用滑窗算法,将所述多个文本片段组合成多个候选语句,包括:
获取当前滑窗内的所有文本片段的总长度;
在所述总长度大于等于预设区间的最小值且小于所述预设区间的最大值的情况下,将所述所有文本片段组合成一个所述候选语句,并按照预设步长,将所述当前滑窗沿着所述当前滑窗的扩张...

【专利技术属性】
技术研发人员:王建辉吕超杜新凯
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1