【技术实现步骤摘要】
确定重复录音片段的方法、装置、电子设备和存储介质
[0001]本申请涉及深度学习
,尤其涉及一种确定重复录音片段的的方法、装置、电子设备和存储介质。
技术介绍
[0002]在办公数字化的趋势下,通过语音采集设备也逐步实现线下办公场景(如超市的销售、营业厅的业务办理场景等)的数字化,即通过多个语音采集设备采集语音,监听并标记出重复录音片段,然后通过AI技术实现文字转换、信息处理、业务数据提取等。
[0003]目前提取重复录音片段采用人工方式,即数据专员对多个语音采集设备采集的语音数据分别监听,标记出重复录音片段。
[0004]针对当前采用人工方式提取重复录音片段准确率低的问题,目前尚无良好的解决方案。
技术实现思路
[0005]本申请实施例的目的在于提供一种确定重复录音片段的的方法、装置、电子设备和存储介质,以解决人工方式提取重复录音片段准确率低的问题。具体技术方案如下:
[0006]第一方面,提供了一种确定重复录音片段的方法,所述方法包括:
[0007]获取同一门店中每个 ...
【技术保护点】
【技术特征摘要】
1.一种确定重复录音片段的方法,其特征在于,所述方法包括:获取同一门店中每个语音采集设备的语音文本信息,其中,所述语音文本信息包括每条语音对应的语音文本和语音始末时刻;根据所述语音始末时刻,从多条所述语音文本中选取满足预设条件的多对候选文本片段,其中,每对候选文本片段包括两个语音采集设备中的语音文本,所述候选文本片段包括每个语音采集设备的至少一条语音文本;从所述候选文本片段中选取文本内容相似度最小的目标文本片段;若所述目标文本片段的相似度小于预设阈值,则将所述目标文本片段对应的录音作为重复录音片段。2.根据权利要求1所述的方法,其特征在于,根据所述语音始末时刻,从多条所述语音文本中选取满足预设条件的多对候选文本片段包括:从两个语音采集设备的语音文本开始位置处,将语音起始时刻差值在第一时长范围内的初始语音文本作为候选文本片段;从初始语音文本后的每条语音文本开始执行如下操作:若两个语音采集设备中属于同一层级语音文本的语音结束时刻差值在第二时长范围内,则将所述初始语音文本至当前语音文本作为候选文本片段,直至所述两个语音采集设备的当前语音文本的语音结束时刻差值超出所述第二时长范围,或当前候选文本片段的片段时长超出预设时长阈值。3.根据权利要求1所述的方法,其特征在于,从所述候选文本片段中选取文本内容相似度最小的目标文本片段之前,所述方法还包括:确定每对候选文本片段中两个文本片段之间的文本编辑距离,其中,每个文本片段对应一个语音采集设备;确定所述候选文本片段中两个文本片段的文本长度和值;将所述文本编辑距离和所述长度和值的商值作为候选文本片段的文本内容相似度。4.根据权利要求1所述的方法,其特征在于,所述获取同一门店中每个语音采集设备的语音文本信息包括:将每个门店中每个语音采集设备采集的语音识别为语音文本;确定每个语音文本的属性,其中,所述属性包括语音文本的所属门店、所属设备、文本内容、语音起始时刻和语音结束时刻;获取同一门店同一语音采集设备中的文本数据流;将所述文本数据流中的语音文本按照语音起始时...
【专利技术属性】
技术研发人员:赵亮,姜平,史佳艳,何敏,
申请(专利权)人:北京明略昭辉科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。