语音转录文本质量评估方法、装置、终端及可读存储介质制造方法及图纸

技术编号:19934151 阅读:23 留言:0更新日期:2018-12-29 04:32
本发明专利技术提供了一种语音转录文本质量评估方法、装置、终端及可读存储介质,其中,该方法包括如下步骤:根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布;将主题概率分布进行聚类得到质量评估结果。上述方法先根据LDA主题模型得到主题概率分布,之后根据主题概率分布进行聚类得到聚类结果,并将聚类结果与质量评估结果对应,根据质量评估结果可直观得出转录文本的质量,这样便无需人工进行质量核对,提高了质量评估效率。

【技术实现步骤摘要】
语音转录文本质量评估方法、装置、终端及可读存储介质
本专利技术涉及语音转录文本领域,具体涉及一种语音转录文本质量评估方法、装置、终端及可读存储介质。
技术介绍
国家电网有限公司经营范围覆盖27省公司及全部地市,国网客服中心每天产生10万到15万条通话记录,通话的语音转录文本可以通过大量的文本分析挖掘用户的诉求和意图,同时发掘重大事件等信息,具备重要价值。但是,现有的语音转录文本工具经常出现转录文本信息错误,编码错误,转录文本存在较为严重的质量问题,为后期的样本生成和语义理解增加了难度,需要人工对这些转录文本进行质量评估,故存在人工工作量大和质量评估效率低的缺陷。
技术实现思路
因此,本专利技术要解决的技术问题在于克服现有技术中的语音转录文本质量评估效率低的缺陷。为此,本专利技术提供如下技术方案:本专利技术第一方面,提供一种语音转录文本质量评估方法,包括如下步骤:根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布;将所述主题概率分布进行聚类得到质量评估结果。可选地,通过如下公式得到主题概率分布,p(z|α)=∫p(z|θ)Dir(θ|α)dθ其中,θ为服从多项式分布的参数;α为主题的狄里克雷先验分布的超参数,由不同的α可以产生不同的主题混合分布;z为文档的每个主题。可选地,根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前,还包括:根据训练语音转录文档集对LDA主题模型进行模型参数优化。可选地,根据训练语音转录文档集对LDA主题模型进行模型参数优化的步骤中,包括:根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布;将所述训练主题概率分布进行聚类得到聚类结果;根据所述聚类结果和所述训练词在主题上的分布进行模型参数优化。可选地,通过如下公式得到训练词在主题上的分布,p(w|z)=p(w|z,β)=∫p(w|z,φ)Dir(φ|β)dφ其中,为主题的词项分布;β为主题中词项的先验分布的超参数;w为具体的词;z为文档的每个主题。可选地,根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前,还包括:对待测试语音转录文档集中待测试语音转录文本进行预处理。可选地,通过如下公式对所述主题概率分布进行聚类,其中,A和B分别表示两个文本的主题向量;A·B为向量的点积;||A||||B||为向量的叉积。本专利技术第二方面,提供一种语音转录文本质量评估装置,包括:第一获取模块,用于根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布;第一处理模块,用于将所述主题概率分布进行聚类得到质量评估结果。可选地,还包括:第二处理模块,用于根据训练语音转录文档集对LDA主题模型进行模型参数优化。可选地,所述第二处理模块包括:第一获取单元,用于根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布;第一处理单元,用于将所述训练主题概率分布进行聚类得到聚类结果;第二处理单元,用于根据所述聚类结果和所述训练词在主题上的分布进行模型参数优化。可选地,还包括:第三处理模块,用于对待测试语音转录文档集中待测试语音转录文本进行预处理。本专利技术第三方面,提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本专利技术第一方面中任一所述的语音转录文本质量评估方法。本专利技术第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本专利技术第一方面中任一所述的语音转录文本质量评估方法。本专利技术技术方案,具有如下优点:本专利技术提供的语音转录文本质量评估方法,包括如下步骤:根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布;将所述主题概率分布进行聚类得到质量评估结果。上述方法先根据LDA主题模型得到主题概率分布,之后根据主题概率分布进行聚类得到聚类结果,并将聚类结果与质量评估结果对应,根据质量评估结果可直观得出转录文本的质量,这样便无需人工进行质量核对,减少了人工工作量,提高了质量评估效率。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中语音转录文本质量评估方法的一个具体示例的流程图;图2为本专利技术实施例中语音转录文本质量评估方法的另一个具体示例的流程图;图3为本专利技术实施例中语音转录文本质量评估方法的另一个具体示例的流程图;图4为本专利技术实施例中语音转录文本质量评估方法的另一个具体示例的流程图;图5为本专利技术实施例中语音转录文本质量评估方法的LDA图模型;图6为本专利技术实施例中语音转录文本质量评估装置的一个具体示例的框图;图7为本专利技术实施例中终端的结构示意图。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。本实施例提供一种语音转录文本质量评估方法,用于对语音转录文本进行质量检查,提高质量评估效率,如图1所示,包括如下步骤:为了提高待测试语音转录文本的准确率和效率,如图2所示,在根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的概率分布的步骤之前,还包括步骤S1:S1:对待测试语音转录文档集中待测试语音转录文本进行预处理。在本实施例中,待测试语音包括多个未加工的国网客服通话语音,待测试语音转录文档集包括多个国网客服通话语音转录文本。为了得到统一编码格式的文本样本,需要对上述待本文档来自技高网...

【技术保护点】
1.一种语音转录文本质量评估方法,其特征在于,包括如下步骤:根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布;将所述主题概率分布进行聚类得到质量评估结果。

【技术特征摘要】
1.一种语音转录文本质量评估方法,其特征在于,包括如下步骤:根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布;将所述主题概率分布进行聚类得到质量评估结果。2.根据权利要求1所述的语音转录文本质量评估方法,其特征在于,通过如下公式得到主题概率分布,p(z|α)=∫p(z|θ)Dir(θ|α)dθ其中,θ为服从多项式分布的参数;α为主题的狄里克雷先验分布的超参数,由不同的α可以产生不同的主题混合分布;z为文档的每个主题。3.根据权利要求1所述的语音转录文本质量评估方法,其特征在于,根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前,还包括:根据训练语音转录文档集对LDA主题模型进行模型参数优化。4.根据权利要求3所述的语音转录文本质量评估方法,其特征在于,根据训练语音转录文档集对LDA主题模型进行模型参数优化的步骤中,包括:根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布;将所述训练主题概率分布进行聚类得到聚类结果;根据所述聚类结果和所述训练词在主题上的分布进行模型参数优化。5.根据权利要求4所述的语音转录文本质量评估方法,其特征在于,通过如下公式得到训练词在主题上的分布,p(w|z)=p(w|z,β)=∫p(w|z,φ)Dir(φ|β)dφ其中,为主题的词项分布;β为主题中词项的先验分布的超参数;w为具体的词;z为文档的每个主题。6.根据权利要求1-5任一所述的语音转录文本质量评估方法,其特征在于,根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前,还包括:对待测试语音转录文档集中待测试语音转录文本进行...

【专利技术属性】
技术研发人员:张强宋博川吴鹏柴博盛妍朱龙珠林国强陈其鹏
申请(专利权)人:全球能源互联网研究院有限公司国网浙江省电力有限公司国家电网有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1