【技术实现步骤摘要】
一种用于语音识别文本多标签分类的方法和装置
本文公开的主题总体上涉及计算机领域,并且更具体地涉及一种用于语音识别文本多标签分类的方法以及使用该方法的装置。
技术介绍
在金融领域,交易员录音电话由于具有可记录和可追溯的特征,因此是国内外金融市场交易达成的主要方式之一,例如,电话交易承诺与交易邮件、交易单据具备同样的法律效力。由于金融市场交易业务单笔金额大、交易时效性高、专业性较强,其操作风险和合规风险一直是业界关注的热点,因此交易员录音电话也成为内控管理、交易查证的重要手段,是识别和追踪异常交易的重要途经。近年来,从各商业银行的审计检查情况看,一些机构仍然存在交易员违规操作的现象,交易员管理不到位的问题较为突出。但是,由于人力的不足和技术手段的限制,一直以来,大部分交易员录音电话检查只能采取抽查的方式,无法覆盖全部录音电话。并且在检查过程中,也存在检查频率较低、发现问题较为有限等问题,严重影响了录音电话的检查效率。为了更好地规范交易员行为、强化交易岗位管理,需要一种使用人工智能技术对交易员语音文本进行分析,识别 ...
【技术保护点】
1.一种用于执行语音识别文本多标签分类的方法,所述方法包括:/n接收语音数据;/n对所述语音数据执行语音识别,以生成语音文本;/n对所述语音文本执行预处理,以生成预处理的语音文本;/n利用所述预处理的语音文本,使用机器学习进行训练,生成标签分类模型;/n使用所述标签分类模型对新生成的预处理的语音文本进行预测,以生成与所述新生成的预处理的语音文本相对应的标签集合。/n
【技术特征摘要】
1.一种用于执行语音识别文本多标签分类的方法,所述方法包括:
接收语音数据;
对所述语音数据执行语音识别,以生成语音文本;
对所述语音文本执行预处理,以生成预处理的语音文本;
利用所述预处理的语音文本,使用机器学习进行训练,生成标签分类模型;
使用所述标签分类模型对新生成的预处理的语音文本进行预测,以生成与所述新生成的预处理的语音文本相对应的标签集合。
2.根据权利要求1所述的方法,进一步包括:
根据所述语音数据所对应的应用场景,生成产品标签集合,以及
生成术语库,
其中,所述术语库包括针对所述产品标签集合中的每个产品标签的术语。
3.根据权利要求2所述的方法,进一步包括:利用所述产品标签集合对所述语音文本打标签。
4.根据权利要求3所述的方法,其中,对所述语音文本执行预处理进一步包括:
对所述语音文本进行去噪,
将所述术语库融合为一个词库,
将所述词库添加到自定义词典中,使得所述自定义词典与所述标签集合强相关,
利用所述自定义词典对所述语音文本执行分词。
5.根据权利要求4所述的方法,进一步包括:
针对每个标签,计算所述预处理的语音文本的分词的频率特征值,以及
根据所述频率特征值选择对应标签的关键词。
6.根据权利要求5所述的方法,其中,所述频率特征值是词频-逆文本频率(TF-IDF)。
7.根据权利要求5所述的方法,进一步包括:
针对每个标签,计算所述关键词与所述术语库中的术语的语音相似度,
将所述语音相似度与第一阈值比较,如果所述语音相似度等于或大于所述第一阈值,则将所述关键词添加到所述术语库中。
8.根据权利要求7所述的方法,其中,所述第一阈值根据所述语音识别的准确度来设定。
9.根据权利要求5所述的方法,进一步包括:
针对每个标签,计算所述关键词与所述术语库中的术语的语义相似度,
将所述语义相似度与第二阈值比较,如果所述语义相似度等于或大于所述第二阈值,则将所述关键词添加到所述术语库中。
10.根据权利要求9所述的方法,其中,所述第二阈值根据业务场景来设定。
11.根据权利要求4所述的方法,进一步包括:
将所述预处理的语音文本的分词的集合与所述产品术语库做交集运算,
若交集不为空,则打上对应的标签,由此生成第一标签集合。
12.根据权利要求11所述的方法,进一步包括:
通过对所述预处理的语音...
【专利技术属性】
技术研发人员:柯颖,林廷懋,钟伊妮,王周宇,谢雨成,李晓敦,赵世辉,陈铭新,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。