文本挖掘方法、装置、终端及存储介质制造方法及图纸

技术编号:22532068 阅读:13 留言:0更新日期:2019-11-13 09:18
本发明专利技术涉及金融科技领域,本发明专利技术公开了一种文本挖掘方法、装置、终端及存储介质,所述文本挖掘方法包括:获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。本发明专利技术解决客服录音文本挖掘精度低,文本挖掘效率低下的技术问题。

Text mining methods, devices, terminals and storage media

The invention relates to the field of financial science and technology. The invention discloses a text mining method, device, terminal and storage medium. The text mining method includes: obtaining customer service recording, performing voice recognition processing on the customer service recording to obtain standard text data; establishing editing distance matrix according to the standard text data and preset standard text, and determining Editing the target backtracking path in the distance matrix; determining the text correspondence according to the target backtracking path, and determining the text variant segment of the standard text data according to the text correspondence; if the text variant segment meets the preset mining conditions, updating the preset standard text according to the text variant segment. The invention solves the technical problems of low accuracy and low efficiency of text mining for customer service recording.

【技术实现步骤摘要】
文本挖掘方法、装置、终端及存储介质
本专利技术涉及金融科技
,尤其涉及一种文本挖掘方法、装置、终端及存储介质。
技术介绍
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融工业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。目前客服行业的质检考核过程通常是抽查审核客服录音,分为人工审核和机器审核两种。由于人工审核缺少客观性,无法全面客观地实现客服录音的质量评估,因此行业更多采用机器审核的方式,但是机器审核较为僵化,只能根据标准样板进行审核,无法深入挖掘客服录音中词句的文本应用,从而无法实现灵活审核,大大降低了质检工作质量和质检效率。因此,如何实现高精度的文本挖掘,提高文本挖掘效率,是当前亟待解决的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种文本挖掘方法、装置、终端及存储介质,旨在解决客服录音文本挖掘精度低,文本挖掘效率低下的技术问题。为实现上述目的,本专利技术实施例提供一种文本挖掘方法,所述文本挖掘方法包括:获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。可选地,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径的步骤包括:根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。可选地,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵的步骤包括:获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。可选地,所述根据所述最小编辑距离确定目标回溯路径的步骤包括:获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。可选地,所述若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本的步骤包括:将所述文本变种片段保存在预设数据库中,并分别统计所述预设数据库中各文本变种片段的数量统计值;若从所有数量统计值中检测到大于预设阈值的目标统计值,则获取所述目标统计值对应的目标变种片段,并获取所述质检要素文本的质检范式;根据所述目标变种片段修改所述质检范式,以获得新的质检要素文本,并将新的质检要素文本同步到所述预设标准话术文本。可选地,所述根据所述目标变种片段修改所述质检范式的步骤包括:根据所述质检要素文本,确定所述目标变种片段的变种类型;若所述变种类型为近似音类型,则根据所述目标变种片段生成近似音容错范式,并将所述近似音容错范式添加至所述质检范式;若所述变种类型为方言音类型,则根据所述目标变种片段生成方言音容错范式,并将所述方言音容错范式添加至所述质检范式。可选地,所述对所述客服录音进行语音识别处理,以获得标准文本数据的步骤包括:对所述客服录音进行语音标准化识别处理,以获得语音文本数据;对所述语音文本数据进行文本分词处理,以获得第一文本数据;对所述第一文本数据进行文本纠错处理,以获得第二文本数据;对所述第二文本数据进行文本改写处理,以获得标准文本数据。本专利技术还提供一种文本挖掘装置,所述文本挖掘装置包括:识别模块,用于获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;建立模块,用于根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;确定模块,用于根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;挖掘模块,用于若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。可选地,所述建立模块包括:建立单元,用于根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;确定单元,用于确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。可选地,所述建立单元包括:第一确定子单元,用于获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;第一获取子单元,用于获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;建立子单元,用于根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。可选地,所述确定单元包括:第二获取子单元,用于获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;第二确定子单元,用于根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。可选地,所述挖掘模块包括:统计单元,用于将所述文本变种片段保存在预设数据库中,并分别统计所述预设数据库中各文本变种片段的数量统计值;检测单元,用于若从所有数量统计值中检测到大于预设阈值的目标统计值,则获取所述目标统计值对应的目标变种片段,并获取所述质检要素文本的质检范式;修改单元,用于根据所述目标变种片段修改所述质检范式,以获得新的质检要素文本,并将新的质检要素文本同步到所述预设标准话术文本。可选地,所述修改单元包括:第三确定子单元,用于根据所述质检要素文本,确定所述目标变种片段的变种类型;第一变种子单元,用于若所述变种类型为近似音类型,则根据所述目标变种片段生成近似音容错范式,并将所述近似音容错范式添加至所述质检范式;第二变种子单元,用于若所述变种类型为方言音类型,则根据所述目标变种片段生成方言音容错范式,并将所述方言音容错范式添加至所述质检范式。可选地,所述识别模块包括:标准化单元,用于对所述客服录音进行语音标准化识别处理,以获得语音文本数据;分词单元,用于对所述语音文本数据进行文本分词处理,以获得第一文本数据;纠错单元,用于对所述第一文本数据进行文本纠错处理,以获得第二文本数据;改写单元,用于对所述第二文本数据进行文本改写处理,以获得标准文本数据。此外,为实现上述目的,本专利技术还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本挖掘程序,其中:所述文本挖掘程序被所述处理器执行时实现如上所述的文本挖掘方法的步骤。此外,为实现上述目的,本专利技术还提供计算机存储介质;所述计算机存储介质上存储有文本挖掘程序,所述文本挖掘程序被处理器执行时实现如上述的文本挖掘方法的步骤。本专利技术获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并本文档来自技高网...

【技术保护点】
1.一种文本挖掘方法,其特征在于,所述文本挖掘方法包括:获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。

【技术特征摘要】
1.一种文本挖掘方法,其特征在于,所述文本挖掘方法包括:获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。2.如权利要求1所述的文本挖掘方法,其特征在于,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径的步骤包括:根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。3.如权利要求2所述的文本挖掘方法,其特征在于,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵的步骤包括:获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。4.如权利要求3所述的文本挖掘方法,其特征在于,所述根据所述最小编辑距离确定目标回溯路径的步骤包括:获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。5.如权利要求4所述的文本挖掘方法,其特征在于,所述若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本的步骤包括:将所述文本变种片段保存在预设数据库中,并分别统计所述预设数据库中各文本变种片段的数量统计值;若从所有数量统计值中检测到大于预设阈值的目标统计值,则获取所述目标统计值对应的目标变...

【专利技术属性】
技术研发人员:张超汤耀华
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1