文本主题的分类提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38482792 阅读：18 留言：0更新日期：2023-08-15 16:59

本发明专利技术公开了一种文本主题的分类提取方法、装置、电子设备及存储介质。其中，所述文本主题的分类提取方法包括获取多个转译文本，确定每个所述转译文本的文本向量，以得到文本向量集合；确定目标超参，基于所述目标超参，通过k均值聚类算法对输入的所述文本向量集合进行聚类，得到至少一个文本类别集合；针对每个所述文本类别集合，基于聚焦度和精炼度确定目标文本，根据所述目标文本确定所述文本类别集合的文本主题，其中，所述聚焦度和所述精炼度与所述转译文本的分词数量相关联。基于本发明专利技术实施例的技术方案，能够在提高对文本类别集合聚类的精准性基础上，提高针对每个文本类别集合所确定的文本主题的准确性。所确定的文本主题的准确性。所确定的文本主题的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本主题的分类提取方法、装置、电子设备及存储介质

[0001]本专利技术涉及计算机应用
，尤其涉及一种文本主题的分类提取方法、装置、电子设备及存储介质。

技术介绍

[0002]对于银行而言，客服系统是客户进行信息反馈的重要渠道之一，其产生的海量客服通话录音可以通过语音识别技术生成转译文本。转译文本中蕴含着大量有价值的信息，对服务质量监控、用户需求挖掘和产品改进有着重要的意义，常见的，对海量转译文本的进行主题提取，以确定转译文本的应用方向。
[0003]目前，运营部门对转译文本的挖掘和分析主要依赖人工处理，但由于大部分通话录音是在的复杂噪声的环境下录制的，以至于语音识别率难以保证，转译文本的准确度不高；并且由于口语表达灵活多变，省略、重复以及语序颠倒等现象较为严重，以至于转译文本具有文本短和表达不规范等特点，因此，依赖人工对海量转译文本的进行主题提取的方式，存在所提取的文本主题准确性较低的技术问题。

技术实现思路

[0004]本专利技术提供了一种文本主题的分类提取方法、装置、电子设备及存储介质，以解决所提取的文本主题准确性较低的技术问题。
[0005]根据本专利技术的一方面，提供了一种文本主题的分类提取方法，其中，该方法包括：
[0006]获取多个转译文本，确定每个所述转译文本的文本向量，以得到文本向量集合；
[0007]确定目标超参，基于所述目标超参，通过k均值聚类算法对输入的所述文本向量集合进行聚类，得到至少一个文本类别集合，其中，每个所述文本类别集合包括至少一...

【技术保护点】

【技术特征摘要】
1.一种文本主题的分类提取方法，其特征在于，包括：获取多个转译文本，确定每个所述转译文本的文本向量，以得到文本向量集合；确定目标超参，基于所述目标超参，通过k均值聚类算法对输入的所述文本向量集合进行聚类，得到至少一个文本类别集合，其中，每个所述文本类别集合包括至少一个所述文本向量；针对每个所述文本类别集合，基于聚焦度和精炼度确定目标文本，根据所述目标文本确定所述文本类别集合的文本主题，其中，所述聚焦度和所述精炼度与所述转译文本的分词数量相关联。2.根据权利要求1所述的方法，其特征在于，所述确定每个所述转译文本的文本向量，包括：针对每个所述转译文本，对所述转译文本进行预处理，得到所述转译文本对应的分词表，其中，所述预处理包括分词和数据清洗；确定所述分词表对应的原始词向量集合，基于所述原始词向量集合对所述转译文本进行特征提取得到文本向量。3.根据权利要求2所述的方法，其特征在于，所述基于所述原始词向量集合对所述转译文本进行特征提取得到文本向量，包括：针对每个所述转译文本，确定主要意图句段，基于所述原始词向量集合和所述主要意图句段得到意图词向量集合；确定所述意图词向量集合中每个词向量的权重，并基于所述权重确定预设数量的关键词向量，以得到关键词向量集合；基于所述关键词向量集合确定所述转译文本对应的所述文本向量。4.根据权利要求1所述的方法，其特征在于，所述确定目标超参，基于所述目标超参，通过k均值聚类算法对输入的所述文本向量集合进行聚类，得到至少一个文本类别集合，包括：获取初始超参，基于所述初始超参和所述文本向量集合确定所述初始超参对应的初始轮廓系数；根据所述初始轮廓系数确定所述目标超参，并基于所述目标超参得到所述文本类别集合。5.根据权利要求4所述的方法，其特征在于，所述基于所述初始超参和所述文本向量集合确定所述初始超参对应的初始轮廓系数，包括：基于所述文本向量集合确定随机样本向量，并将所述随机样本向量作为初始聚类中心；针对所述文本向量集合，确定每个所述文本向量与所述初始聚类中心的最短距离，基于所述最短距离确定每个所述文本向量作为下一个聚类中心的概率，并根据所述概率得到下一个聚类中心，以得到初始聚类中心集合；根据所述初始聚类中心集合和所述文本向量集合确定所述初始超参对应的初始类别集合，并确定所述初始类别集合对应的初始轮廓系数...

【专利技术属性】
技术研发人员：王会，
申请(专利权)人：中国农业银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人