话题分类方法、装置、设备及存储介质制造方法及图纸

技术编号:31087404 阅读:34 留言:0更新日期:2021-12-01 12:43
本发明专利技术涉及人工智能技术,揭露了一种话题分类方法,包括:对进行数据清洗得到的初始会话数据进行关键词提取及向量化,得到多个关键词向量,对多个关键词向量进行聚类及标签标记,得到多个聚类子集和其对应的标签,将训练数据集和多个聚类子集对应的标签输入至话题分类模型,得到训练数据集对应的数据类别,计算数据类别和真实类别之间的损失值,并根据损失值的大小对话题分类模型进行参数调整,输出标准话题分类模型,将待分类文本数据输入至标准话题分类模型,得到话题类别。此外,本发明专利技术还涉及区块链技术,聚类子集可存储于区块链的节点。本发明专利技术还提出一种话题分类装置、电子设备以及存储介质。本发明专利技术可以解决进行话题分类时的效率较低的问题。的效率较低的问题。的效率较低的问题。

【技术实现步骤摘要】
话题分类方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种话题分类方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,越来越多的交易无需直接去线下进行成交,而是通过电访即可达到交易目的,对实际沟通内容进行话题分类有助于为后续的业务应用提供基础数据和一系列的辅助功能,因此,对客户经理和用户的实际沟通内容进行追踪和分析就显得十分重要。
[0003]现有的话题分类方法通常是将客户经理和用户的实际沟通内容与预设的话题关键词库中的话题关键词进行比对,根据比对结果进行话题分类,这种方法灵活性不够强,同时过于依赖预先设定的话题关键词库,进行话题分类的效率较低。

技术实现思路

[0004]本专利技术提供一种话题分类方法、装置及计算机可读存储介质,其主要目的在于解决进行话题分类时的效率较低的问题。
[0005]为实现上述目的,本专利技术提供的一种话题分类方法,包括:
[0006]获取原始会话数据,对所述原始会话数据进行数据清洗,得到初始会话数据;
...

【技术保护点】

【技术特征摘要】
1.一种话题分类方法,其特征在于,所述方法包括:获取原始会话数据,对所述原始会话数据进行数据清洗,得到初始会话数据;利用TextRank算法对所述初始会话数据进行关键词提取,得到多个候选关键词;对所述多个候选关键词进行向量化处理,得到多个关键词向量;利用无监督聚类算法对所述多个关键词向量进行聚类,得到多个聚类子集,并对所述多个聚类子集进行标签标记,生成所述多个聚类子集对应的标签;将预获取的训练数据集和所述多个聚类子集对应的标签输入至预设的话题分类模型中,得到所述训练数据集对应的数据类别;计算所述数据类别和预设的真实类别之间的损失值,并根据所述损失值的大小对所述话题分类模型进行参数调整,输出标准话题分类模型;获取待分类文本数据,将所述待分类文本数据输入至所述标准话题分类模型中,得到所述待分类文本数据所属的话题类别。2.如权利要求1所述的话题分类方法,其特征在于,所述利用无监督聚类算法对所述多个关键词向量进行聚类,得到多个聚类子集,包括:获取预设的初始监督字典,所述初始监督字典中包含多个主题类别及不同主题类别对应的已知词语;计算所述多个关键词向量属于各个主题类别的概率值;根据所述概率值将所述多个关键词向量分别归为相同或不同的主题类别,得到多个聚类子集。3.如权利要求1所述的话题分类方法,其特征在于,所述将预获取的训练数据集和所述多个聚类子集对应的标签输入至预设的话题分类模型中,得到所述训练数据集对应的数据类别,包括:利用所述话题分类模型中的词汇索引表对所述训练数据集进行索引,得到训练索引序列;将所述训练索引序列输入至所述话题分类模型中的隐含层中进行叠加平均,得到平均索引序列;对所述多个聚类子集对应的标签进行独热编码,得到聚类向量;将所述聚类向量和所述平均索引序列输入至所述话题分类模型中的输出层,得到训练数据集对应的概率值,根据所述概率值得到所述训练数据集对应的数据类别。4.如权利要求1所述的话题分类方法,其特征在于,所述计算所述数据类别和预设的真实类别之间的损失值,包括:利用预设的负对数似然函数计算所述数据类别和预设的真实类别之间的损失值:其中,L为损失值,f为softmax函数,y
n
为真实类别,x
n
为数据类别,A和B为预设的固定参数,N为数据类别总数。5.如权利要求1所述的话题分类方法,其特征在于,所述利用TextRank算法对所述初始会话数据进行关键词提取,得到多个候选关键词,包括:
对所述初始会话数据进行数据预处理,得到标准文本...

【专利技术属性】
技术研发人员:江庆荣
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1