语料的标签分类方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26730682 阅读:23 留言:0更新日期:2020-12-15 14:31
本申请实施例涉及人工智能领域,提出一种语料的标签分类方法,包括:将多段语料数据的多段文本数据进行分词,得到对应的多段分词结果;将多段分词结果输入至概率模型,通过概率模型建模分析分词结果,得到多个K值;计算多个K值的困惑度,取整困惑度最小的K值,得到对应的一级标签;将对应的多段分词结果输入至与一级标签对应的变形双向编码器表示模型,通过变形双向编码器表示模型得到一级标签下的子标签。此外,本申请还涉及区块链技术,多段文本数据可存储于区块链中。本申请还提供一种语料的标签分类装置、计算机设备及存储介质。提高了语料的标签分类精准度。

【技术实现步骤摘要】
语料的标签分类方法、装置、计算机设备及存储介质
本申请涉及人工智能领域,尤其涉及一种语料的标签分类方法、装置、计算机设备及存储介质。
技术介绍
咨询和投诉是客户服务的重要触点,直接影响客户对企业品牌、服务的感知与评价。传统的咨询和投诉是在客户与客服聊天后,由人工客服精炼聊天内容记录、打好标签并录入系统,方便后续问题的分析与解决。一方面,人工打标签标准不一,导致无法准确定位投诉点。另一方面,客服客户聊天后,人工还要花费时间精炼总结聊天内容并记录,显得十分不高效。而在算法方案中,当出现大量标签时,使得效果不尽如人意,标签无法进行准确的分类。
技术实现思路
本申请实施例的目的在于提出一种语料的标签分类方法、装置、计算机设备及存储介质,以解决标识识别中标签无法进行准确的分类。为了解决上述技术问题,本申请实施例提供一种语料的标签分类方法,采用了如下所述的技术方案:获取多段语料数据,并将所述语料数据切分成多段文本数据;将每段所述文本数据进行分词,得到对应的多段分词结果;将所述对应的多段分词结果输入至概率模本文档来自技高网...

【技术保护点】
1.一种语料的标签分类方法,其特征在于,包括下述步骤:/n获取多段语料数据,并将所述语料数据切分成多段文本数据;/n将每段所述文本数据进行分词,得到对应的多段分词结果;/n将所述对应的多段分词结果输入至概率模型,通过所述概率模型建模分析所述对应的多段分词结果,得到多个K值;/n计算所述多个K值对应的困惑度,选取困惑度最小的K值作为目标K值,取整所述目标K值,得到与所述目标K值对应的一级标签,其中,所述K值用于表征一级标签的数量;/n获取所述一级标签对应的训练好的变形双向编码器表示模型;/n将所述对应的多段分词结果输入至所述训练好的变形双向编码器表示模型,通过所述训练好的变形双向编码器表示模型得...

【技术特征摘要】
1.一种语料的标签分类方法,其特征在于,包括下述步骤:
获取多段语料数据,并将所述语料数据切分成多段文本数据;
将每段所述文本数据进行分词,得到对应的多段分词结果;
将所述对应的多段分词结果输入至概率模型,通过所述概率模型建模分析所述对应的多段分词结果,得到多个K值;
计算所述多个K值对应的困惑度,选取困惑度最小的K值作为目标K值,取整所述目标K值,得到与所述目标K值对应的一级标签,其中,所述K值用于表征一级标签的数量;
获取所述一级标签对应的训练好的变形双向编码器表示模型;
将所述对应的多段分词结果输入至所述训练好的变形双向编码器表示模型,通过所述训练好的变形双向编码器表示模型得到所述一级标签下的子标签。


2.根据权利要求1所述的语料的标签分类方法,其特征在于,所述语料数据包括语音数据,所述将所述语料数据切分成多段文本数据的步骤具体包括:
提取语料数据的语音数据,将所述语音数据分割成用户语音数据以及工作人员语音数据;
将所述用户语音数据以及所述工作人员语音数据,分别转换成用户文本以及工作人员文本;
将所述用户文本以及所述工作人员文本分别断句,得到断句后的用户文本以及断句后的工作人员文本;
将断句后的用户文本以及断句后的工作人员文本依照文本先后顺序进行排列,得到多段文本数据。


3.根据权利要求2所述的语料的标签分类方法,其特征在于,所述获取所述一级标签对应训练好的变形双向编码器表示模型的步骤之前还包括:
获取多个训练数据以及所述训练数据所对应的标注标签;
将所述训练数据以及所述对应的标注标签输入至所述初始变形双向编码器表示模型;
将多个神经网络模型参数下的所述初始变形双向编码器表示模型通过训练函数训练,得到多个变形双向编码器表示模型;
计算所述多个变形双向编码器表示模型的损失函数值,将所述损失函数值最小的所述变形双向编码器表示模型作为所述目标变形双向编码器表示模型;
部署所述目标变形双向编码器表示模型,得到所述训练好的变形双向编码器表示模型。


4.根据权利要求3所述的语料的标签分类方法,其特征在于,所述计算所述多个变形双向编码器表示模型的损失函数值,将所述损失函数值最小的所述变形双向编码器表示模型作为所述目标变形双向编码器表示模型的步骤具体包括:
获取多个测试样本;
将所述多个测试样本输入至多个所述变形双向编码器表示模型;
通过损失函数计算多个所述目标变形双向编码器表示模型的损失函数值,将所述损失函数值最小的所述变形双向...

【专利技术属性】
技术研发人员:张惠玲
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1