【技术实现步骤摘要】
一种文本分类方法
[0001]本专利技术属于文本分类
,具体涉及一种文本分类方法
。
技术介绍
[0002]文本分类的典型技术是基于
Transformer
算法模型利用双向上下文信息对自然语言进行建模,将文本转换为语言表征;
Roberta
作为预训练模型,使用
Transformer
作为适配器完成自然语言的处理
。
[0003]现有的文本分类方法还存在以下问题:当前文本分类的方法上基于深度学习样本训练的方法来实现的,存在要求大训练集和分类精度不高等问题,另外目前文本分类智能技术,过于依赖数据训练样本,缺乏有效提升分类准确率和处理效率手段和能力,为此我们提出一种文本分类方法
。
技术实现思路
[0004]本专利技术的目的在于提供一种文本分类方法,以解决上述
技术介绍
中提出的问题
。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种文本分类方法,包括以下步骤:
S1.
语音采集:通过语音采集模块采集人员的交流语音,并将交流语音作为数据源;
S2.
语音人员识别:用智能化说话人分割模型识别数据源中的不同说话人,并将语音按不同说话人切片,得到不同说话人的语音信息片段,根据数据库中的人员声纹信息检索语音中的说话人,并获取说话人的身份信息,得出说话人及所属部门
、
专业;
S3.
语音文字识别:根据不同说话人切片结果,用智能化自动语音
【技术保护点】
【技术特征摘要】
1.
一种文本分类方法,其特征在于:包括以下步骤:
S1.
语音采集:通过语音采集模块采集人员的交流语音,并将交流语音作为数据源;
S2.
语音人员识别:用智能化说话人分割模型识别数据源中的不同说话人,并将语音按不同说话人切片,得到不同说话人的语音信息片段,根据数据库中的人员声纹信息检索语音中的说话人,并获取说话人的身份信息,得出说话人及所属部门
、
专业;
S3.
语音文字识别:根据不同说话人切片结果,用智能化自动语音识别模型对不同说话人的语音信息片段进行识别文字;
S4.
文本分类:用智能化文本分类模型,结合所判断获取的所述说话人及所属部门
、
专业,实现文本内容按所属专业进行分类
。2.
根据权利要求1所述的一种文本分类方法,其特征在于:所述
S1
之前还包括
S0.
人员信息录入:获取人员的身份信息,所述人员的身份信息包括人员姓名
、
人员所属部门和人员专业,同时对所述人员的声纹信息进行录制,并将所述人员的身份信息和声纹信息存入到数据库中
。3.
根据权利要求1所述的一种文本分类方法,其特征在于:所述语音采集模块包括声音采集单元
、
功率放大器
、
存储模块,所述声音采集单元用于采集人员的交流语音,并生成语音信号,所述功率放大器用于对所述语音信号进行放大,所述存储模块用于对放大后的所述语音信号进行存储
。4.
根据权利要求1所述的一种文本分类方法,其特征在于:所述
S2
中的智能化说话人分割模型的训练方法包括以下步骤:
S2011.
将所述数据源的语音特征输入至待训练模型进行迭代训练;其中,在第
N
次的迭代训练的过程中,所述待训练模型对所述语音特征进行特征映射得到第一特征向量后,将所述第一特征向量进行注意力机制拟合得到第二特征向量,
N
为正整数;
S2012.
根据所述第二特征向量分别确定交叉熵损失值和聚类损失值;
S2013.
在所述交叉熵损失值和所述聚类损失值满足预设条件的情况下,将第
N
次的迭代训练后的待训练模型确定为智能化说话人分割模型
。5.
根据权利要求1所述的一种文本分类方法,其特征在于:所述
S2
中将语音按不同说话人切片的具体步骤为:
S2021.
获取所述数据源的语音特征;
S2022.
将所述语音特征输入智能化说话人分割模型,输出目标特征向量;
S2023.
根据所述目标特征向量确定说话人切片结果,得到不同说话人的语音信息片段
。6.
根据...
【专利技术属性】
技术研发人员:刘珏廷,刘迎春,刘泽蒙,
申请(专利权)人:江苏慧言智语安全科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。