【技术实现步骤摘要】
标签识别模型的训练、文本标签识别的方法及装置
[0001]本专利技术涉及标签识别
,尤其涉及一种标签识别模型的训练、文本标签识别的方法及装置。
技术介绍
[0002]标签作为辨别资源(如:应用程序)的一种重要手段,在各行各业越来越重要。准确的标签,有助于资源的发展,如:提高内容的点击率、提高应用程序的下载量等。
[0003]实际应用中,现有的文本标签识别方法主要有:直接从文本中选择关键词作为该文本的标签。然而,实践发现,现有的文本标签识别方法均无法对文本的标签进行准确识别。因此,提出一种如何提高文本标签的识别准确性的方案显得尤为重要。
技术实现思路
[0004]本专利技术所要解决的技术问题在于,提供一种标签识别模型的训练、文本标签识别的方法及装置,能够提高文本标签的识别准确性。
[0005]为了解决上述技术问题,本专利技术第一方面公开了一种标签识别模型的训练方法,所述方法包括:
[0006]将采集到的多个样本文本分别输入确定出的特征提取模型中进行分析,所述特征提取模型为轻量级特征 ...
【技术保护点】
【技术特征摘要】
1.一种标签识别模型的训练方法,其特征在于,所述方法包括:将采集到的多个样本文本分别输入确定出的特征提取模型中进行分析,所述特征提取模型为轻量级特征提取模型;获取所述特征提取模型输出的分析结果,作为每个所述样本文本的文本特征,每个所述样本文本的文本特征包括每个所述样本文本的词向量特征及每个所述样本文本的词向量的位置特征;基于所有所述样本文本的文本特征中每个所述样本文本的文本特征包括的内容训练确定出的基础标签识别模型,得到所需的标签识别模型,所述标签识别模型用于识别待识别标签的文本。2.根据权利要求1所述的标签识别模型的训练方法,其特征在于,所述基于所有所述样本文本的文本特征中每个所述样本文本的文本特征包括的内容训练确定出的基础标签识别模型,得到所需的标签识别模型,包括:将所有所述样本文本分为第一类样本文本与第二类样本文本,并将所述第一类样本文本划分为多个第一样本组及所述第二类样本本文划分为多个第二样本组,所述第一类样本文本的每个所述第一样本组包括多个样本文本,所述第一类样本文本的数量大于等于第一预设数量,所述第二类样本文本的每个所述第二样本组包括多个样本文本,所述第二类样本文本的数量大于等于第二预设数量;基于所述第一类样本文本中其中一个第一样本组的样本文本的文本特征包括的内容训练确定出的基础标签识别模型,得到该其中一个第一样本组的样本文本的样本标签结果和该样本文本的样本标签向量;基于所述第二类样本文本中其中一个第二样本组的样本文本对第一类样本文本中该其中一个第一样本组的样本文本的样本标签结果和该样本文本的样本标签向量执行验证操作,得到训练后的基础标签识别模型的精度和损失,并从所述第一类样本文本中剩余所有第一样本组中选择另一个第一样本组,以及将该另一个第一样本组更新为所述其中一个第一样本组且本次训练后的所述基础标签识别模型更新为确定出的所述基础标签识别模型,以及重新执行所述的基于所述第一类样本文本中其中一个第一样本组的样本文本的文本特征包括的内容训练确定出的基础标签识别模型,得到所述第一类样本文本中该其中一个第一样本组的样本文本的样本标签结果和该样本文本的样本标签向量的操作。3.根据权利要求2所述的标签识别模型的训练方法,其特征在于,所述基于所述第一类样本文本中其中一个第一样本组的样本文本的文本特征包括的内容训练确定出的基础标签识别模型,得到所述第一类样本文本中该其中一个第一样本组的样本文本的样本标签结果和该样本文本的样本标签向量,包括:基于所述第一类样本文本中其中一个第一样本组的每个样本本文的文本特征包括的所有内容,构建该其中一个第一样本组的每个所述样本文本的词向量矩阵;将所述第一类样本文本中其中一个第一样本组的每个所述样本本文的词向量矩阵与确定出的卷积核集合中每个所述卷积核执行乘积操作,得到所述第一类样本文本中其中一个第一样本组的每个所述样本文本的多个特征矩阵,其中,一个所述卷积核对应一个所述特征矩阵;对所述第一类样本文本中其中一个第一样本组的每个所述样本文本的每个所述特征
矩阵执行最大池化操作,得到所述第一类样本文本中其中一个第一样本组的每个所述样本文本的多个目标特征矩阵,一个所述特征矩阵对应一个所述目标特征矩阵;拼接所述第一类样本文本中其中一个第一样本组的每个所述样本文本的所有所述目标特征矩阵,得到拼接后的所述第一类样本文本中其中一个第一样本组的每个所述样本文本的所有所述目标特征矩阵,并将拼接后的所述第一类样本文本中其中一个第一样本组的每个所述样本文本的所有所述目标特征矩阵输入确定出的标签概率函数中计算,得到所述第一类样本文本中其中一个第一样本组的每个所述样本文本的样本标签结果,所述第一类样本文本中其中一个第一样本组的每个所述样本文本的样本标签结果包括该样本文本的样本标签。4.根据权利要求3所述的标签识别模型的训练方法,其特征在于,所述拼接所述第一类样本文本中其中一个第一样本组的每个所述样本文本的所有所述目标特征矩阵,得到拼接后...
【专利技术属性】
技术研发人员:陈莹莹,黄于晏,
申请(专利权)人:有米科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。