【技术实现步骤摘要】
文本分类方法及装置、存储介质和电子设备
本公开涉及计算机
,具体而言,涉及一种文本分类方法、文本分类装置、计算机可读存储介质和电子设备。
技术介绍
对于能够表现用户兴趣的文本数据的理解过程中而言,根据用户的行为来理解用户的意图,并且给用户打上兴趣标签尤为重要。相关技术中,可以根据不同的标签获取一批关键词,然后通过关键词匹配的方法给用户的搜索和观看的内容打上标签。在这种方式中,由于文本数据本身具有歧义性,仅通过关键词匹配的方法来对文本数据进行分类时,其分类准确率较低。并且仅仅在某种特定领域或者是特定场景使用才有效,具有一定的使用局限性且通用性较差。
技术实现思路
本公开提供一种文本分类方法、文本分类装置、计算机可读存储介质和电子设备,进而至少在一定程度上克服分类结果准确性差的问题。根据本公开的一个方面,提供一种文本分类方法,包括:获取待分类的文本数据,并将所述待分类的文本数据转化为多个类型的编码特征;通过对所述多个类型的编码特征进行共同编码,得到所述待分类的文本数据的公共分类向量;对所述公共分类向量进 ...
【技术保护点】
1.一种文本分类方法,其特征在于,包括:/n获取待分类的文本数据,并将所述待分类的文本数据转化为多个类型的编码特征;/n通过对所述多个类型的编码特征进行共同编码,得到所述待分类的文本数据的公共分类向量;/n对所述公共分类向量进行分类处理,得到所述公共分类向量对应的初次分类结果;/n结合关键词匹配方式,对所述初次分类结果进行再次分类,以得到所述待分类的文本数据对应的类别标签。/n
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:
获取待分类的文本数据,并将所述待分类的文本数据转化为多个类型的编码特征;
通过对所述多个类型的编码特征进行共同编码,得到所述待分类的文本数据的公共分类向量;
对所述公共分类向量进行分类处理,得到所述公共分类向量对应的初次分类结果;
结合关键词匹配方式,对所述初次分类结果进行再次分类,以得到所述待分类的文本数据对应的类别标签。
2.根据权利要求1所述的文本分类方法,其特征在于,所述将所述待分类的文本数据转化为多个类型的编码特征,包括:
将所述待分类的文本数据转换为词编码、位置编码以及句子对编码组成的多个类型的编码特征。
3.根据权利要求1所述的文本分类方法,其特征在于,所述通过对所述多个类型的编码特征进行编码,得到所述待分类的文本数据的公共分类向量,包括:
通过训练好的双向编码器模型的编码层,将所述多个类型的编码特征进行共同编码得到所述编码特征对应的向量,并将所述向量作为所述公共分类向量。
4.根据权利要求3所述的文本分类方法,其特征在于,所述方法还包括:
获取样本数据以及所述样本数据的真实标签;
通过所述双向编码器模型,将所述样本数据表示为对应的样本编码特征;
通过所述双向编码器模型对所述样本编码特征进行文本分类,得到所述样本编码特征的预测标签,以对所述双向编码器模型进行训练,得到训练好的双向编码器模型;
对所述训练好的双向编码器模型进行测试验证。
5.根据权利要求1所述的文本分类方法,其特征在于,所述对所述公共分类向量进行分类处理,得到所述公共分类向量对应的初次分类结果,包括:
通过双向编码器模型的分类层,对所述公共分类向量进行分类处理,得到一级类目对应的初次分类结果。
6.根据权利要...
【专利技术属性】
技术研发人员:刘曙铭,
申请(专利权)人:深圳市欢太科技有限公司,OPPO广东移动通信有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。