一种基于迁移学习的文本分类方法及装置制造方法及图纸

技术编号:21034465 阅读:75 留言:0更新日期:2019-05-04 05:29
本发明专利技术提供了一种基于迁移学习的文本分类方法及装置,所述方法包括:S1:使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;S2:过滤所述待分类的文本中的链接、转发符号以及用户名的内容;S3:将过滤后的所述文本输入所述S1中训练好的所述词表示BERT模型,得到文本的语义文件;S4:将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。发明专利技术方法使用迁移学习进行文本分类,提出了一种使用基于大规模无标注的语料训练出的BERT词表示模型。该词表示模型具有通用性,不依赖于具体的文本领域,也可以用在其他的任务如实体抽取、情感分析等。

【技术实现步骤摘要】
一种基于迁移学习的文本分类方法及装置
本专利技术涉及自然语言处理
,尤其是涉及一种基于迁移学习的文本分类方法及装置。
技术介绍
Web2.0时代,每一个网民都成了互联网的信息发布源。各种用途的信息发布平台应运而生,诸如FaceBook、校内网、新浪微博等,供用户发表、获取、分享各种信息。由于互联网用户基数大,每个信息发布平台信息发布平台平均每天产生的信息量也大,所以互联网每天产生的信息量也巨大。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程。文本分类是文本处理中一个很重要的模块,应用也十分广泛,包括垃圾过滤,新闻分类,情感分类,词性标注等。基于互联网每天产生的巨大信息量,对互联网数据进行分析的难度也非常大。在文本情感分析方面,外国学者主要是针对Twitter上的短文本信息作为语料进行分析。比如国外学者利用网站带情感标签的文本作为训练语料,采用文本抽象特征训练各种分类器进行主客观分类和情感极性分类。中文文本情感极性分析近来呈现高速发展的趋向,然而中文文本的复杂性比英文文本的复杂性要高得多,所以中文文本的分词质量往往对最后的分类结果影响很大。除此之外,由于中文的信本文档来自技高网...

【技术保护点】
1.一种基于迁移学习的文本分类方法,其特征在于,包括:S1:使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;S2:过滤所述待分类的文本中的链接、转发符号以及用户名的内容;S3:将过滤后的所述文本输入所述S1中训练好的所述词表示BERT模型,得到文本的语义文件;S4:将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。

【技术特征摘要】
1.一种基于迁移学习的文本分类方法,其特征在于,包括:S1:使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;S2:过滤所述待分类的文本中的链接、转发符号以及用户名的内容;S3:将过滤后的所述文本输入所述S1中训练好的所述词表示BERT模型,得到文本的语义文件;S4:将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。2.根据权利要求1所述的基于迁移学习的文本分类方法,其特征在于,所述S1中使用未标注中文文本训练BERT模型,得到所述中文文本的语义文件,构成了预训练好的词表示BERT模型。3.根据权利要求1所述的基于迁移学习的文本分类方法,其特征在于,所述文本的语义为句子的语义文件。4.根据权利要求1所述的基于迁移学习的文本分类方法,其特征在于,所述经卷积神经网络处理的过程包括:将所述文本的语义文件经卷积层处理得到特征图;将所述特征图输入池化层,经最大池化处理得到词向量并将所述词向量串联成特征向量;将所述特征向量输入softmax层进行归一化处理得到所述语义文件中的句子的类别标签。5.一种基于迁移学习的文本分类装置,...

【专利技术属性】
技术研发人员:柳宜江武开智
申请(专利权)人:北京牡丹电子集团有限责任公司数字电视技术中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1