【技术实现步骤摘要】
一种长文本的分类方法、装置、设备及存储介质
[0001]本专利技术涉及自然语言处理
,特别是涉及一种长文本的分类方法、装置、设备及存储介质。
技术介绍
[0002]随着人工智能领域的发展,自然语言处理技术(Natural Language Processing,NLP)在众多场景中得到了广泛运用,比如情感分析、文本相似度计算、评论观点抽取、文本分类、词法分析等场景。
[0003]长文本分类是自然语言处理中一个重要的应用。传统的长文本分类方法需要人工提取待分类长文本的特征信息,进一步,通过人工提取的特征信息利用已有常用的分类算法对待分类长文本进行分类,该已有常用的分类算法例如可以是:支持向量机(Support Vector Machine,SVM)分类算法、logistic回归(Logistic regression,LR)分类算法,或者极端梯度提升(eXtreme Gradient Boosting,XGBoost)分类算法等。
[0004]传统通过人工提取的特征信息利用已有常用的分类算法对待分类长文本 ...
【技术保护点】
【技术特征摘要】
1.一种长文本的分类方法,其特征在于,所述方法包括:获取待分类的长文本,并将所述长文本分割成多个文本块;针对每一文本块,对该文本块进行编码,得到该文本块对应的特征向量;对各所述文本块对应的特征向量进行融合处理,得到所述长文本对应的目标特征向量;基于所述目标特征向量,利用预设的分类模型进行分类处理,得到所述长文本的分类结果;其中,所述预设的分类模型是根据样本文本对应的目标特征向量,以及样本文本对应的分类结果训练得到的。2.根据权利要求1所述的方法,其特征在于,所述将所述长文本分割成多个文本块,包括:将所述长文本分割成多个预设长度的文本块。3.根据权利要求1所述的方法,其特征在于,所述将所述长文本分割成多个文本块,包括:按照指定字符,将所述长文本分割成多个长度不超过预设长度的文本块。4.根据权利要求1
‑
3任一所述的方法,其特征在于,所述各文本块之间互不相交。5.根据权利要求1
‑
3任一所述的方法,其特征在于,所述针对每一文本块,对该文本块进行编码,得到该文本块对应的特征向量,包括:针对每一文本块,利用预训练模型对该文本块进行编码,得到该文本块对应的特征向量。6.根据权利要求1
‑
3任一所述的方法,其特征在于,所述基于所述目标特征向量,利用预设的分类模型进行分类处理,得到所述长文本的分类结果,包括:将所述目标特征向量,输入所述预设的分类模型中进行分类处理,得到所述长文本的分类结果。7.根据权利要求1
‑
3任一所述的方法,其特征在于,所述对各所述文本块对应的特征向量进行融合处理,得到所述长文本对应的目标特征向量,包括:对各所述文本块对应的特征向量进行拼接处理,得到所述长文本对应的目标特征向量;或者,将各所述文本块对应...
【专利技术属性】
技术研发人员:王得贤,李长亮,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。