一种文件分类方法技术

技术编号：26376404 阅读：36 留言：0更新日期：2020-11-19 23:45

本发明专利技术提供了一种文本分类方法，所述方法包括：基于词序列信息的编码表示生成句子表示；使用知识和句子类别表示作为输入，生成与问句的关系得分；基于所述关系得分，生成外部知识表示和检索相关的知识。本方法通过引入外部知识的方式，生成每个类别的任务相关得分，结合任务无关得分，提升了文本分类在少样本场景下的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种文件分类方法
本专利技术书一个或多个实施例涉及自然语言处理
，尤其涉及一种文件分类方法。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着互联网和经济的不断发展，在很多场景下，都涉及到文本分类，文本分类是一种典型的自然语言处理任务，现有的文本分类方法如下：首先标注大量的样本，一个篇章对应一个类别，接着，构建神经网络模型在标注数据上进行训练，最后预测每个样本所属的类别。上述技术存在以下问题：现有的深度学习为基础的文本分类模型通常严重依赖大量的标注样本，当标注样本稀缺时，模型往往难以达到令人满意的性能。
技术实现思路
有鉴于此，本说明书一个或多个实施例描述了一种文本分类方法，可解决少样本场景下文本分类的性能不足的问题。本说明书一个或多个实施例提供的技术方案如下：为解决上述问题，本专利技术提供了一种分别分类方法，该方法包括：基于词序列信息的编码表示生成句子表示；使用...

【技术保护点】
1.一种文本分类方法，其特征在于，所述方法包括：/n基于词序列信息的编码表示生成句子表示；/n使用知识和句子类别表示作为输入，生成与问句的关系得分；/n基于所述关系得分，生成外部知识表示和检索相关的知识。/n

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：
基于词序列信息的编码表示生成句子表示；
使用知识和句子类别表示作为输入，生成与问句的关系得分；
基于所述关系得分，生成外部知识表示和检索相关的知识。

2.根据权利要求1所述的方法，其特征在于，所述基于词序列信息的编码表示生成句子表示，具体为：
将预处理好的词序列信息输入神经网络编码器，编码器将词序列信息进行编码，得到输入词序列信息的编码表示，基于词序列信息的编码表示生成句子表示。

3.根据权利要求2所述的方法，其特征在于，所述将预处理好的词序列信息输入神经网络编码器，编码器将词序列信息进行编码，得到输入词序列信息的编码表示，基于词序列信息的编码表示生成句子表示，具体为：
给定输入文本，使用预训练语言模型作为编码器生成表示，并使用与训练语言模型的cls位置的输出作为句子的初始表示；其中，cls为预训练语言模型中的特殊标识，表示分类含义。

4.根据权利要求3所述的方法，其特征在于，还需要生成每个类别的表示，所述表示为每个类别下的句子表示的平均值：

其中，Sz表示训练集中属于z类的样本集合；h(xi)为句子的初始表示；训练集为X＝{x1,x2,…,xm}，有m个样本，xi为第i个文本。

5.根据权利要求1所述的方法，其特征在于，所述使用知识和句子类别表示作为输入，生成与问句的关系得分，具体为：
获得任务无关的关系得分；
获得任务相关的关系得分；
合并所述任务无关的关系得分和所述任务相关的关系得分，获得该查询属于类别z的得分。

6.根据权利要求5所述的方法，其特征...

【专利技术属性】
技术研发人员：丘德来，
申请(专利权)人：云知声智能科技股份有限公司，厦门云知芯智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人