一种文件分类方法技术

技术编号:26376404 阅读:25 留言:0更新日期:2020-11-19 23:45
本发明专利技术提供了一种文本分类方法,所述方法包括:基于词序列信息的编码表示生成句子表示;使用知识和句子类别表示作为输入,生成与问句的关系得分;基于所述关系得分,生成外部知识表示和检索相关的知识。本方法通过引入外部知识的方式,生成每个类别的任务相关得分,结合任务无关得分,提升了文本分类在少样本场景下的性能。

【技术实现步骤摘要】
一种文件分类方法
本专利技术书一个或多个实施例涉及自然语言处理
,尤其涉及一种文件分类方法。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着互联网和经济的不断发展,在很多场景下,都涉及到文本分类,文本分类是一种典型的自然语言处理任务,现有的文本分类方法如下:首先标注大量的样本,一个篇章对应一个类别,接着,构建神经网络模型在标注数据上进行训练,最后预测每个样本所属的类别。上述技术存在以下问题:现有的深度学习为基础的文本分类模型通常严重依赖大量的标注样本,当标注样本稀缺时,模型往往难以达到令人满意的性能。
技术实现思路
有鉴于此,本说明书一个或多个实施例描述了一种文本分类方法,可解决少样本场景下文本分类的性能不足的问题。本说明书一个或多个实施例提供的技术方案如下:为解决上述问题,本专利技术提供了一种分别分类方法,该方法包括:基于词序列信息的编码表示生成句子表示;使用知识和句子类别表示作为输入,生成与问句的关系得分;基于所述关系得分,生成外部知识表示和检索相关的知识。在一种可能的实现方式中,所述基于词序列信息的编码表示生成句子表示,具体为:将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示。在一种可能的实现方式中,所述将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示,具体为:给定输入文本,使用预训练语言模型作为编码器生成表示,并使用与训练语言模型的cls位置的输出作为句子的初始表示;其中,cls为预训练语言模型中的特殊标识,表示分类含义。在一种可能的实现方式中,还需要生成每个类别的表示,所述表示为每个类别下的句子表示的平均值:其中,Sz表示训练集中属于z类的样本集合;h(xi)为句子的初始表示;训练集为X={x1,x2,…,xm},有m个文本,xi为第i个文本。在一种可能的实现方式中,所述使用知识和句子类别表示作为输入,生成与问句的关系得分,具体为:获得任务无关的关系得分;获得任务相关的关系得分;合并所述任务无关的关系得分和所述任务相关的关系得分,获得该查询属于类别z的得分。在一种可能的实现方式中,通过如下公式获得任务无关的关系得分:其中,z=1,2,…,C,C为训练集中的类别总数;RN是一个小型的神经网络;pz,j是问句属于类别z的概率;θ是待学习参数;agn表示任务无关。在一种可能的实现方式中,所述获得任务相关的关系得分,具体为:生成一个类别集合的知识表示,从知识库中抽取相关的知识概念集K(S),每条知识被嵌入到向量e中,通过下述公式生成类别的知识表示:生成任务相关的网络参数,并基于所述网络参数生成任务相关的关系得分。在一种可能的实现方式中,通过如下公式生成任务相关的关系得分:其中,θrel=M·kS为网络参数;M为可学习参数;RN是一个小型的神经网络;pz,j是问句属于类别z的概率;θ是待学习参数;rel表示任务相关。在一种可能的实现方式中,所述合并所述任务无关的关系得分和所述任务相关的关系得分,获得该查询属于类别z的得分,具体的,通过如下公式进行:其中,rz,j是问句属于类别z的得分;为任务相关的关系得分;为任务无关的关系得分。在一种可能的实现方式中,基于所述关系得分,生成外部知识表示和检索相关的知识,具体为:给定三元组,并使用双线性模型生成知识三元组的表示;其中,所述三元组为实体、实体关系及尾实体;从给定的篇章中识别实体部分,然后通过字符串匹配的方式匹配知识库中的实体,收集候选的尾实体,通过检索相关的知识库三元组,获得每个类别的样本的相关知识概念的集合。本方法通过引入外部知识的方式,生成每个类别的任务相关得分,结合任务无关得分,即在属于某一类的标注样本较少时,该方法能通过基于知识指导的度量网络,更好的将未标注的样本标注到该类别,提升了文本分类在少样本场景下的性能。附图说明图1为本专利技术实施例提供的文本分类方法流程示意图;图2为本专利技术实施例提供的生成与问句的关系得分流程示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。本专利技术提供了一种利用知识指导的基于度量学习的少样本文本分类方法,我们设待查询类别的句子为q,训练集为X={x1,x2,…,xm},xi为第i个文本,共有m个文本,属于C个类别。具体的,图1为本专利技术实施例提供的文本分类方法流程示意图,所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图1所示,所述方法包括以下步骤:步骤10,基于词序列信息的编码表示生成句子表示。将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示。具体为:给定输入文本xi=[cls,w1,w2…wt,sep],使用预训练语言模型作为编码器生成表示,并使用与训练语言模型的cls位置的输出作为句子的初始表示,设为h(xi);其中,cls和sep为预训练语言模型中的特殊标识,cls表示分类含义,sep表示区分两个文本片段。此外,还需要生成每个类别的表示,所述表示为每个类别下的句子表示的平均值:其中,Sz表示训练集中属于z类的样本集合;h(xi)为句子的初始表示;训练集为X={x1,x2,…,xm},有m个文本,xi为第i个文本。步骤20,使用知识和句子类别表示作为输入,生成与问句的关系得分。知识指导的关系模块,该模块使用知识和类别表示作为输入,生成一个与问句的关系得分。假设输入问句是xj。具体的,图2为本专利技术实施例提供的生成与问句的关系得分流程示意图如图2所示,该步骤包括:步骤201,获得任务无关的关系得分。通过如下公式获得任务无关的关系得分:其中,z=1,2,…,C,C为训练集中的类别总数;RN是一个小型的神经网络;pz,j是问句属于类别z的概率;θ是待学习参数;agn表示任务无关。步骤202,获得任务相关的关系得分。具体的,生成一个类别集合的知识表示,从知识库中抽取相关的知识概念集K(S),每条知识被嵌入到向量e中,通过下述公式生成类别的知识表本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:/n基于词序列信息的编码表示生成句子表示;/n使用知识和句子类别表示作为输入,生成与问句的关系得分;/n基于所述关系得分,生成外部知识表示和检索相关的知识。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:
基于词序列信息的编码表示生成句子表示;
使用知识和句子类别表示作为输入,生成与问句的关系得分;
基于所述关系得分,生成外部知识表示和检索相关的知识。


2.根据权利要求1所述的方法,其特征在于,所述基于词序列信息的编码表示生成句子表示,具体为:
将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示。


3.根据权利要求2所述的方法,其特征在于,所述将预处理好的词序列信息输入神经网络编码器,编码器将词序列信息进行编码,得到输入词序列信息的编码表示,基于词序列信息的编码表示生成句子表示,具体为:
给定输入文本,使用预训练语言模型作为编码器生成表示,并使用与训练语言模型的cls位置的输出作为句子的初始表示;其中,cls为预训练语言模型中的特殊标识,表示分类含义。


4.根据权利要求3所述的方法,其特征在于,还需要生成每个类别的表示,所述表示为每个类别下的句子表示的平均值:



其中,Sz表示训练集中属于z类的样本集合;h(xi)为句子的初始表示;训练集为X={x1,x2,…,xm},有m个样本,xi为第i个文本。


5.根据权利要求1所述的方法,其特征在于,所述使用知识和句子类别表示作为输入,生成与问句的关系得分,具体为:
获得任务无关的关系得分;
获得任务相关的关系得分;
合并所述任务无关的关系得分和所述任务相关的关系得分,获得该查询属于类别z的得分。


6.根据权利要求5所述的方法,其特征...

【专利技术属性】
技术研发人员:丘德来
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1