文本表示方法、装置和文本分类方法制造方法及图纸

技术编号:25989157 阅读:24 留言:0更新日期:2020-10-20 18:57
本申请公开了一种文本表示方法。该文本表示方法包括获取待识别文本;将待识别文本输入至少一个自然语言处理模型,得到文本特征;将待识别文本输入特征提取模型,得到非文本特征;基于文本特征和非文本特征得到文本表示结果。本申请还提出了一种文本分类方法、一种文本表示装置、一种计算机可读存储介质以及一种电子设备。本申请解决了之前文本表示过程中深度学习和特征工程无法很好进行融合的技术问题。

【技术实现步骤摘要】
文本表示方法、装置和文本分类方法
本申请涉及信息处理
,具体而言,涉及一种文本表示方法。
技术介绍
近年来,随着深度学习的蓬勃发展,深度学习在自然语言处理领域取得了很大成果,特别是2018年由谷歌提出的BERT(BidirectionalEncoderRepresentationsfromTransformers,即基于Transformers的双向编码表示模型),作为一个Word2Vec(是用来产生词向量的相关模型,这些模型为浅层双层的神经网络)的替代者,其在NLP(NaturalLanguageProcessing,即自然语言处理)领域的11个方向大幅刷新了精度。文本分类是自然语言处理中研究最为广泛的任务之一,通过构建模型实现对文本内容进行自动分类,有很多应用场景,比如新闻文章主题分类,产品评论情感分类,检索中用户查询的意图分类等等。针对文本表示过程中深度学习和特征工程无法很好进行融合的技术问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本表示方法,以解决深度学习和特征工程无法很好进行融合的技术问题。为了实现上述目的,根据本申请的一个方面,提供了一种文本表示方法、装置和文本分类方法。第一方面,本申请提供了一种文本表示方法。根据本申请的文本表示方法包括:获取待识别文本;将待识别文本输入至少一个自然语言处理模型,得到文本特征;将待识别文本输入特征提取模型,得到非文本特征;基于文本特征和非文本特征得到文本表示结果。进一步的,文本特征为识别文本的原始文本的原始文本向量和/或待识别文本压缩后的主要信息文本的压缩文本向量。进一步的,待识别文本输入至少一个自然语言处理模型,得到文本特征包括:将待识别文本的原始文本输入第一自然语言处理模型,得到原始文本向量。进一步的,将待识别文本输入至少一个自然语言处理模型,得到文本特征包括:将待识别文本压缩后的主要信息文本输入第二自然语言处理模型进行处理,得到压缩文本向量。进一步的,将待识别文本输入特征提取模型,得到非文本特征包括:将待识别文本的特征信息输入特征提取模型,得到非文本特征向量。第二方面,本申请提供了一种文本分类方法,该方法包括:获取待分类文本;基于文本表示方法提取待分类文本的特征;将特征输入分类模型中,得到分类结果。第三方面,本申请提供了一种文本表示装置,该装置包括:文本获取模块:用于获取待识别文本;文本处理模块:用于将待识别文本输入至少一个自然语言处理模型,得到文本特征;非文本处理模块:用于将待识别文本输入特征提取模型,得到非文本特征;结果表示模块:用于基于文本特征和非文本特征得到文本表示结果。第四方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面提供的文本表示方法和/或第二方面提供的文本分类方法的步骤。第五方面,本申请提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面提供的文本表示方法和/或第二方面提供的文本分类方法的步骤。在本申请实施例中,采用BERT模型提取文字向量和深度神经网络模型提取非文本特征向量,通过分类模型联合学习输入的文字向量和非文本特征向量,达到了文本表示的目的,从而实现了一种文本表示方法,进而解决了解决深度学习和特征工程无法很好进行融合的技术问题。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请文字表示方法的流程示意图;图2是根据本申请第一实施例的流程示意图;图3是根据本申请文字分类方法的流程示意图;图4是根据本申请第二实施例的流程示意图;图5是根据本申请第二实施例的网络模型结构;以及图6是根据本申请的文字表示装置的流程示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本专利技术中的具体含义。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。正如
技术介绍
,文本分类的大致流程:文本预处理,抽取文本特征,构造分类器。其中研究最多的就是文本特征抽取,更广义上说是文本表示。在文本分类任务中,一般的模型利用的是文本标题、文本正文等,专利技术人经研究发现,以BERT为代表的自然语言处理深度学习模型,都是端到端(end-to-end)的,其输入为字符串,没有有效利用文本的一些其他有效特征,这在一定程度上限制了这些模型的表示能力。基于此,本专利技术提供一种文本表示方法,如图1所示,为本专利技术文字表示方法的流程示意图。该方法包括如下的步骤S1至步骤S4:S1:获取待识别文本。S2:将待识别文本输入至少一个自然语言处理模型,得到文本特征。进一步的,文本特征是基于文字处理得到的特征。进一步的,文本特征包括但不限于:识别文本的原始文本的原始文本向量、待识别文本压缩后的主要信息的压缩文本向量。进一步的,待识别文本压缩后的主要信息文本包括但不限于:文本的摘要、文本的中心句、文本的关键词。S3:将待识别文本输入特征提取模型,得到非文本特征。进一步的,非文本特征是基于有效特征处理得到的其他特征。进一步的,其他特征信息包括但不限于:数字、标签、句式特征、段落特征。进一步的,特征提取模型包括但不限于:深度神经网络模型、全连接的多层感知机模型、卷积神经网络模型(CNN)、递归神经网络模型(RNN)及其变体(如LSTM、GRU)。本文档来自技高网
...

【技术保护点】
1.一种文本表示方法,其特征在于,包括:/n获取待识别文本;/n将所述待识别文本输入至少一个自然语言处理模型,得到文本特征;/n将所述待识别文本输入特征提取模型,得到非文本特征;/n基于所述文本特征和所述非文本特征得到文本表示结果。/n

【技术特征摘要】
1.一种文本表示方法,其特征在于,包括:
获取待识别文本;
将所述待识别文本输入至少一个自然语言处理模型,得到文本特征;
将所述待识别文本输入特征提取模型,得到非文本特征;
基于所述文本特征和所述非文本特征得到文本表示结果。


2.根据权利要求1所述的文本表示方法,其特征在于,所述将所述待识别文本输入至少一个自然语言处理模型,得到文本特征包括:
将所述待识别文本的原始文本输入第一自然语言处理模型,得到原始文本向量。


3.根据权利要求1或2所述的文本表示方法,其特征在于,所述将所述待识别文本输入至少一个自然语言处理模型,得到文本特征包括:
将所述待识别文本压缩后的主要信息文本输入第二自然语言处理模型进行处理,得到压缩文本向量。


4.根据权利要求1所述的文本表示方法,其特征在于,所述将所述待识别文本输入特征提取模型,得到非文本特征包括:
将待识别文本的其他特征信息输入特征提取模型,得到非文本特征向量。


5.根据权利要求3所述的文本表示方法,其特征在于,所述待识别文本压缩后的主要信息文本包括但不限于:文本的摘要、文本的中心句、文本的关键词。


6.根据权利要求4所述的文本表示方法,其特征在于,所...

【专利技术属性】
技术研发人员:王义真吴明勇杜向阳
申请(专利权)人:南京擎盾信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1