文本表示方法、装置和文本分类方法制造方法及图纸

技术编号：25989157 阅读：24 留言：0更新日期：2020-10-20 18:57

本申请公开了一种文本表示方法。该文本表示方法包括获取待识别文本；将待识别文本输入至少一个自然语言处理模型，得到文本特征；将待识别文本输入特征提取模型，得到非文本特征；基于文本特征和非文本特征得到文本表示结果。本申请还提出了一种文本分类方法、一种文本表示装置、一种计算机可读存储介质以及一种电子设备。本申请解决了之前文本表示过程中深度学习和特征工程无法很好进行融合的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本表示方法、装置和文本分类方法
本申请涉及信息处理
，具体而言，涉及一种文本表示方法。
技术介绍
近年来，随着深度学习的蓬勃发展，深度学习在自然语言处理领域取得了很大成果，特别是2018年由谷歌提出的BERT(BidirectionalEncoderRepresentationsfromTransformers，即基于Transformers的双向编码表示模型)，作为一个Word2Vec(是用来产生词向量的相关模型，这些模型为浅层双层的神经网络)的替代者，其在NLP(NaturalLanguageProcessing，即自然语言处理)领域的11个方向大幅刷新了精度。文本分类是自然语言处理中研究最为广泛的任务之一，通过构建模型实现对文本内容进行自动分类，有很多应用场景，比如新闻文章主题分类，产品评论情感分类，检索中用户查询的意图分类等等。针对文本表示过程中深度学习和特征工程无法很好进行融合的技术问题，目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本表示方法，以解决深度学习和特征工程无法很好进行融合的技术问题。为了实现上述目的，根据本申请的一个方面，提供了一种文本表示方法、装置和文本分类方法。第一方面，本申请提供了一种文本表示方法。根据本申请的文本表示方法包括：获取待识别文本；将待识别文本输入至少一个自然语言处理模型，得到文本特征；将待识别文本输入特征提取模型，得到非文本特征；基于文本特征和非文本特征得...

【技术保护点】
1.一种文本表示方法，其特征在于，包括：/n获取待识别文本；/n将所述待识别文本输入至少一个自然语言处理模型，得到文本特征；/n将所述待识别文本输入特征提取模型，得到非文本特征；/n基于所述文本特征和所述非文本特征得到文本表示结果。/n

【技术特征摘要】
1.一种文本表示方法，其特征在于，包括：
获取待识别文本；
将所述待识别文本输入至少一个自然语言处理模型，得到文本特征；
将所述待识别文本输入特征提取模型，得到非文本特征；
基于所述文本特征和所述非文本特征得到文本表示结果。

2.根据权利要求1所述的文本表示方法，其特征在于，所述将所述待识别文本输入至少一个自然语言处理模型，得到文本特征包括：
将所述待识别文本的原始文本输入第一自然语言处理模型，得到原始文本向量。

3.根据权利要求1或2所述的文本表示方法，其特征在于，所述将所述待识别文本输入至少一个自然语言处理模型，得到文本特征包括：
将所述待识别文本压缩后的主要信息文本输入第二自然语言处理模型进行处理，得到压缩文本向量。

4.根据权利要求1所述的文本表示方法，其特征在于，所述将所述待识别文本输入特征提取模型，得到非文本特征包括：
将待识别文本的其他特征信息输入特征提取模型，得到非文本特征向量。

5.根据权利要求3所述的文本表示方法，其特征在于，所述待识别文本压缩后的主要信息文本包括但不限于：文本的摘要、文本的中心句、文本的关键词。

6.根据权利要求4所述的文本表示方法，其特征在于，所...

【专利技术属性】
技术研发人员：王义真，吴明勇，杜向阳，
申请(专利权)人：南京擎盾信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人