一种处理文本信息的方法及终端技术

技术编号：26650672 阅读：35 留言：0更新日期：2020-12-09 00:50

本发明专利技术适用于计算机技术领域，提供了一种处理文本信息的方法及终端，该方法包括：获取待分类的文本信息；对所述文本信息进行预处理，得到目标文本信息；将所述目标文本信息输入已训练的语言表征模型进行处理，得到所述目标文本信息的目标词向量集合；将所述目标词向量集合输入已训练的分类模型进行分类处理，所述分类模型输出所述目标词向量集合对应的分类信息。上述方案，使用已训练的语言表征模型将经过预处理的文本信息转换为词向量集合，使得获取的向量语义信息丰富，因此，通过已训练的分类模型对词向量集合进行分类所得到的分类结果准确度高；且采用已训练的语言表征模型以及分类模型对文本信息进行处理，提升了处理文本信息的速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种处理文本信息的方法及终端
本专利技术属于计算机
，尤其涉及一种处理文本信息的方法及终端。
技术介绍
随着互联网的快速发展，在这个大数据时代，互联网容纳了海量的信息和数据，包括文本、声音、图像、视频等。其中，文本是指媒体新闻、科技、报告、电子邮件、技术专利、书籍等。与图像声音数据相比，文本占用的网络资源少，更容易上传和下载，这使得网络资源中大部分信息以文本的形式出现。如何有效的组织和管理这些信息，并快速、准确、全面的从中找到用户需要的信息显得尤为重要。然而现有的文本信息分类方法基于word2vec词向量模型(wordtovector)以及朴素贝叶斯算法实现。然而，这种文本分类方法在处理文本信息时，提取的语义信息单一，处理速度慢，分类结果不准确。其中，语义信息是信息的表现形式之一，指能够消除事物不确定性的有一定意义的信息。
技术实现思路
有鉴于此，本专利技术实施例提供了一种处理文本信息的方法及终端，以解决现有技术中，基于word2vec词向量模型(wordtovector)以及朴素贝叶斯算法...

【技术保护点】
1.一种处理文本信息的方法，其特征在于，包括：/n获取待分类的文本信息；/n对所述文本信息进行预处理，得到目标文本信息；/n将所述目标文本信息输入已训练的语言表征模型进行处理，得到所述目标文本信息的目标词向量集合；其中，所述语言表征模型是基于样本集中的文本信息和样本集中的文本信息对应的分类类型之间的对应关系训练得到的；/n将所述目标词向量集合输入已训练的分类模型进行分类处理，所述分类模型输出所述目标词向量集合对应的分类信息；其中，所述分类模型是基于词向量样本集中的词向量集合和词向量集合对应的分类信息之间的对应关系训练得到的；所述词向量样本集中的词向量集合对应的分类信息用于表示文本信息所属的分类...

【技术特征摘要】
1.一种处理文本信息的方法，其特征在于，包括：
获取待分类的文本信息；
对所述文本信息进行预处理，得到目标文本信息；
将所述目标文本信息输入已训练的语言表征模型进行处理，得到所述目标文本信息的目标词向量集合；其中，所述语言表征模型是基于样本集中的文本信息和样本集中的文本信息对应的分类类型之间的对应关系训练得到的；
将所述目标词向量集合输入已训练的分类模型进行分类处理，所述分类模型输出所述目标词向量集合对应的分类信息；其中，所述分类模型是基于词向量样本集中的词向量集合和词向量集合对应的分类信息之间的对应关系训练得到的；所述词向量样本集中的词向量集合对应的分类信息用于表示文本信息所属的分类类型。

2.如权利要求1所述的方法，其特征在于，所述对所述文本信息进行预处理，得到目标文本信息，包括：
提取所述文本信息中的有效字符；
将所述有效字符组合生成目标文本信息。

3.如权利要求1所述的方法，其特征在于，所述将所述目标文本信息输入已训练的语言表征模型进行处理，得到所述目标文本信息的目标词向量集合，包括：
通过所述语言表征模型提取所述目标文本信息中的关键词，得到文档词集合；
将所述文档词集合中的每个文档词分别转换为词向量；
基于每个文档词在文档词集合中的排列顺序将所述文档词集合中的所有词向量组合，得到目标词向量集合。

4.如权利要求3所述的方法，其特征在于，所述通过所述语言表征模型提取所述目标文本信息中的关键词，得到文档词集合，包括：
对所述目标文本信息进行分词处理，得到多个目标分词集合；
通过所述语言表征模型生成字典树，并确定每个目标分词集合中每个分词的出现频率；
根据所述字典树、每个目标分词集合以及每个分词出现的频率生成有向无环图；所述有向无环图包括多条概率路径，每条概率路径包括目标分词以及所述目标分词的出现频率；
基于所述语言表征模型以及所述有向无环图确定分词结果；
根据所述分词结果生成所述文档词集合。

5.如权利要求4所述的方法，其特征在于，所述基于所述语言表征模型以及所述有向无环图确定分词结果，包括：
根据每条概率路径中包含的目标分词的频率，分别...

【专利技术属性】
技术研发人员：彭团民，
申请(专利权)人：武汉TCL集团工业研究院有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人