基于预训练语言模型和主题增强的农业问句分类方法技术

技术编号：38840825 阅读：12 留言：0更新日期：2023-09-17 09:54

本发明专利技术涉及基于预训练语言模型和主题增强的农业问句分类方法，包括以下步骤：S1、将农业问句分类文本数据进行预处理；S2、输入BERT模型得到文本的语义信息；S3、输入LDA模型得到文本的主题信息；S4、进行线性组合。该基于预训练语言模型和主题增强的农业问句分类方法，首先，我们使用chines

全部详细技术资料下载

【技术实现步骤摘要】
基于预训练语言模型和主题增强的农业问句分类方法

[0001]本专利技术涉及农业问句分类
，具体为一种基于预训练语言模型和主题增强的农业问句分类方法。

技术介绍

[0002]问答系统是人工智能领域的重要研究方向之一，其目的是让机器能够理解人类自然语言，并能够准确地回答用户提出的问题，问答系统的核心部分包括问句理解和答案生成两个部分，其中，问句分类是问句理解的关键步骤之一，其作用是将用户提出的问题进行分类，以便更好地进行答案生成，因此，问句分类在问答系统中具有重要的地位，关于问答系统中问句分类的研究，用机器学习方法和深度学习方法均取得了一定的成果，在机器学习方法中，支持向量机(SVM)、KNN、隐马尔可夫模型(HMM)、朴素贝叶斯模型等已经达到了较好的分类效果，但由于其过度依赖人工定义特征，模型的泛化能力不够理想，并且存在验证的数据稀疏问题影响分类效果，在深度学习方法中，CNN、RNN、LSTM、GRU等模型也取得了较好的分类效果，但都存在着一些欠缺，如：CNN未考虑文本的语序，不能获取上下文信息；RNN虽然能对上下文信息进行记忆，但它长期依赖学习特征，容易出现梯度弥散的问题，并且RNN对局部的关键信息提取不够敏感，为了更好地提取文本关键信息，注意力机制被广泛应用于文本分类问题，其通过模仿人的注意力分配机制来计算不同词向量的权重，使关键词语的权重更高，从而获得高质量的文本特征信息，在此基础上，人们又提出了BERT模型使问句分类效果得到极大的提升。
[0003]对用户问题的有效分类是实现智能问答的关键技术，在...

【技术保护点】

【技术特征摘要】
1.基于预训练语言模型和主题增强的农业问句分类方法，其特征在于，包括以下步骤：S1、将农业问句分类文本数据进行预处理；S2、输入BERT模型得到文本的语义信息；S3、输入LDA模型得到文本的主题信息；S4、进行线性组合。2.根据权利要求1所述的基于预训练语言模型和主题增强的农业问句分类方法，其特征在于：所述步骤S1预处理的过程中，具体如下：1)使用分词工具将中文句子分割成一个个词语或字；2)在分词后的序列中添加特殊的起始标记[CLS]和终止标记[SEP]，以便BERT模型理解句子的开头和结尾；3)由于BERT模型对输入序列的长度有限制，需要将所有句子调整为相同的长度，对于较短的句子，可以通过添加特殊的填充标记[PAD]来达到相同长度；4)为了使BERT能够理解句子中不同单词之间的相对位置信息，需要为每个单词或子词添加位置嵌入；5)由于BERT模型可以处理可变长度的序列，但为了更好地控制信息流动，需要创建一个注意力掩码来指示哪些标记是真实的输入，哪些是填充标记。3.根据权利要求1所述的基于预训练语言模型和主题增强的农业问句分类方法，其特征在于：所述步骤S1中对文本预处理后，经过前面的预处理步骤的文本数据转换为模型可接受的张量形式，才能输入到BERT模型中进行计算。4.根据权利要求1所述的基于预训练语言模型和主题增强的农业问句分类方法，其特征在于：所述步骤S2中，输入的一个句子[CLS]E1，E2，E3...En[SEP]经过BERT模型后输出为[CLS]h1，h2，h3...hn[SEP]，输入到BERT模型的句子集合最后得到c1，c2，c3...cn。5.根据权利要求1所述的基于预训练语言模型和主题增强的农业问句分类方法，其特征在于：所述S3中具体如下：1)对输入到LDA模型的文本数据进行预处理，对中文句子进行分词、去除停用词、文本向量化等操作；2)设置LDA模型的训练参数；3)通过研究每个话题的概率分布，确定每个文档的感兴趣的话题。6.根据权利要求1所述的基于预训练语言模型和主题增强的农业问句分类方法，其特征在于：所述步骤S4中将BERT模型输出的c1，c2，c3...cn与LDA模型输出的t1，t2，t3...t...

【专利技术属性】
技术研发人员：熊蜀峰，沈佳龙，孙肖云，田文杰，席磊，
申请(专利权)人：河南农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人