一种基于特征分类的问答方法及系统技术方案

技术编号：38008557 阅读：13 留言：0更新日期：2023-06-30 10:26

本发明专利技术涉及一种基于特征分类的问答方法及系统，属于自然语言处理技术领域；解决现有技术中的问答模型推断速度慢，且答案预测不够准确的问题。本发明专利技术的问答方法包括以下步骤：获取待处理问题，得到待处理问题对应的类别；在文本语料库中搜索与待处理问题相同类别且相关度最高的原始文本数据；文本语料库包括多个不同类别的原始文本数据；将待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量，将两个特征向量输入预先训练的智能问答模型的答案预测模块，基于待处理问题对应的特征向量，在原始文本对应的特征向量中预测得到待处理问题对应的答案。预测得到待处理问题对应的答案。预测得到待处理问题对应的答案。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征分类的问答方法及系统

[0001]本专利技术涉及自然语言处理
，特别涉及一种基于特征分类的问答方法及系统。

技术介绍

[0002]近年来，端到端的问答模型的研究取得了显著的进步，也得到了广泛的应用，目前的问答模型通常会利用两个关键的组成部分：处理序列化输入的循环模型和处理长期交互的注意力组件。
[0003]而现有模型的循环性质导致训练和推断都十分缓慢，特别是对于长文本来说，高昂的训练开销不仅导致了很长的实验周期，限制了研究者进行迅速的迭代，还妨碍了模型被用于大型数据集。且缓慢的推断阻碍了机器阅读理解系统在实时应用中的部署。
[0004]因此，如何使得问答模型更加迅速地获取并理解大问答对与文本的注意关系，并更加快速且准确地预测出问题对应的答案信息，成为目前急需解决的问题。

技术实现思路

[0005]鉴于上述的分析，本专利技术旨在提供一种基于特征分类的问答方法及系统；解决现有技术中的问答模型推断速度慢，且答案预测不够准确的问题。
[0006]本专利技术的目的主要是通过以下技术方案实现的：一方面，本专利技术提供了一种基于特征分类的问答方法，包括以下步骤：获取待处理问题，得到所述待处理问题对应的类别；在文本语料库中搜索与所述待处理问题相同类别且相关度最高的原始文本数据；所述文本语料库包括多个不同类别的原始文本数据；将所述待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量，将两个特征向量输入预先训练的智能问答模型的...

【技术保护点】

【技术特征摘要】
1.一种基于特征分类的问答方法，其特征在于，包括以下步骤：获取待处理问题，得到所述待处理问题对应的类别；在文本语料库中搜索与所述待处理问题相同类别且相关度最高的原始文本数据；所述文本语料库包括多个不同类别的原始文本数据；将所述待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量，将两个特征向量输入预先训练的智能问答模型的答案预测模块，基于所述待处理问题对应的特征向量，在原始文本对应的特征向量中预测得到所述待处理问题对应的答案。2.根据权利要求1所述的基于特征分类的问答方法，其特征在于，通过智能问答模型的特征分类模块得到所述待处理问题对应的类别，包括：所述特征分类模块为基于Bert
‑
LSTM的分类模块；将获取的所述待处理问题输入所述特征分类模块的Bert层，进行特征提取和向量表示，得到具有文本语义信息的特征向量；将得到的所述特征向量输入LSTM层，经过时间序列特征提取并进行分类，得到所述待处理问题的类别。3.根据权利要求2所述的基于特征分类的问答方法，其特征在于，所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层；所述输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入，得到输入嵌入层隐向量；所述嵌入编码层用于基于所述输入嵌入层隐向量进行特征提取及注意力计算，得到具有全文语义信息的编码表示；所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度；所述模型编码器层用于基于原始文本的编码表示及所述第一关注度和第二关注度提取得到全局信息的特征、以及预测答案在原始文本数据中的开始位置特征和结束位置特征；所述输出层用于基于全局信息的特征、开始位置特征和结束位置特征预测原始文本数据中每个位置的单词作为答案开始或结束的概率，并输出所述待处理问题对应的答案。4.根据权利要求3所述的基于特征分类的问答方法，其特征在于，所述智能问答模型的训练包括：基于所述文本语料库中的原始文本数据构建标准问答对，基于所述标准问答对、原始文本和类别标签构建得到训练样本集；所述标准问答对中包括标准问题和标准答案；基于所述训练样本集中的标准问题、标准答案和原始文本数据以及类别标签，利用损失函数对所述特征分类模块进行迭代训练，得到收敛的所述智能问答模型的特征分类模块；将所述特征分类模块中Bert层输出的所述标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合，得到对应的带有类别信息的特征向量；
将带有类别信息的各个特征向量分别输入所述答案预测模块，基于标准问题和标准答案对应的特征向量，在原始文本特征向量中预测答案，经过损失函数迭代更新，得到收敛的所述智能问答模型的答案预测模块。5.根据权利要求3所述的基于特征分类的问答方法，其特征在于，所...

【专利技术属性】
技术研发人员：孟英谦，彭龙，李胜昌，任智颖，邵鹏志，谢志豪，张世超，李泽宇，宋彪，高圣楠，魏中锐，胡明哲，姜伟，张子烁，邬书豪，葛祥雨，
申请(专利权)人：中国兵器工业计算机应用技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人