一种FAQ问答系统的新问题挖掘方法及终端技术方案

技术编号：34890589 阅读：29 留言：0更新日期：2022-09-10 13:49

本发明专利技术公开一种FAQ问答系统的新问题挖掘方法及终端，获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型；当新问题的数量达到第二预设值，则根据相似问题使用改进DEC聚类算法对新问题进行聚类并对预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型；根据第三聚类中心向量从新问题中确定一最相似问题，得到新标准问题，并将新标准问题保存至FAQ问答系统的知识库中，不断提高语义向量模型的质量，且通过改进DEC聚类算法对新问题进行聚类时加入与标准问题对应的相似问题，原始的标准问题向量依然适用，不需要每次微调模型后就对标准问题的聚类中心向量进行全量更新，从而持续性地挖掘新问题以及优化语义向量模型。题以及优化语义向量模型。题以及优化语义向量模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种FAQ问答系统的新问题挖掘方法及终端

[0001]本专利技术涉及自然语言处理
，尤其涉及一种FAQ问答系统的新问题挖掘方法及终端。

技术介绍

[0002]基于问答对的问答系统(即FAQ问答系统)是目前应用最为广泛的问答系统，其本质是一种基于检索的问答，即通过文本匹配技术从知识库中检索出与用户输入问题最相似的问题并返回其答案。现有的文本匹配算法主要分为传统文本匹配算法和深度语义匹配算法，前者包括TF
‑
IDF(Term Frequency
‑
Inverse Document Frequency，词频
‑
逆文本频率指数)、BM25(Best Match25，最佳匹配25)和Jaccard(Jaccard相似性系数)等，主要用来解决词汇层面的匹配问题；后者包括经典的DSSM(Deep Structured Semantic Models，双塔模型)及其衍生模型等，双塔模型主要通过将两段文本编码成固定长度的向量，通过计算两个向量间的余弦相似度来判断两段文本之间的相似性，其编码方式可以采用简单的Word2Vec(词向量)或LSTM(long short term memory，长短期记忆)、CNN(Convnet，卷积神经网络)、BERT(Bidirectional Encoder Representation from Transformers，预训练语言模型)等复杂的编码方式。
[0003]现有常用的聚类算法有K
‑
Means(kr/>‑
means clustering algorithm，K均值算法)、高斯混合模型以及谱聚类算法等，前两者速度快、适用范围广；谱聚类算法允许更灵活的距离度量，对数据分布的适应性更强，聚类性能更好。
[0004]但现有技术中还是存在如下缺点：
[0005]1、传统的文本匹配算法是基于词汇重合度的匹配算法，在语义匹配方面存在较大的局限性，而DSSM双塔模型需要大量有标签数据从头训练，成本较高，不适合低资源应用；
[0006]2、在传统的FAQ问答系统无法回答知识库中没有的问题；
[0007]3、K
‑
Means聚类算法和高斯混合模型的距离度量仅适用于原始数据空间，当特征维度较高时，通常需要先降维，效果较差；而谱聚类算法需要计算全图的拉普拉斯矩阵，当特征维度较高时，内存消耗较大，另外，K
‑
Means、高斯混合模型以及谱聚类算法均无法在聚类的同时微调特征向量。

技术实现思路

[0008]本专利技术所要解决的技术问题是：提供一种FAQ问答系统的新问题挖掘方法及终端，能够持续性地挖掘新问题以及优化语义向量模型。
[0009]为了解决上述技术问题，本专利技术采用的一种技术方案为：
[0010]一种FAQ问答系统的新问题挖掘方法，包括步骤：
[0011]获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型；
[0012]判断所述新问题的数量是否达到第二预设值，若是，则根据所述相似问题使用改进DEC聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚
类中心向量以及优化后的语言模型；
[0013]根据所述第三聚类中心向量从所述新问题中确定一最相似问题，得到新标准问题，并将所述新标准问题保存至所述FAQ问答系统的知识库中。
[0014]为了解决上述技术问题，本专利技术采用的另一种技术方案为：
[0015]一种FAQ问答系统的新问题挖掘终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
[0016]获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型；
[0017]判断所述新问题的数量是否达到第二预设值，若是，则根据所述相似问题使用改进DEC聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型；
[0018]根据所述第三聚类中心向量从所述新问题中确定一最相似问题，得到新标准问题，并将所述新标准问题保存至所述FAQ问答系统的知识库中。
[0019]本专利技术的有益效果在于：获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型，当新问题的数量达到第二预设值，则根据相似问题使用改进DEC聚类算法对新问题进行聚类并对预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型，根据第三聚类中心向量从新问题中确定一最相似问题，得到新标准问题，并将新标准问题保存至FAQ问答系统的知识库中，在对新问题进行聚类的同时对预训练的语言模型进行增量更新，不断提高语义向量模型的质量，且通过改进DEC聚类算法对新问题进行聚类时加入与标准问题对应的相似问题，使得模型优化后，原始的标准问题向量依然适用，不需要每次微调模型后就对标准问题的聚类中心向量进行全量更新，从而持续性地挖掘新问题以及优化语义向量模型。
附图说明
[0020]图1为本专利技术实施例的一种FAQ问答系统的新问题挖掘方法的步骤流程图；
[0021]图2为本专利技术实施例的一种FAQ问答系统的新问题挖掘终端的结构示意图；
[0022]图3为本专利技术实施例FAQ问答系统的新问题挖掘方法中的新问题挖掘流程图。
具体实施方式
[0023]为详细说明本专利技术的
技术实现思路
、所实现目的及效果，以下结合实施方式并配合附图予以说明。
[0024]请参照图1，本专利技术实施例提供了一种FAQ问答系统的新问题挖掘方法，包括步骤：
[0025]获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型；
[0026]判断所述新问题的数量是否达到第二预设值，若是，则根据所述相似问题使用改进DEC聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型；
[0027]根据所述第三聚类中心向量从所述新问题中确定一最相似问题，得到新标准问题，并将所述新标准问题保存至所述FAQ问答系统的知识库中。
[0028]从上述描述可知，本专利技术的有益效果在于：获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型，当新问题的数量达到第二预设值，则根据相似问题使
用改进DEC聚类算法对新问题进行聚类并对预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型，根据第三聚类中心向量从新问题中确定一最相似问题，得到新标准问题，并将新标准问题保存至FAQ问答系统的知识库中，在对新问题进行聚类的同时对预训练的语言模型进行增量更新，不断提高语义向量模型的质量，且通过改进DEC聚类算法对新问题进行聚类时加入与标准问题对应的相似问题，使得模型优化后，原始的标准问题向量依然适用，不需要每次微调模型后就对标准问题的聚类中心向量进行全量更新，从而持续性地挖掘新问题以及优化语义向量本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种FAQ问答系统的新问题挖掘方法，其特征在于，包括步骤：获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型；判断所述新问题的数量是否达到第二预设值，若是，则根据所述相似问题使用改进DEC聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型；根据所述第三聚类中心向量从所述新问题中确定一最相似问题，得到新标准问题，并将所述新标准问题保存至所述FAQ问答系统的知识库中。2.根据权利要求1所述的一种FAQ问答系统的新问题挖掘方法，其特征在于，所述获取FAQ问答系统对应的新问题的数量、相似问题以及预训练的语言模型之前包括步骤：获取FAQ问答系统的知识库中的标准问题和与所述标准问题对应的答案；将所述标准问题使用预训练的语言模型转换为第一聚类中心向量，并将所述第一聚类中心向量存储至向量检索库中；接收用户问题，并将所述用户问题使用所述预训练的语言模型转换为第二聚类中心向量；将所述第一聚类中心向量与所述第二聚类中心向量两两进行计算，得到多个余弦相似度；判断所述多个余弦相似度中是否存在大于且不等于第一预设值的余弦相似度，若是，则根据所述大于且不等于第一预设值的余弦相似度对应的第一聚类中心向量从所述知识库中确定一目标标准问题以及与所述目标标准问题对应的答案，并将所述用户问题标记为相似问题存储至数据库中，若否，则将所述用户问题标记为新问题存储至数据库中。3.根据权利要求2所述的一种FAQ问答系统的新问题挖掘方法，其特征在于，所述根据所述相似问题使用改进DEC聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型包括：从所述相似问题中随机抽取第一预设数量的相似问题，得到相似问题集，并根据所述相似问题集和所述新问题得到问题集；根据所述相似问题集和所述新问题确定聚类个数；使用所述预训练的语言模型初始化改进DEC聚类算法的编码层，并初始化所述聚类个数对应的第四聚类中心向量；通过所述编码层计算所述第四聚类中心向量和所述问题集对应的问题集向量；使用t分布计算所述问题集向量和所述第四聚类中心向量的第一相似性，并将所述第一相似性作为问题集向量分配至所述第四聚类中心向量的概率分布，得到第一概率分布；将所述第一概率分布提高至二次幂后进行归一化，得到目标分布；从所述问题集中随机抽取第二预设数量的问题，得到目标问题集，并计算所述目标问题集向量；使用所述t分布计算所述目标问题集向量和所述第四聚类中心向量的第二相似性，并将所述第二相似性作为目标问题集向量分配至所述第四聚类中心向量的概率分布，得到第二概率分布；计算所述第二概率分布和所述目标分布的KL散度，并使用反向传播梯度更新所述编码层和所述第四聚类中心向量中的第三聚类中心向量，得到更新后的编码层和更新后的第三
聚类中心向量；根据所述更新后的编码层得到优化后的语言模型。4.根据权利要求3所述的一种FAQ问答系统的新问题挖掘方法，其特征在于，所述初始化所述聚类个数对应的第四聚类中心向量包括：获取所述相似问题对应的标准问题的所述第一聚类中心向量；使用K
‑
Means算法计算所述新问题的第三聚类中心向量。5.根据权利要求2所述的一种FAQ问答系统的新问题挖掘方法，其特征在于，所述根据所述相似问题使用改进DEC聚类算法对所述新问题进行聚类并对所述预训练的语言模型进行优化，得到第三聚类中心向量以及优化后的语言模型之后包括步骤：获取模型优化次数，并将所述模型优化次数加一，得到更新后的模型优化次数；判断所述更新后的模型优化次数是否达到第三预设值，若是，则随机获取一标准问题，并使用所述预训练的语言模型将所述标准问题转换为第五聚类中心向量，使用所述优化后的语言模型将所述标准问题转换为第六聚类中心向量；计算所述第五聚类中心向量和所述第六聚类中心向量的向量相似度，并判断所述向量相似度是否小于第四预设值，若小于，则使用所述优化后的语言模型返回执行所述将所述标准问题使用预训练的语言模型转换为第一聚类中心向量步骤。6.一种FAQ问答系统的新问题挖掘终端，包括存储器、处理器及...

【专利技术属性】
技术研发人员：陈征宇，戴文艳，黄炳裕，林文国，倪坤，黄河，洪章阳，王伟宗，
申请(专利权)人：长威信息科技发展股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人