问题语料库构建方法和装置、问答方法、设备及存储介质制造方法及图纸

技术编号:38902229 阅读:12 留言:0更新日期:2023-09-22 14:20
本申请实施例提供了一种问题语料库构建方法和装置、问答方法、设备及存储介质,属于金融科技技术领域。该方法包括:获取目标问题文本数据;根据预设的目标文本表示模型对目标问题文本数据进行向量转换,得到目标文本向量;根据预设的目标聚类模型对目标文本向量进行文本聚类处理,得到目标文本簇;其中,目标文本簇包括目标文本聚类向量;对目标文本聚类向量进行池化处理,得到目标文本簇的目标文本中心向量;对目标文本中心向量进行归一化处理,得到目标文本簇的目标聚类标签;其中,目标聚类标签用于表征目标文本簇的语义类别;根据目标聚类标签和目标文本簇构建问题语料库。本申请实施例能够提高构建问题语料库的准确性。实施例能够提高构建问题语料库的准确性。实施例能够提高构建问题语料库的准确性。

【技术实现步骤摘要】
问题语料库构建方法和装置、问答方法、设备及存储介质


[0001]本申请涉及金融科技
,尤其涉及一种问题语料库构建方法和装置、问答方法、设备及存储介质。

技术介绍

[0002]文本聚类,是指将语义相似的文本归为一类,并达到类内相似性最大,类间相似性最小的聚类效果,文本聚类方法可以用于构建问答助手的语料库。由于文本聚类方法为无监督的机器学习方法,即无法根据监督信号进行反馈学习,从而在一些场景中容易出现聚类效果不好的现象,例如在根据文本聚类方法对金融场景中问答助手的语料库进行构建时,容易出现语料库中各语料聚类有误的现象,从而对问答操作造成影响,如对应于保险咨询的语料库中包含保险理赔的语料。因此,如何提高根据文本聚类方法构建语料库的准确性,成了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种问题语料库构建方法和装置、问答方法、设备及存储介质,旨在提高构建问题语料库的准确性。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种问题语料库构建方法,所述方法包括:
[0005]获取目标问题文本数据;
[0006]根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换,得到目标文本向量;
[0007]根据预设的目标聚类模型对所述目标文本向量进行文本聚类处理,得到目标文本簇;其中,所述目标文本簇包括目标文本聚类向量;
[0008]对所述目标文本聚类向量进行池化处理,得到所述目标文本簇的目标文本中心向量;
[0009]对所述目标文本中心向量进行归一化处理,得到所述目标文本簇的目标聚类标签;其中,所述目标聚类标签用于表征所述目标文本簇的语义类别;
[0010]根据所述目标聚类标签和所述目标文本簇构建问题语料库。
[0011]在一些实施例,在所述根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换,得到目标文本向量之前,所述方法还包括训练所述目标文本表示模型,具体包括:
[0012]获取具有原始聚类标签的原始文本簇;其中,所述原始聚类标签用于表征所述原始文本簇的语义类别,所述原始文本簇包括原始问题文本数据;
[0013]根据预设的原始文本表示模型对所述原始问题文本数据进行向量转换,得到样本文本向量;
[0014]根据预设的原始聚类模型对所述样本文本向量进行文本聚类处理,得到样本文本
簇;其中,所述样本文本簇包括样本文本聚类向量;
[0015]对所述样本文本聚类向量进行池化处理,得到所述样本文本簇的样本文本中心向量;
[0016]对所述样本文本中心向量进行归一化处理,得到所述样本文本簇的样本聚类标签;其中,样本聚类标签用于表征所述样本文本簇的语义类别;
[0017]根据所述样本聚类标签、所述原始聚类标签对所述原始文本表示模型进行参数调整,得到所述目标文本表示模型。
[0018]在一些实施例,所述训练所述目标文本表示模型还包括对所述目标文本表示模型进行训练,具体包括:
[0019]根据所述样本聚类标签、所述原始聚类标签、所述原始问题文本数据进行聚类准确度计算,得到聚类准确值;
[0020]根据所述聚类准确值对所述原始聚类模型进行模型参数调整,得到初始聚类模型;
[0021]根据预设的目标文本表示模型对所述原始问题文本数据进行向量转换,得到训练文本向量;
[0022]根据所述初始聚类模型对所述训练文本向量进行文本聚类处理,得到训练样本文本簇;
[0023]根据所述训练样本文本簇对所述目标文本表示模型进行训练,直至所述聚类准确值等于预设准确阈值。
[0024]在一些实施例,所述根据所述聚类准确值对所述原始聚类模型进行模型参数调整,得到初始聚类模型,包括:
[0025]将所述聚类准确值与所述预设准确阈值进行比较,得到比较结果;
[0026]若所述比较结果表示所述聚类准确值小于所述预设准确阈值,则将所述样本文本中心向量作为所述原始聚类模型的中心向量,得到所述初始聚类模型。
[0027]在一些实施例,所述根据预设的原始聚类模型对所述样本文本向量进行文本聚类处理,得到样本文本簇,包括:
[0028]根据预设的簇数量对所述样本文本向量进行中心向量选取,得到原始文本中心向量;
[0029]根据所述原始文本中心向量对所述样本文本向量进行向量筛选,得到候选文本向量;
[0030]将所述候选文本向量与所述原始文本中心向量进行相似度计算,得到相似度值;
[0031]将数值最小的相似度值作为关键值,将关键值的原始文本中心向量作为关键文本中心向量,根据所述关键文本中心向量和所述候选文本向量得到所述样本文本簇。
[0032]在一些实施例,所述目标文本表示模型包括编码层和向量表示层;
[0033]所述根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换,得到目标文本向量,包括:
[0034]根据所述编码层对所述目标问题文本数据进行向量转换,得到初始文本向量;
[0035]根据所述向量表示层对所述初始文本向量进行语义融合处理,得到所述目标文本向量。
[0036]为实现上述目的,本申请实施例的第二方面提出了一种问答方法,所述方法包括:
[0037]获取待解答文本数据;
[0038]将所述待解答文本数据与预设问题语料库中的目标文本簇进行语义匹配,得到匹配结果;其中,所述预设问题语料库为根据第一方面所述的方法构建得到;
[0039]将所述匹配结果表示语义匹配的所述目标文本簇作为关键文本簇;
[0040]根据所述关键文本簇从预设的原始答案文本簇筛选得到关键答案文本簇;
[0041]根据所述关键答案文本簇进行答复处理,得到所述待解答文本数据的答案文本数据。
[0042]为实现上述目的,本申请实施例的第三方面提出了一种问题语料库构建装置,所述装置包括:
[0043]数据获取模块,用于获取目标问题文本数据;
[0044]向量转换模块,用于根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换,得到目标文本向量;
[0045]文本聚类模块,用于根据预设的目标聚类模型对所述目标文本向量进行文本聚类处理,得到目标文本簇;其中,所述目标文本簇包括目标文本聚类向量;
[0046]池化模块,用于对所述目标文本聚类向量进行池化处理,得到所述目标文本簇的目标文本中心向量;
[0047]归一化模块,用于对所述目标文本中心向量进行归一化处理,得到所述目标文本簇的目标聚类标签;其中,所述目标聚类标签用于表征所述目标文本簇的语义类别;
[0048]语料库构建模块,用于根据所述目标聚类标签和所述目标文本簇构建问题语料库。
[0049]为实现上述目的,本申请实施例的第四方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问题语料库构建方法,其特征在于,所述方法包括:获取目标问题文本数据;根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换,得到目标文本向量;根据预设的目标聚类模型对所述目标文本向量进行文本聚类处理,得到目标文本簇;其中,所述目标文本簇包括目标文本聚类向量;对所述目标文本聚类向量进行池化处理,得到所述目标文本簇的目标文本中心向量;对所述目标文本中心向量进行归一化处理,得到所述目标文本簇的目标聚类标签;其中,所述目标聚类标签用于表征所述目标文本簇的语义类别;根据所述目标聚类标签和所述目标文本簇构建问题语料库。2.根据权利要求1所述的方法,其特征在于,在所述根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换,得到目标文本向量之前,所述方法还包括训练所述目标文本表示模型,具体包括:获取具有原始聚类标签的原始文本簇;其中,所述原始聚类标签用于表征所述原始文本簇的语义类别,所述原始文本簇包括原始问题文本数据;根据预设的原始文本表示模型对所述原始问题文本数据进行向量转换,得到样本文本向量;根据预设的原始聚类模型对所述样本文本向量进行文本聚类处理,得到样本文本簇;其中,所述样本文本簇包括样本文本聚类向量;对所述样本文本聚类向量进行池化处理,得到所述样本文本簇的样本文本中心向量;对所述样本文本中心向量进行归一化处理,得到所述样本文本簇的样本聚类标签;其中,样本聚类标签用于表征所述样本文本簇的语义类别;根据所述样本聚类标签、所述原始聚类标签对所述原始文本表示模型进行参数调整,得到所述目标文本表示模型。3.根据权利要求2所述的方法,其特征在于,所述训练所述目标文本表示模型还包括对所述目标文本表示模型进行训练,具体包括:根据所述样本聚类标签、所述原始聚类标签、所述原始问题文本数据进行聚类准确度计算,得到聚类准确值;根据所述聚类准确值对所述原始聚类模型进行模型参数调整,得到初始聚类模型;根据预设的目标文本表示模型对所述原始问题文本数据进行向量转换,得到训练文本向量;根据所述初始聚类模型对所述训练文本向量进行文本聚类处理,得到训练样本文本簇;根据所述训练样本文本簇对所述目标文本表示模型进行训练,直至所述聚类准确值等于预设准确阈值。4.根据权利要求3所述的方法,其特征在于,所述根据所述聚类准确值对所述原始聚类模型进行模型参数调整,得到初始聚类模型,包括:将所述聚类准确值与所述预设准确阈值进行比较,得到比较结果;若所述比较结果表示所述聚类准确值小于所述预设准确阈值,则将所述样本文本中心
向量作为所述原始聚类模型的中心向量,得到所述初始聚类模型。5.根据权利要求2...

【专利技术属性】
技术研发人员:马龙文竹
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1