问题语料库构建方法和装置、问答方法、设备及存储介质制造方法及图纸

技术编号：38902229 阅读：12 留言：0更新日期：2023-09-22 14:20

本申请实施例提供了一种问题语料库构建方法和装置、问答方法、设备及存储介质，属于金融科技技术领域。该方法包括：获取目标问题文本数据；根据预设的目标文本表示模型对目标问题文本数据进行向量转换，得到目标文本向量；根据预设的目标聚类模型对目标文本向量进行文本聚类处理，得到目标文本簇；其中，目标文本簇包括目标文本聚类向量；对目标文本聚类向量进行池化处理，得到目标文本簇的目标文本中心向量；对目标文本中心向量进行归一化处理，得到目标文本簇的目标聚类标签；其中，目标聚类标签用于表征目标文本簇的语义类别；根据目标聚类标签和目标文本簇构建问题语料库。本申请实施例能够提高构建问题语料库的准确性。实施例能够提高构建问题语料库的准确性。实施例能够提高构建问题语料库的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
问题语料库构建方法和装置、问答方法、设备及存储介质

[0001]本申请涉及金融科技
，尤其涉及一种问题语料库构建方法和装置、问答方法、设备及存储介质。

技术介绍

[0002]文本聚类，是指将语义相似的文本归为一类，并达到类内相似性最大，类间相似性最小的聚类效果，文本聚类方法可以用于构建问答助手的语料库。由于文本聚类方法为无监督的机器学习方法，即无法根据监督信号进行反馈学习，从而在一些场景中容易出现聚类效果不好的现象，例如在根据文本聚类方法对金融场景中问答助手的语料库进行构建时，容易出现语料库中各语料聚类有误的现象，从而对问答操作造成影响，如对应于保险咨询的语料库中包含保险理赔的语料。因此，如何提高根据文本聚类方法构建语料库的准确性，成了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种问题语料库构建方法和装置、问答方法、设备及存储介质，旨在提高构建问题语料库的准确性。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种问题语料库构建方法，所述方法包括：
[0005]获取目标问题文本数据；
[0006]根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换，得到目标文本向量；
[0007]根据预设的目标聚类模型对所述目标文本向量进行文本聚类处理，得到目标文本簇；其中，所述目标文本簇包括目标文本聚类向量；
[0008]对所述目标文本聚类向量进行池化处理，得到所述目标文本簇的目标文本中心向量；
[0009]...

【技术保护点】

【技术特征摘要】
1.一种问题语料库构建方法，其特征在于，所述方法包括：获取目标问题文本数据；根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换，得到目标文本向量；根据预设的目标聚类模型对所述目标文本向量进行文本聚类处理，得到目标文本簇；其中，所述目标文本簇包括目标文本聚类向量；对所述目标文本聚类向量进行池化处理，得到所述目标文本簇的目标文本中心向量；对所述目标文本中心向量进行归一化处理，得到所述目标文本簇的目标聚类标签；其中，所述目标聚类标签用于表征所述目标文本簇的语义类别；根据所述目标聚类标签和所述目标文本簇构建问题语料库。2.根据权利要求1所述的方法，其特征在于，在所述根据预设的目标文本表示模型对所述目标问题文本数据进行向量转换，得到目标文本向量之前，所述方法还包括训练所述目标文本表示模型，具体包括：获取具有原始聚类标签的原始文本簇；其中，所述原始聚类标签用于表征所述原始文本簇的语义类别，所述原始文本簇包括原始问题文本数据；根据预设的原始文本表示模型对所述原始问题文本数据进行向量转换，得到样本文本向量；根据预设的原始聚类模型对所述样本文本向量进行文本聚类处理，得到样本文本簇；其中，所述样本文本簇包括样本文本聚类向量；对所述样本文本聚类向量进行池化处理，得到所述样本文本簇的样本文本中心向量；对所述样本文本中心向量进行归一化处理，得到所述样本文本簇的样本聚类标签；其中，样本聚类标签用于表征所述样本文本簇的语义类别；根据所述样本聚类标签、所述原始聚类标签对所述原始文本表示模型进行参数调整，得到所述目标文本表示模型。3.根据权利要求2所述的方法，其特征在于，所述训练所述目标文本表示模型还包括对所述目标文本表示模型进行训练，具体包括：根据所述样本聚类标签、所述原始聚类标签、所述原始问题文本数据进行聚类准确度计算，得到聚类准确值；根据所述聚类准确值对所述原始聚类模型进行模型参数调整，得到初始聚类模型；根据预设的目标文本表示模型对所述原始问题文本数据进行向量转换，得到训练文本向量；根据所述初始聚类模型对所述训练文本向量进行文本聚类处理，得到训练样本文本簇；根据所述训练样本文本簇对所述目标文本表示模型进行训练，直至所述聚类准确值等于预设准确阈值。4.根据权利要求3所述的方法，其特征在于，所述根据所述聚类准确值对所述原始聚类模型进行模型参数调整，得到初始聚类模型，包括：将所述聚类准确值与所述预设准确阈值进行比较，得到比较结果；若所述比较结果表示所述聚类准确值小于所述预设准确阈值，则将所述样本文本中心
向量作为所述原始聚类模型的中心向量，得到所述初始聚类模型。5.根据权利要求2...

【专利技术属性】
技术研发人员：马龙，文竹，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人