一种基于神经网络编码器的团险保单聚类分析方法技术

技术编号：41348669 阅读：5 留言：0更新日期：2024-05-20 10:03

本发明专利技术涉及金融服务技术领域，尤其涉及一种基于神经网络编码器的团险保单聚类分析方法，包括根据神经网络编码器处理团险保单数据以输出团险保单数据的语义向量；根据单个团险保单数据的数据评价值确定对初始离群点的标记；确定聚类算法的邻域半径以及最小样本点数；根据聚类算法对若干团险保单数据的语义向量进行聚类分析；根据聚类分析结果的轮廓系数确定对聚类算法的邻域半径的调整；根据聚类分析结果的噪声评价值确定聚类分析结果的合格性；根据聚类分析结果中离群点数量确定对调整系数的修正，本发明专利技术克服了现有技术中团险保单数据的维度高噪声大导致团险保单数据的聚类分析的精确度差效率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及金融服务，尤其涉及一种基于神经网络编码器的团险保单聚类分析方法。

技术介绍

1、在团体保险(团险)业务中，保单的聚类分析是一项重要的任务，它可以帮助保险公司更好地理解客户群体的特征，优化产品设计，制定差异化的定价策略，以及提高风险管理的效率。然而，团险保单数据通常具有高维度和复杂性，这使得传统的聚类方法难以有效处理。此外，团险保单数据中可能含有离群点，这些离群点会对聚类结果造成干扰，进而影响聚类的准确性和可靠性。

2、中国专利公开号：cn108460689a公开了一种保单分析方法、装置、终端设备及存储介质，包括：从保单数据库中获取每个保单的保单信息，其中，所述保单信息包括保单标识信息、保单对象的属性信息和保险销售人员的身份标识信息，所述保单标识信息用于唯一标识所述保单，所述身份标识信息用于唯一标识所述保险销售人员；对所述保单信息进行分析，将具有相同所述属性信息的值的保单信息对应的保单之间基于该属性信息进行关联，构建保单关系网络；为每个所述保单关系网络设置唯一的子网络号；根据所述身份标识信息，将每个所述保单关系网络的子网络号写入该保单关系网络涉及到的所述保险销售人员的个人信息中，其中，所述个人信息包括所述身份标识信息；从业务员数据库中获取每个保险销售人员的个人信息；对所述个人信息进行分析，将具有相同所述个人信息的值的保险销售人员之间基于该个人信息进行关联，构建业务员关系网络，包括：根据所述个人信息确定第二待匹配参数；针对每个所述第二待匹配参数，对所述保险销售人员进行遍历，在具有相同第二参数值的不同保险销售

3、由此可见，现有技术存在以下问题：由于团险保单数据的维度高噪声大，导致团险保单数据的聚类分析的精确度差效率低。

技术实现思路

1、为此，本专利技术提供一种基于神经网络编码器的团险保单聚类分析方法，用以克服现有技术中团险保单数据的维度高噪声大导致团险保单数据的聚类分析的精确度差效率低的问题。

2、为实现上述目的，本专利技术提供一种基于神经网络编码器的团险保单聚类分析方法，包括：

3、根据神经网络编码器处理团险保单数据以输出团险保单数据的语义向量；

4、根据单个团险保单数据的数据评价值确定对初始离群点的标记；

5、确定聚类算法的邻域半径以及最小样本点数；

6、根据聚类算法对若干团险保单数据的语义向量进行聚类分析；

7、根据聚类分析结果的轮廓系数确定对聚类算法的邻域半径的调整；

8、确定聚类分析结果的噪声评价值，并根据聚类分析结果的噪声评价值确定聚类分析结果的合格性；

9、根据聚类分析结果中离群点数量确定对调整系数的修正。

10、进一步地，所述单个团险保单数据的数据评价值根据以下公式计算，设定

11、

12、其中，p表示单个团险保单数据的数据评价值，a表示单个团险保单数据的语义向量与其最相邻的团险保单数据的语义向量之间的距离，a0表示若干团险保单数据的语义向量之间的平均距离。

13、进一步地，所述根据单个团险保单数据的数据评价值确定对初始离群点的标记包括在所述数据评价值大于预设数据评价值的条件下将所述单个团险保单数据标记为初始离群点。

14、进一步地，所述确定聚类算法的邻域半径以及最小样本点数包括确定除初始离群点以外的每个团险保单数据的语义向量到距离其第k近的语义向量的距离，将所述距离按照从大到小的顺序排列，选取当前距离与前一个距离的差值的绝对值最大的当前距离作为聚类算法的邻域半径，聚类算法的邻域半径内存在的最小样本点数为团险保单数据的语义向量的维度数加1。

15、进一步地，所述根据聚类分析结果的轮廓系数确定对聚类算法的邻域半径的调整包括在所述轮廓系数小于等于预设轮廓系数的条件下对聚类算法的邻域半径进行调整。

16、进一步地，所述对聚类算法的邻域半径进行调整包括在相对差小于等于预设相对差的条件下以第一调整系数对邻域半径进行调整，在相对差大于预设相对差的条件下以第二调整系数对邻域半径进行调整，所述相对差由所述轮廓系数与预设轮廓系数确定。

17、进一步地，所述噪声评价值根据以下公式计算，设定

18、

19、其中，z表示噪声评价值，l表示聚类分析结果中离群点数量，l0表示初始离群点数量。

20、进一步地，所述根据聚类分析结果的噪声评价值确定聚类分析结果的合格性包括在所述噪声评价值小于等于预设噪声评价值的条件下确定聚类分析结果合格。

21、进一步地，所述根据聚类分析结果中离群点数量确定对调整系数的修正包括在离群点数量小于等于初始离群点数量的条件下对调整系数进行修正，在离群点数量大于初始离群点数量的条件下对最小样本点数进行修正。

22、进一步地，所述对调整系数进行修正包括根据以下第一修正系数对调整系数进行修正，设定

23、

24、其中，g1表示第一修正系数；

25、所述对最小样本点数进行修正包括根据以下第二修正系数对最小样本点数进行修正，设定

26、

27、其中，g2表示第二修正系数。

28、与现有技术相比，本专利技术的有益效果在于，本专利技术根据单个团险保单数据的语义向量与其最相邻的团险保单数据的语义向量之间的距离以及若干团险保单数据的语义向量之间的平均距离精确评估单个团险保单数据的语义向量与若干团险保单数据的语义向量的空间位置关系。

29、进一步地，本专利技术根据所述数据评价值与预设数据评价值的比对结果确定所述单个团险保单数据是否标记为初始离群点，用以将噪声数据筛选出来有助于保持聚类结构的完整性，使得聚类更加紧密，提高聚类结果的准确性和可靠性。

30、进一步地，本专利技术根据除初始离群点以外的每个团险保单数据的语义向量到距离其第k近的语义向量的距离确定聚类算法的邻域半径，避免了初始离群点的干扰，更加精确高效确定邻域半径。

31、进一步地，本专利技术根据轮廓系数与预设轮廓系数的比对结果确定是否对聚类算法的邻域半径进行调整，有助于判断当前聚类是否已经达到合理的水平以确定本文档来自技高网...

【技术保护点】

1.一种基于神经网络编码器的团险保单聚类分析方法，其特征在于，包括：

2.根据权利要求1所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述单个团险保单数据的数据评价值根据以下公式计算，设定

3.根据权利要求2所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述根据单个团险保单数据的数据评价值确定对初始离群点的标记包括在所述数据评价值大于预设数据评价值的条件下将所述单个团险保单数据标记为初始离群点。

4.根据权利要求3所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述确定聚类算法的邻域半径以及最小样本点数包括确定除初始离群点以外的每个团险保单数据的语义向量到距离其第K近的语义向量的距离，将所述距离按照从大到小的顺序排列，选取当前距离与前一个距离的差值的绝对值最大的当前距离作为聚类算法的邻域半径，聚类算法的邻域半径内存在的最小样本点数为团险保单数据的语义向量的维度数加1。

5.根据权利要求4所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述根据聚类分析结果的轮廓系数确定对聚类算法的邻

6.根据权利要求5所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述对聚类算法的邻域半径进行调整包括在相对差小于等于预设相对差的条件下以第一调整系数对邻域半径进行调整，在相对差大于预设相对差的条件下以第二调整系数对邻域半径进行调整，所述相对差由所述轮廓系数与预设轮廓系数确定。

7.根据权利要求6所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述噪声评价值根据以下公式计算，设定

8.根据权利要求7所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述根据聚类分析结果的噪声评价值确定聚类分析结果的合格性包括在所述噪声评价值小于等于预设噪声评价值的条件下确定聚类分析结果合格。

9.根据权利要求8所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述根据聚类分析结果中离群点数量确定对调整系数的修正包括在离群点数量小于等于初始离群点数量的条件下对调整系数进行修正，在离群点数量大于初始离群点数量的条件下对最小样本点数进行修正。

10.根据权利要求9所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述对调整系数进行修正包括根据以下第一修正系数对调整系数进行修正，设定

...

【技术特征摘要】

1.一种基于神经网络编码器的团险保单聚类分析方法，其特征在于，包括：

2.根据权利要求1所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述单个团险保单数据的数据评价值根据以下公式计算，设定

4.根据权利要求3所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述确定聚类算法的邻域半径以及最小样本点数包括确定除初始离群点以外的每个团险保单数据的语义向量到距离其第k近的语义向量的距离，将所述距离按照从大到小的顺序排列，选取当前距离与前一个距离的差值的绝对值最大的当前距离作为聚类算法的邻域半径，聚类算法的邻域半径内存在的最小样本点数为团险保单数据的语义向量的维度数加1。

5.根据权利要求4所述的基于神经网络编码器的团险保单聚类分析方法，其特征在于，所述根据聚类分析结果的轮廓系数确定对聚类算法的邻域半径的调整包括在所述轮廓系数小于等于预设轮廓系数的条件下对聚类算法的邻域半径进行调整。

【专利技术属性】
技术研发人员：郝磊，郭志扬，刘戈杰，
申请(专利权)人：上海栈略数据技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人