一种面向保险文本的样本采样方法与装置制造方法及图纸

技术编号：34125584 阅读：12 留言：0更新日期：2022-07-14 14:07

本发明专利技术公开了一种面向保险文本的样本采样方法与装置，该方法包括：基于语义的文本向量化和半监督采样两部分。半监督采样又分为最远点采样及标注，基于分布的再采样与再采样样本的标注，模型分类精度验证等步骤。本发明专利技术方法基于语义向量化结合半监督学习方法进行样本采样，在极少标注样本的条件下，可以实现媲美全样本标注的模型精度和鲁棒性，同时大幅减少模型训练的计算与时间成本。少模型训练的计算与时间成本。少模型训练的计算与时间成本。

A sample sampling method and device for insurance text

全部详细技术资料下载

【技术实现步骤摘要】
一种面向保险文本的样本采样方法与装置

[0001]本专利技术属于金融保险文本识别领域，尤其涉及一种面向保险文本的样本采样方法与装置。

技术介绍

[0002]随着金融保险行业信息化的发展，相关业务数据快速增长，人力的不足和精细化管理的需求使越来越多的深度学习模型被应用，但相应的数据标注任务量也快速增加。如何标注更少的样本，达到更好的样本多样性和模型鲁棒性，成为当前金融保险业模型研究的重要方向，它被称为困难样本挖掘问题。困难样本挖掘也是深度学习中的一项重要研究内容，相关研究分为两个方向：其一是通过加权增大困难样本的学习率，相关研究包括Focal loss，优点是可以提高模型收敛速度，但缺点是标注工作量未减少；其二是利用无监督或者半监督的方式对所有样本进行抽样，找出易混淆的困难样本，这种方法既可以减少标注样本的数量，又可以提高模型收敛速度，在实际工程应用中更为有效。
[0003]文本样本采样通常包括两个重要步骤，向量化和均匀采样。向量化过程保证文本转换为向量前后，相似性保持不变。均匀采样保证采样前后，样本空间覆盖范围和空间结构保持不变。文本向量化方式包括基于关键词的向量化TF
‑
IDF，BM25等，基于语义的向量化，如Topic
‑
embedding，Sent
‑
Bert。均匀采样方法包括最远点采样等。中国专利CN 112364130 A公开了一种文本采样方法，使用字符编码进行文本向量化，并使用编辑距离计算文本距离，但是此方法不能很好表示文本之间的语义相似性。中...

【技术保护点】

【技术特征摘要】
1.一种面向保险文本的样本采样方法，其特征在于，包括以下步骤：(1)构建文本相似性判定预训练模型，通过该模型进行文本向量化，得到总向量集；(2)对总向量集进行最远点初始采样与标注，实现采样均匀分布于空间中，得到已选点集；(3)设置样本数量，对初始样本集基于类间分布模型进行再采样，更新已选点集；(4)设置采样半径比例和精度阈值，利用更新后的已选点集进行模型训练与准确度验证，直至符合准确率，完成样本采样。2.根据权利要求1所述的面向保险文本的样本采样方法，其特征在于，所述文本相似性判定预训练模型为Sent
‑
Bert；所述Sent
‑
Bert为一文本相似性度量模型，以预训练后的Bert为底层模型，在该底层模型增加一对基于池化的嵌入层，形成的共享底层参数的孪生网络。3.根据权利要求2所述的面向保险文本的样本采样方法，其特征在于，所述预训练具体为：通过人工标注相似性的包括LCQMC，STS
‑
B，ATEC在内的中文数据库对Sent Bert进行精调训练。4.根据权利要求1所述的面向保险文本的样本采样方法，其特征在于，将一对保险文本输入文本相似性判定预训练模型，输出为两个向量；第一向量为文本向量化后的结果，组成得到总向量集；第二向量为空。5.根据权利要求1所述的面向保险文本的样本采样方法，其特征在于，所述步骤(2)具体包括以下子步骤：(2.1)根据样本的相似度与小样本学习设置初始采样集的样本数量；(2.2)选择初始点，选择距离数据中心最远的点，针对文本数据，利用余弦相似性计算向量间的相似度，将所有相似度进行排序，将最大的相似度作为距离其他文本向量最远的向量，建立已选点集；(2.3)计算其他点与已选点集的距离，选择最远点，更新已选点集；(2.4)重复上述步骤(2.1)～步骤(2.3)，直到已选点集的样本数量达到设置初始采样集的样本数量；(2.5)对步骤(2.4)得到采样样本，根据文本分类进行手动标注。6.根据权利要求1所述的面向保险文本的样本采样方法，其特征在于，所述步骤(3)具体为：假定每类样本都符合高斯分布，计算不同类样本的中心点和类内密度；计算类别边界和不同类中心之间边界点，将其表示为两类中心点的加权均值；根据边界点密度计算采样数量，利用大密度类的高斯标准差无偏估计设定采样半径，在边界点周围进行再采样，更新已选点集。7.根据权利要求6所述的面向保险文本的样本采样方法，其特征在于，假定每类样本都符合高斯分布，计算不同类样本的中心点C＝[c0,...]，类内密度D＝[d0...]，不同类的中心为类内样本的均值，计算公式如下：为类内样本的均值，计算公式如下...

【专利技术属性】
技术研发人员：丁锴，那崇宁，陈奎，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人