当前位置: 首页 > 专利查询>之江实验室专利>正文

一种面向保险文本的样本采样方法与装置制造方法及图纸

技术编号:34125584 阅读:12 留言:0更新日期:2022-07-14 14:07
本发明专利技术公开了一种面向保险文本的样本采样方法与装置,该方法包括:基于语义的文本向量化和半监督采样两部分。半监督采样又分为最远点采样及标注,基于分布的再采样与再采样样本的标注,模型分类精度验证等步骤。本发明专利技术方法基于语义向量化结合半监督学习方法进行样本采样,在极少标注样本的条件下,可以实现媲美全样本标注的模型精度和鲁棒性,同时大幅减少模型训练的计算与时间成本。少模型训练的计算与时间成本。少模型训练的计算与时间成本。

A sample sampling method and device for insurance text

【技术实现步骤摘要】
一种面向保险文本的样本采样方法与装置


[0001]本专利技术属于金融保险文本识别领域,尤其涉及一种面向保险文本的样本采样方法与装置。

技术介绍

[0002]随着金融保险行业信息化的发展,相关业务数据快速增长,人力的不足和精细化管理的需求使越来越多的深度学习模型被应用,但相应的数据标注任务量也快速增加。如何标注更少的样本,达到更好的样本多样性和模型鲁棒性,成为当前金融保险业模型研究的重要方向,它被称为困难样本挖掘问题。困难样本挖掘也是深度学习中的一项重要研究内容,相关研究分为两个方向:其一是通过加权增大困难样本的学习率,相关研究包括Focal loss,优点是可以提高模型收敛速度,但缺点是标注工作量未减少;其二是利用无监督或者半监督的方式对所有样本进行抽样,找出易混淆的困难样本,这种方法既可以减少标注样本的数量,又可以提高模型收敛速度,在实际工程应用中更为有效。
[0003]文本样本采样通常包括两个重要步骤,向量化和均匀采样。向量化过程保证文本转换为向量前后,相似性保持不变。均匀采样保证采样前后,样本空间覆盖范围和空间结构保持不变。文本向量化方式包括基于关键词的向量化TF

IDF,BM25等,基于语义的向量化,如Topic

embedding,Sent

Bert。均匀采样方法包括最远点采样等。中国专利CN 112364130 A公开了一种文本采样方法,使用字符编码进行文本向量化,并使用编辑距离计算文本距离,但是此方法不能很好表示文本之间的语义相似性。中国专利CN 112329427 A公开了一种短信样本的获取方法,采用多重去重复的方式进行短信采样,使用短信模板结合短信来源时间等特征进行相似度量化,并以分类不确定性指标为最后一重筛选标注样本的方法,此方法对短信文本比较有效,但同样未考虑样本的语义相似性。

技术实现思路

[0004]针对现有技术不足,本专利技术提出了一种面向保险文本的样本采样方法与装置。
[0005]为实现上述技术目的,本专利技术的技术方案为:
[0006]本专利技术实施例的第一方面提供了一种面向保险文本的样本采样方法,包括以下步骤:
[0007](1)构建文本相似性判定预训练模型,通过该模型进行文本向量化,得到总向量集;
[0008](2)对总向量集进行最远点初始采样与标注,实现采样均匀分布于空间中,得到已选点集;
[0009](3)设置样本数量,对初始样本集基于类间分布模型进行再采样,更新已选点集;
[0010](4)设置采样半径比例和精度阈值,利用更新后的已选点集进行模型训练与准确度验证,直至符合准确率,完成样本采样。
[0011]进一步地,所述文本相似性判定预训练模型为Sent

Bert;所述Sent

Bert为一文
本相似性度量模型,以预训练后的Bert为底层模型,在该底层模型增加一对基于池化的嵌入层,形成的共享底层参数的孪生网络。
[0012]进一步地,所述预训练具体为:通过人工标注相似性的包括LCQMC,STS

B,ATEC在内的中文数据库对Sent Bert进行精调训练。
[0013]进一步地,将一对保险文本输入文本相似性判定预训练模型,输出为两个向量;第一向量为文本向量化后的结果,组成得到总向量集;第二向量为空。
[0014]进一步地,所述步骤(2)具体包括以下子步骤:
[0015](2.1)根据样本的相似度与小样本学习设置初始采样集的样本数量;
[0016](2.2)选择初始点,选择距离数据中心最远的点,针对文本数据,利用余弦相似性计算向量间的相似度,将所有相似度进行排序,将最大的相似度作为距离其他文本向量最远的向量,建立已选点集;
[0017](2.3)计算其他点与已选点集的距离,选择最远点,更新已选点集;
[0018](2.4)重复上述步骤(2.1)~步骤(2.3),直到已选点集的样本数量达到设置初始采样集的样本数量;
[0019](2.5)对步骤(2.4)得到采样样本,根据文本分类进行手动标注。
[0020]进一步地,所述步骤(3)具体为:假定每类样本都符合高斯分布,计算不同类样本的中心点和类内密度;计算类别边界和不同类中心之间边界点,将其表示为两类中心点的加权均值;根据边界点密度计算采样数量,利用大密度类的高斯标准差无偏估计设定采样半径,在边界点周围进行再采样,更新已选点集。
[0021]进一步地,假定每类样本都符合高斯分布,计算不同类样本的中心点C=[c0,...],类内密度D=[d0...],不同类的中心为类内样本的均值,计算公式如下:
[0022][0023][0024]其中,t
i
表示第i类别的标签值,l
k
为已选点集中第k个样本的标签值;a
k
表示第k个样本的向量,c
i
为第i类的中心点;
[0025]计算类别边界,不同类中心之间边界点,被表示为两类中心点的加权均值,计算公式如下:
[0026][0027]上式,b
ij
表示i,j类间边界点,c
i
表示i类中心点,为归一化权重;norm表示数组归一化;
[0028]在边界点周围采样;边界点涉及两个类,计算两个类在边界点的密度,即:
[0029]d

i
=count(b
ij

s
k
<r
i
),s
k
∈S

A
[0030]式中,d

表示密度,s
k
为已选点集A以外的第k个样本,S为所有样本的集,r
i
为第i类的采样半径,采样半径类内样本的高斯标准差无偏估计,即:
[0031][0032]式中,n为第i类已选点集的样本总数量,a
ij
为第i类的第j个样本,c
i
为第i类的中心点;再采样点为距离边界点一定半径内样本的数量,为避免重复,仅对边界点对应两类中密度较大的一类进行采样,定义为:
[0033][0034]式中,s
k
为已选点集A以外的第k个样本,b
ij
表示i,j类间边界点,当第i类密度较大时,再采样点按照r
i
进行选取,满足上式条件的样本s
k
被加入已选点集,更新已选点集。
[0035]进一步地,所述步骤(4)具体为:设置采样半径比例和精度阈值,采样若干条数据作为测试集,将更新后的已选点集作为训练集;利用训练集对分类器进行训练,然后使用分类器对测试集进行分类预测;计算准确率,若达到预设精度阈值,则完成样本采样;若不符合预测精度阈值,则调整采样半径比例,重复步骤(3)直至达到预设精度阈值,完成样本采样。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向保险文本的样本采样方法,其特征在于,包括以下步骤:(1)构建文本相似性判定预训练模型,通过该模型进行文本向量化,得到总向量集;(2)对总向量集进行最远点初始采样与标注,实现采样均匀分布于空间中,得到已选点集;(3)设置样本数量,对初始样本集基于类间分布模型进行再采样,更新已选点集;(4)设置采样半径比例和精度阈值,利用更新后的已选点集进行模型训练与准确度验证,直至符合准确率,完成样本采样。2.根据权利要求1所述的面向保险文本的样本采样方法,其特征在于,所述文本相似性判定预训练模型为Sent

Bert;所述Sent

Bert为一文本相似性度量模型,以预训练后的Bert为底层模型,在该底层模型增加一对基于池化的嵌入层,形成的共享底层参数的孪生网络。3.根据权利要求2所述的面向保险文本的样本采样方法,其特征在于,所述预训练具体为:通过人工标注相似性的包括LCQMC,STS

B,ATEC在内的中文数据库对Sent Bert进行精调训练。4.根据权利要求1所述的面向保险文本的样本采样方法,其特征在于,将一对保险文本输入文本相似性判定预训练模型,输出为两个向量;第一向量为文本向量化后的结果,组成得到总向量集;第二向量为空。5.根据权利要求1所述的面向保险文本的样本采样方法,其特征在于,所述步骤(2)具体包括以下子步骤:(2.1)根据样本的相似度与小样本学习设置初始采样集的样本数量;(2.2)选择初始点,选择距离数据中心最远的点,针对文本数据,利用余弦相似性计算向量间的相似度,将所有相似度进行排序,将最大的相似度作为距离其他文本向量最远的向量,建立已选点集;(2.3)计算其他点与已选点集的距离,选择最远点,更新已选点集;(2.4)重复上述步骤(2.1)~步骤(2.3),直到已选点集的样本数量达到设置初始采样集的样本数量;(2.5)对步骤(2.4)得到采样样本,根据文本分类进行手动标注。6.根据权利要求1所述的面向保险文本的样本采样方法,其特征在于,所述步骤(3)具体为:假定每类样本都符合高斯分布,计算不同类样本的中心点和类内密度;计算类别边界和不同类中心之间边界点,将其表示为两类中心点的加权均值;根据边界点密度计算采样数量,利用大密度类的高斯标准差无偏估计设定采样半径,在边界点周围进行再采样,更新已选点集。7.根据权利要求6所述的面向保险文本的样本采样方法,其特征在于,假定每类样本都符合高斯分布,计算不同类样本的中心点C=[c0,...],类内密度D=[d0...],不同类的中心为类内样本的均值,计算公式如下:为类内样本的均值,计算公式如下...

【专利技术属性】
技术研发人员:丁锴那崇宁陈奎
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1