【技术实现步骤摘要】
名称标准化方法、装置、介质及电子设备
本专利技术涉及数据处理
,具体而言,涉及一种名称标准化方法、装置、介质及电子设备。
技术介绍
在进行数据分析之前,通常需要先将数据进行标准化以实现不同性质数据的可比性,从而便于综合测评分析。在保险领域,客户购买相关健康险产品时需要进行体检,保险公司需要根据客户的体检信息来判断是否对客户进行承保,这个过程称为核保。然而,出自不同体检机构或者不同医院的体检数据在体检项的命名上会存在差异,如果能将不同的体检项名称统一到一套标准化的名称上,则会方便后续对体检信息进行自动化分析,从而提升体检大数据处理效率。具体来说,在核保过程中通常以影像的形式记录客户投保资料,并且通过相关的人工智能技术来提取影像中的文本信息(包括体检信息),之后关键的一步就是对体检信息进行标准化,因为只有标准化的体检项数据才能输送到后续步骤进行体检项阴阳性判断和特征提取,直至进行自动化的核保判断。因此,对体检项的名称进行标准化尤为重要。当前,对体检项名称进行标准化通常采用编辑距离方法,该方法包括:确定所有标准体检项 ...
【技术保护点】
1.一种名称标准化方法,其特征在于,包括:/n构建待标准化名称的表示向量;其中,所述待标准化名称的表示向量是通过将所述待标准化名称中所有字的字向量进行拼接并且从拼接结果映射得到的;/n计算每个标准名称的表示向量与所述待标准化名称的表示向量之间的距离,根据所述距离确定所述待标准化名称所对应的标准名称;/n其中,构建待标准化名称的表示向量包括:/n构建所述待标准化名称中每个字的字向量;/n将所述待标准化名称中所有字的字向量进行拼接;/n将拼接结果输入训练好的名称向量化模型,得到所述待标准化名称的表示向量。/n
【技术特征摘要】
1.一种名称标准化方法,其特征在于,包括:
构建待标准化名称的表示向量;其中,所述待标准化名称的表示向量是通过将所述待标准化名称中所有字的字向量进行拼接并且从拼接结果映射得到的;
计算每个标准名称的表示向量与所述待标准化名称的表示向量之间的距离,根据所述距离确定所述待标准化名称所对应的标准名称;
其中,构建待标准化名称的表示向量包括:
构建所述待标准化名称中每个字的字向量;
将所述待标准化名称中所有字的字向量进行拼接;
将拼接结果输入训练好的名称向量化模型,得到所述待标准化名称的表示向量。
2.根据权利要求1所述的方法,其特征在于,构建所述待标准化名称中每个字的字向量包括:
对于所述待标准化名称中的每个字,构建该字的字形向量和上下文向量,将该字的字形向量和上下文向量进行拼接得到该字的字向量;其中,所述字形向量是根据该字的字形图构建的,并且所述上下文向量是根据所述待标准化名称中在该字之前和/或之后出现的字构建的。
3.根据权利要求2所述的方法,其特征在于,对于所述待标准化名称中的每个字,构建该字的字形向量包括:
获取所述字的字形图;
将所述字的字形图输入训练好的字形向量化模型,得到所述字的字形向量。
4.根据权利要求2所述的方法,其特征在于,对于所述待标准化名称中的每个字,构建该字的上下文向量包括:
在所述待标准化名称中获取在所述字的上下文中出现的字,并且获取在所述字的上下文中出现的字的字形图;
将所获取的字形图进行拼合;
将拼合结果输入训练好的上下文向量化模型,得到所述字的上下文向量。
5.根据权利要求4所述的方法,其特征在于,所述上下文向量化模型为包括输入层、隐藏层和输出层的神经网络,所述隐藏层包括卷积层和全连接...
【专利技术属性】
技术研发人员:宋慧驹,刘兴旺,刘亚,刘岩,
申请(专利权)人:泰康保险集团股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。