一种文本血缘确定方法、装置、设备及介质制造方法及图纸

技术编号:33855484 阅读:24 留言:0更新日期:2022-06-18 10:43
本申请公开了一种文本血缘确定方法、装置、设备及介质,由于本申请中,在接收到待确认血缘关系的第一文本后,先将该第一文本输入到预先训练完成的文本标准化模型中,获得标准化的第二文本,并确定该第二文本以及预先保存的每个源文本之间的相似度,进而根据每个相似度,确定与该第一文本存在血缘关系的目标源文本,有效的提高了文本血缘确定的准确性,保证了后续文本治理的准确性。了后续文本治理的准确性。了后续文本治理的准确性。

【技术实现步骤摘要】
一种文本血缘确定方法、装置、设备及介质


[0001]本申请涉及智能数据血缘分析
,尤其涉及一种文本血缘确定方法、装置、设备及介质。

技术介绍

[0002]随着世界各个现代化城市的兴起与发展,城市规模逐步增大,城市人口逐步增多,因此也时时刻刻都在产生大量文本,非标准化的文本也会随之大规模出现,确定与非标准化的文本存在血缘关系的源文本的难度更大,因此,非标准化的文本血缘的确定作为文本治理很重要的部分,需要引起格外的重视。
[0003]文本血缘是指在完成某项业务过程中,业务涉及的文本落入到了目标数据库中,其中,该业务涉及的文本为之前存储在源数据库中的源文本,经过一系列处理后获得的处理后的文本,若该处理后的文本为非标准的文本,则可能导致无法确定该业务涉及的文本与源数据库中的哪个源文本之间存在血缘关系,影响后续的文本治理。

技术实现思路

[0004]本申请提供了一种文本血缘确定方法、设备及介质,用以解决现有技术中业务涉及的文本为非标准的文本,导致的无法确定该文本与源数据库中哪个源文本之间存在血缘关系,影响后续文本治理的问题。
[0005]本申请提供了一种文本血缘确定方法,所述方法包括:
[0006]接收待确认血缘关系的第一文本,将所述第一文本输入到预先训练完成的文本标准化模型中,输出所述第一文本对应的第二文本;
[0007]针对预先保存的源数据库中的每个源文本,确定所述第二文本与该源文本之间的相似度;
[0008]将相似度最大值对应的源文本,确定为与所述第一文本存在血缘关系的目标源文本。
[0009]进一步地,所述接收待确认血缘关系的第一文本之后,将所述第一文本输入到预先训练完成的文本标准化模型中之前,所述方法还包括:
[0010]确定所述第一文本是否为异常文本;
[0011]若是,则对所述第一文本中的文本进行清洗。
[0012]进一步地,所述确定所述第一文本是否为异常文本包括:
[0013]确定所述第一文本中是否包含无效符号;或
[0014]确定所述第一文本中是否存在倒装句。
[0015]进一步地,所述针对预先保存的源数据库中每个源文本,确定所述第二文本与该源文本之间的相似度包括:
[0016]针对预先保存的源数据库中的每个源文本,将所述第二文本以及该源文本输入到预先训练完成的特征向量获取模型中,获取所述第二文本对应的第一目标特征向量,以及
该源文本对应的第二目标特征向量;根据所述第一目标特征向量以及所述第二目标特征向量,确定所述第二文本与该源文本之间的相似度。
[0017]进一步地,训练所述特征向量获取模型包括:
[0018]获取第一样本集中的任一第一样本文本对,其中,所述第一样本文本对包括:样本文本以及所述样本文本对应的源样本文本;
[0019]将所述样本文本以及所述源样本文本输入到原始特征向量获取模型中,获得所述样本文本对应的第一样本特征向量以及所述源样本文本对应的第二样本特征向量;
[0020]根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量,确定目标损失值,并根据所述目标损失值,对所述原始特征向量获取模型进行训练。
[0021]进一步地,所述根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量,确定目标损失值包括:
[0022]根据所述第一样本特征向量、所述第二样本特征向量以及对应的预设权重,确定目标特征向量;
[0023]根据所述目标特征向量、所述预先保存的目标参数向量以及预设的函数,确定目标损失值。
[0024]进一步地,所述根据所述目标特征向量、所述目标参数向量以及预设的函数,确定目标损失值包括:
[0025]根据确定目标损失值;
[0026]其中,L为所述目标损失值,ω为所述目标特征向量,x为所述目标参数向量。
[0027]进一步地,训练所述文本标准化模型的过程包括:
[0028]获得第二样本集中的任一第二样本文本对,其中,所述第二样本文本对包括:非标准样本文本以及标准样本文本;
[0029]根据所述目标标准化文本以及所述标准样本文本,对所述原始文本标准化模型进行训练。
[0030]进一步地,所述针对预先保存的源数据库中的每个源文本,确定所述第二文本与该源文本之间的相似度之前,所述方法还包括:
[0031]确定预先保存的源数据库中的每个源文本中创建时间早于所述第一文本的目标创建时间的源文本;
[0032]针对每个创建时间早于所述第一文本对应的目标创建时间的源文本,进行后续的针对预先保存的源数据库中的每个源文本,确定所述第二文本与该源文本之间的相似度的过程。
[0033]本申请还提供了一种文本血缘确定装置,所述装置包括:
[0034]输出模块,用于接收待确认血缘关系的第一文本,将所述第一文本输入到预先训练完成的文本标准化模型中,输出所述第一文本对应的第二文本;
[0035]确定模块,用于针对预先保存的源数据库中的每个源文本,确定所述第二文本与该源文本之间的相似度;将相似度最大值对应的源文本,确定为与所述第一文本存在血缘关系的目标源文本。
[0036]进一步地,所述确定模块,还用于确定所述第一文本是否为异常文本;若是,则对
所述第一文本中的文本进行清洗。
[0037]进一步地,所述确定模块,具体用于确定所述第一文本中是否包含无效符号;或,确定所述第一文本中是否存在倒装句。
[0038]进一步地,所述确定模块,具体用于针对预先保存的源数据库中的每个源文本,将所述第二文本以及该源文本输入到预先训练完成的特征向量获取模型中,获取所述第二文本对应的第一目标特征向量,以及该源文本对应的第二目标特征向量;根据所述第一目标特征向量以及所述第二目标特征向量,确定所述第二文本与该源文本之间的相似度。
[0039]进一步地,所述装置还包括:
[0040]训练模块,用于获取第一样本集中的任一第一样本文本对,其中,所述第一样本文本对包括:样本文本以及所述样本文本对应的源样本文本;将所述样本文本以及所述源样本文本输入到原始特征向量获取模型中,获得所述样本文本对应的第一样本特征向量以及所述源样本文本对应的第二样本特征向量;根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量,确定目标损失值,并根据所述目标损失值,对所述原始特征向量获取模型进行训练。
[0041]进一步地,所述训练模块,具体用于根据所述第一样本特征向量、所述第二样本特征向量以及对应的预设权重,确定目标特征向量;根据所述目标特征向量、所述预先保存的目标参数向量以及预设的函数,确定目标损失值。
[0042]进一步地,所述训练模块,具体用于根据确定目标损失值;其中,L为所述目标损失值,ω为所述目标特征向量,x为所述目标参数向量。
[0043]进一步地,所述训练模块,还用于获得第二样本集中的任一第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本血缘确定方法,其特征在于,所述方法包括:接收待确认血缘关系的第一文本,将所述第一文本输入到预先训练完成的文本标准化模型中,输出所述第一文本对应的第二文本;针对预先保存的源数据库中的每个源文本,确定所述第二文本与该源文本之间的相似度;将相似度最大值对应的源文本,确定为与所述第一文本存在血缘关系的目标源文本。2.根据权利要求1所述的方法,其特征在于,所述针对预先保存的源数据库中每个源文本,确定所述第二文本与该源文本之间的相似度包括:针对预先保存的源数据库中的每个源文本,将所述第二文本以及该源文本输入到预先训练完成的特征向量获取模型中,获取所述第二文本对应的第一目标特征向量,以及该源文本对应的第二目标特征向量;根据所述第一目标特征向量以及所述第二目标特征向量,确定所述第二文本与该源文本之间的相似度。3.根据权利要求2所述的方法,其特征在于,训练所述特征向量获取模型包括:获取第一样本集中的任一第一样本文本对,其中,所述第一样本文本对包括:样本文本以及所述样本文本对应的源样本文本;将所述样本文本以及所述源样本文本输入到原始特征向量获取模型中,获得所述样本文本对应的第一样本特征向量以及所述源样本文本对应的第二样本特征向量;根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量,确定目标损失值,并根据所述目标损失值,对所述原始特征向量获取模型进行训练。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量,确定目标损失值包括:根据所述第一样本特征向量、所述第二样本特征向量以及对应的预设权重,确定目标特征向量;根据所述目标特征向量、所述预先保存的目标参数向量以及预设的函数,确定目标损失值。5.根据权利要求4所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:王文举陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1