一种文本血缘确定方法、装置、设备及介质制造方法及图纸

技术编号：33855484 阅读：24 留言：0更新日期：2022-06-18 10:43

本申请公开了一种文本血缘确定方法、装置、设备及介质，由于本申请中，在接收到待确认血缘关系的第一文本后，先将该第一文本输入到预先训练完成的文本标准化模型中，获得标准化的第二文本，并确定该第二文本以及预先保存的每个源文本之间的相似度，进而根据每个相似度，确定与该第一文本存在血缘关系的目标源文本，有效的提高了文本血缘确定的准确性，保证了后续文本治理的准确性。了后续文本治理的准确性。了后续文本治理的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本血缘确定方法、装置、设备及介质

[0001]本申请涉及智能数据血缘分析
，尤其涉及一种文本血缘确定方法、装置、设备及介质。

技术介绍

[0002]随着世界各个现代化城市的兴起与发展，城市规模逐步增大，城市人口逐步增多，因此也时时刻刻都在产生大量文本，非标准化的文本也会随之大规模出现，确定与非标准化的文本存在血缘关系的源文本的难度更大，因此，非标准化的文本血缘的确定作为文本治理很重要的部分，需要引起格外的重视。
[0003]文本血缘是指在完成某项业务过程中，业务涉及的文本落入到了目标数据库中，其中，该业务涉及的文本为之前存储在源数据库中的源文本，经过一系列处理后获得的处理后的文本，若该处理后的文本为非标准的文本，则可能导致无法确定该业务涉及的文本与源数据库中的哪个源文本之间存在血缘关系，影响后续的文本治理。

技术实现思路

[0004]本申请提供了一种文本血缘确定方法、设备及介质，用以解决现有技术中业务涉及的文本为非标准的文本，导致的无法确定该文本与源数据库中哪个源文本之间存在血缘关系，影响后续文本治理的问题。
[0005]本申请提供了一种文本血缘确定方法，所述方法包括：
[0006]接收待确认血缘关系的第一文本，将所述第一文本输入到预先训练完成的文本标准化模型中，输出所述第一文本对应的第二文本；
[0007]针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度；
[0008]将相似度最大值对应的源文本，确定为与所述第一文本存在...

【技术保护点】

【技术特征摘要】
1.一种文本血缘确定方法，其特征在于，所述方法包括：接收待确认血缘关系的第一文本，将所述第一文本输入到预先训练完成的文本标准化模型中，输出所述第一文本对应的第二文本；针对预先保存的源数据库中的每个源文本，确定所述第二文本与该源文本之间的相似度；将相似度最大值对应的源文本，确定为与所述第一文本存在血缘关系的目标源文本。2.根据权利要求1所述的方法，其特征在于，所述针对预先保存的源数据库中每个源文本，确定所述第二文本与该源文本之间的相似度包括：针对预先保存的源数据库中的每个源文本，将所述第二文本以及该源文本输入到预先训练完成的特征向量获取模型中，获取所述第二文本对应的第一目标特征向量，以及该源文本对应的第二目标特征向量；根据所述第一目标特征向量以及所述第二目标特征向量，确定所述第二文本与该源文本之间的相似度。3.根据权利要求2所述的方法，其特征在于，训练所述特征向量获取模型包括：获取第一样本集中的任一第一样本文本对，其中，所述第一样本文本对包括：样本文本以及所述样本文本对应的源样本文本；将所述样本文本以及所述源样本文本输入到原始特征向量获取模型中，获得所述样本文本对应的第一样本特征向量以及所述源样本文本对应的第二样本特征向量；根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量，确定目标损失值，并根据所述目标损失值，对所述原始特征向量获取模型进行训练。4.根据权利要求3所述的方法，其特征在于，所述根据所述第一样本特征向量、所述第二样本特征向量以及预先保存的目标参数向量，确定目标损失值包括：根据所述第一样本特征向量、所述第二样本特征向量以及对应的预设权重，确定目标特征向量；根据所述目标特征向量、所述预先保存的目标参数向量以及预设的函数，确定目标损失值。5.根据权利要求4所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：王文举，陈立力，周明伟，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人