一种基于档案数据交互相似度的分析方法和系统技术方案

技术编号：37053639 阅读：10 留言：0更新日期：2023-03-29 19:30

本发明专利技术公开了一种基于档案数据交互相似度的分析方法和系统，包括：获取样本；抽取样本的第一关键信息，并形成样本数据库；根据样本数据库进行聚类分析生成分类模型；当对多个业务系统的数据进行相似度分析时，从多个业务系统的数据中抽取第二关键信息；将第二关键信息输入分类模型，并接收分类模型输出的分类数据；对分类数据中同一类别的数据进行相似度分析计算。本发明专利技术通过前期对第一关键信息进行聚类模型训练，可以在不需要将多个业务系统的数据转换为标准数据的情况下，完成对不同业务系统数据相似度的比较，有效的节省了算力，并且对于新加入的业务系统数据具有很好的兼容性，使得本申请具有很强的适用性。使得本申请具有很强的适用性。使得本申请具有很强的适用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于档案数据交互相似度的分析方法和系统

[0001]本专利技术涉及信息
，具体涉及一种基于档案数据交互相似度的分析方法和系统。

技术介绍

[0002]语言是一项基本的沟通工具。人类使用语言来传递信息和意义，人类善于用语言来描述现实世界。当人们看到文本时，他们通常能理解其中的含义。而当计算机看到文本时，它们只能看到字符串，无法将其对应到现实世界的事物或者理解其中包含的想法。随着人类越来越依赖于计算系统，计算机理解文本和语言也变得越来越重要。这就是自然语言处理（NLP）的作用。现在，机器学习和人工智能正在不断发展，自然语言处理正是计算机与人类交流之间的桥梁。
[0003]自然语言处理（NLP）是计算机科学、人工智能和语言学的交叉领域。目的是让计算机处理或“理解”自然语言，以执行诸如语言翻译和问题回答等任务。随着人工智能的兴起，NLP成为了信息时代最重要的技术之一，是人工智能的重要组成部分，比尔
·
盖茨曾把NLP比喻成人工智能皇冠上的明珠。
[0004]每一行业、每一单位都具有不同的业务系统，不同的业务系统由不同的开发商进行开发，不同的业务系统的关键信息也不尽相同，在未完成系统与系统之间的对接的情况下，获取不同系统之间的档案数据的相似情况，对系统后期对接有很大的帮助，也有利于大数据数据库的生成。

技术实现思路

[0005]为了至少克服现有技术中的上述不足，本申请的目的在于提供一种基于档案数据交互相似度的分析方法和系统。
[0006]第一方面，本申请实施例提...

【技术保护点】

【技术特征摘要】
1.一种基于档案数据交互相似度的分析方法，其特征在于，包括：获取多个具有档案数据关联关系的业务系统的档案数据作为样本；抽取样本中档案数据的第一关键信息，并为所述第一关键信息赋值形成样本数据库；所述赋值包括词性、类型、词频中的至少一种；根据所述样本数据库进行聚类分析生成分类模型；当对多个业务系统的档案数据进行相似度分析时，从多个业务系统的档案数据中抽取第二关键信息；将所述第二关键信息输入所述分类模型，并接收所述分类模型输出的分类数据；对所述分类数据中同一类别的档案数据进行相似度分析计算。2.根据权利要求1所述的一种基于档案数据交互相似度的分析方法，其特征在于，根据所述样本数据库进行聚类分析生成分类模型包括：构建聚类空间，并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果；将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值；根据所述差异评估值反演所述聚类空间的聚类参数，并根据反演生成的聚类参数再次进行聚类生成第二聚类结果；将第二聚类结果作为第一聚类结果，循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件；将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。3.根据权利要求2所述的一种基于档案数据交互相似度的分析方法，其特征在于，所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中，第一关键信息表征的意义是否相同；将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值包括：将第一关键信息分为多个类别作为基准类别，并将所述第一聚类结果映射至所述基准类别中；从所述第一聚类结果结果中选出映射过程中，结果与所述基准类别不符的第一关键信息作为错误位置信息，并计算所述错误位置信息的参考值；所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离；对所有参考值进行线性回归计算形成所述差异评估值。4.根据权利要求3所述的一种基于档案数据交互相似度的分析方法，其特征在于，根据所述差异评估值反演所述聚类空间的聚类参数包括：将所述差异评估值输入聚类参数反演模型，并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数；所述聚类参数反演模型采用样本训练神经网络模型获取。5.根据权利要求4所述的一种基于档案数据交互相似度的分析方法，其特征在于，所述聚类参数反演模型的生成包括：建立样本对，所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系；通过所述样本对训练神经网络模型形成所述聚类参数反演模型。6.使用权利要求1~5任意...

【专利技术属性】
技术研发人员：韩春林，何莎莎，兰菊，李亮杰，
申请(专利权)人：成都瑞安信信息安全技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人