一种基于档案数据交互相似度的分析方法和系统技术方案

技术编号:37053639 阅读:10 留言:0更新日期:2023-03-29 19:30
本发明专利技术公开了一种基于档案数据交互相似度的分析方法和系统,包括:获取样本;抽取样本的第一关键信息,并形成样本数据库;根据样本数据库进行聚类分析生成分类模型;当对多个业务系统的数据进行相似度分析时,从多个业务系统的数据中抽取第二关键信息;将第二关键信息输入分类模型,并接收分类模型输出的分类数据;对分类数据中同一类别的数据进行相似度分析计算。本发明专利技术通过前期对第一关键信息进行聚类模型训练,可以在不需要将多个业务系统的数据转换为标准数据的情况下,完成对不同业务系统数据相似度的比较,有效的节省了算力,并且对于新加入的业务系统数据具有很好的兼容性,使得本申请具有很强的适用性。使得本申请具有很强的适用性。使得本申请具有很强的适用性。

【技术实现步骤摘要】
一种基于档案数据交互相似度的分析方法和系统


[0001]本专利技术涉及信息
,具体涉及一种基于档案数据交互相似度的分析方法和系统。

技术介绍

[0002]语言是一项基本的沟通工具。人类使用语言来传递信息和意义,人类善于用语言来描述现实世界。当人们看到文本时,他们通常能理解其中的含义。而当计算机看到文本时,它们只能看到字符串,无法将其对应到现实世界的事物或者理解其中包含的想法。随着人类越来越依赖于计算系统,计算机理解文本和语言也变得越来越重要。这就是自然语言处理(NLP)的作用。现在,机器学习和人工智能正在不断发展,自然语言处理正是计算机与人类交流之间的桥梁。
[0003]自然语言处理(NLP)是计算机科学、人工智能和语言学的交叉领域。目的是让计算机处理或“理解”自然语言,以执行诸如语言翻译和问题回答等任务。随着人工智能的兴起,NLP成为了信息时代最重要的技术之一,是人工智能的重要组成部分,比尔
·
盖茨曾把NLP比喻成人工智能皇冠上的明珠。
[0004]每一行业、每一单位都具有不同的业务系统,不同的业务系统由不同的开发商进行开发,不同的业务系统的关键信息也不尽相同,在未完成系统与系统之间的对接的情况下,获取不同系统之间的档案数据的相似情况,对系统后期对接有很大的帮助,也有利于大数据数据库的生成。

技术实现思路

[0005]为了至少克服现有技术中的上述不足,本申请的目的在于提供一种基于档案数据交互相似度的分析方法和系统。
[0006]第一方面,本申请实施例提供了一种基于档案数据交互相似度的分析方法,包括:获取多个具有档案数据关联关系的业务系统的档案数据作为样本;抽取样本中档案数据的第一关键信息,并为所述第一关键信息赋值形成样本数据库;所述赋值包括词性、类型、词频中的至少一种;根据所述样本数据库进行聚类分析生成分类模型;当对多个业务系统的档案数据进行相似度分析时,从多个业务系统的档案数据中抽取第二关键信息;将所述第二关键信息输入所述分类模型,并接收所述分类模型输出的分类数据;对所述分类数据中同一类别的档案数据进行相似度分析计算。
[0007]现有技术中,对于多个不同具有数据关联关系的业务系统的数据的分析,多采用将不同的业务系统的档案数据转换成标准的数据,这样的方案对于业务系统数据映射到标准数据的映射精度要求较高,尤其是对于不同的档案数据,数据结构有很大不同的情况下,精准映射的难度就会大大加强;并且每次新增一种业务系统时,需要将该业务系统的数据
重新映射到标准数据中,这需要花费大量的时间对数据进行分析。
[0008]本申请实施例实施时,采用了无监督的聚类分析形成分类模型,由于聚类分析算法的特点,可以通过对聚类算法参数的调试,实现对第一关键信息精准的分类,在本申请中的样本,不需要全部类型的业务系统的档案数据,只需要获取部分第一关键信息已知的业务系统即可,而本申请实施例中的第一关键信息可以是数字信息、状态信息等,本申请实施例中所述的赋值的词性、类型、词频中的至少一种包括该第一关键信息的词性、类型、词频,也包括第一关键信息上下文的词性、类型、词频,本领域技术人员可以根据需要进行赋值的选择。
[0009]在已经生产了分类模型后,可以将分类模型用于多个业务系统的数据进行相似度分析,其中第二关键信息应当是和第一关键信息相对应的信息,在提取第二关键信息时,可以不需要明确第二关键信息的含义,但是需要知晓哪些信息需要提取出来作为第二关键信息,这是容易实现的,因为作为档案数据,需要明确哪些内容是重要的需要提取出来。
[0010]将第二关键信息提取出后可以输入到分类模型中,应当理解的是,为了更精准的对第二关键信息进行分类,其也应当进行与第一关键信息相同的赋值。完成分类后,可以对同一类别中的数据进行相似度分析,相似度分析的方法有很多,如余弦距离等计算防范,本申请实施例对此不多做限定。本申请实施例通过前期对第一关键信息进行聚类模型训练,可以在不需要将多个业务系统的数据转换为标准数据的情况下,完成对不同业务系统数据相似度的比较,有效的节省了算力,并且对于新加入的业务系统数据具有很好的兼容性,使得本申请具有很强的适用性。
[0011]在一种可能的实现方式中,根据所述样本数据库进行聚类分析生成分类模型包括:构建聚类空间,并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果;将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值;根据所述差异评估值反演所述聚类空间的聚类参数,并根据反演生成的聚类参数再次进行聚类生成第二聚类结果;将第二聚类结果作为第一聚类结果,循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件;将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。
[0012]在一种可能的实现方式中,所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中,第一关键信息表征的意义是否相同;将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值包括:将第一关键信息分为多个类别作为基准类别,并将所述第一聚类结果映射至所述基准类别中;从所述第一聚类结果结果中选出映射过程中,结果与所述基准类别不符的第一关键信息作为错误位置信息,并计算所述错误位置信息的参考值;所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离;
对所有参考值进行线性回归计算形成所述差异评估值。
[0013]在一种可能的实现方式中,根据所述差异评估值反演所述聚类空间的聚类参数包括:将所述差异评估值输入聚类参数反演模型,并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数;所述聚类参数反演模型采用样本训练神经网络模型获取。
[0014]在一种可能的实现方式中,所述聚类参数反演模型的生成包括:建立样本对,所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系;通过所述样本对训练神经网络模型形成所述聚类参数反演模型。
[0015]第二方面,本申请实施例提供了一种基于档案数据交互相似度的分析系统,包括:获取模块,被配置为获取多个具有档案数据关联关系的业务系统的档案数据作为样本;第一抽取模块,被配置为抽取样本中档案数据的第一关键信息,并为所述第一关键信息赋值形成样本数据库;所述赋值包括词性、类型、词频中的至少一种;生成模块,被配置为根据所述样本数据库进行聚类分析生成分类模型;第二抽取模块,被配置为当对多个业务系统的档案数据进行相似度分析时,从多个业务系统的档案数据中抽取第二关键信息;分类模块,被配置为将所述第二关键信息输入所述分类模型,并接收所述分类模型输出的分类数据;分析模块,被配置为对所述分类数据中同一类别的档案数据进行相似度分析计算。
[0016]在一种可能的实现方式中,生成模块还被配置为:构建聚类空间,并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果;将所述第一聚类结果与所述第一关键信息之间的关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于档案数据交互相似度的分析方法,其特征在于,包括:获取多个具有档案数据关联关系的业务系统的档案数据作为样本;抽取样本中档案数据的第一关键信息,并为所述第一关键信息赋值形成样本数据库;所述赋值包括词性、类型、词频中的至少一种;根据所述样本数据库进行聚类分析生成分类模型;当对多个业务系统的档案数据进行相似度分析时,从多个业务系统的档案数据中抽取第二关键信息;将所述第二关键信息输入所述分类模型,并接收所述分类模型输出的分类数据;对所述分类数据中同一类别的档案数据进行相似度分析计算。2.根据权利要求1所述的一种基于档案数据交互相似度的分析方法,其特征在于,根据所述样本数据库进行聚类分析生成分类模型包括:构建聚类空间,并在所述聚类空间中对所述样本数据库中的第一关键信息根据所述赋值进行聚类分析生成第一聚类结果;将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值;根据所述差异评估值反演所述聚类空间的聚类参数,并根据反演生成的聚类参数再次进行聚类生成第二聚类结果;将第二聚类结果作为第一聚类结果,循环计算所述差异评估值和第二聚类结果直至所述差异评估值满足预设条件;将所述差异评估值满足预设条件所对应的所述第二聚类结果作为分类模型。3.根据权利要求2所述的一种基于档案数据交互相似度的分析方法,其特征在于,所述第一关键信息之间的关联关系为不同具有数据关联关系的业务系统中,第一关键信息表征的意义是否相同;将所述第一聚类结果与所述第一关键信息之间的关联关系进行比对形成差异评估值包括:将第一关键信息分为多个类别作为基准类别,并将所述第一聚类结果映射至所述基准类别中;从所述第一聚类结果结果中选出映射过程中,结果与所述基准类别不符的第一关键信息作为错误位置信息,并计算所述错误位置信息的参考值;所述参考值为所述错误位置信息到对应的所述基准类别中心点或边界点的欧式距离;对所有参考值进行线性回归计算形成所述差异评估值。4.根据权利要求3所述的一种基于档案数据交互相似度的分析方法,其特征在于,根据所述差异评估值反演所述聚类空间的聚类参数包括:将所述差异评估值输入聚类参数反演模型,并接收所述聚类参数反演模型输出的结果作为反演获取的所述聚类参数;所述聚类参数反演模型采用样本训练神经网络模型获取。5.根据权利要求4所述的一种基于档案数据交互相似度的分析方法,其特征在于,所述聚类参数反演模型的生成包括:建立样本对,所述样本对为训练样本中所述聚类参数和所述差异评估值的对应关系;通过所述样本对训练神经网络模型形成所述聚类参数反演模型。6.使用权利要求1~5任意...

【专利技术属性】
技术研发人员:韩春林何莎莎兰菊李亮杰
申请(专利权)人:成都瑞安信信息安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1