一种基于知识组织的科技信息自动化处理方法及系统技术方案

技术编号:24353564 阅读:50 留言:0更新日期:2020-06-03 02:05
本发明专利技术公开了一种基于知识组织技术的科技信息自动化处理方法,旨在自动完成科学信息检索、数据处理、聚类及可视化表达等重要环节的专门技术,提高了科技信息的利用效率,降低了科学可视化专业劳动的成本,能够使科技信息用户尽快获得所需的全部相关科技信息以及信息间的相互关联关系;还增强了科技信息用户对科技信息掌握的完备性和准确性,提高了科技信息用户的工作效率和科研效率,扩大了科技信息利用的广度与深度。另外,本发明专利技术一种基于知识组织的科技信息自动化处理系统,可以分为多个模块分别进行深化处理,具有很强的模块化特性与技术集成优势,开发成本低且易于维护。

An automatic processing method and system of scientific and technological information based on Knowledge Organization

【技术实现步骤摘要】
一种基于知识组织的科技信息自动化处理方法及系统
本专利技术涉及科技大数据以及科技文本信息智能处理的
,具体为一种基于知识组织技术的科技信息自动化处理方法及系统。
技术介绍
在互联网与大数据时代,科学知识生产及其成果生产数量呈爆炸式增长及扩散,这导致科技信息领域后期出现的成果数量以前期成果总数量的数倍且呈指数式增长。人类认知危机逐渐出现在海量科学与技术知识之后,这种危机不仅体现在难以全面掌握学科领域信息,还体现在难以全面认识新兴知识领域信息。为了解决这种认知危机,亟须使用数据采集组合技术针对海量科学知识进行自动化获取与处理,并进行科学知识关系的挖掘以及大数据分析,将得到的结果提供给广大科技知识用户,以便科技知识用户能够快速查询并获取到全部相关科技知识及知识间相互关系,这有利于科技知识的用户对科学领域相关现有知识进行全面认知与理解。目前,获取及挖掘目标专家所在的学科或领域内的科学知识的办法通常是先人工搜索科学知识,之后鸟瞰式判读搜索得到的知识并进行人为取舍,最终得到数量有限的目标文献。在知识成果剧增的时代,这种方式不仅效率低下,而且还使科学信息用户很难获得所需的全部相关科技知识,在很大程度上影响了科技信息用户对相关科技信息掌握的完备性和准确性,严重影响科技信息用户的研究效果与工作效率,同时这种方式不利于扩大科技信息认知与推广的广度与深度,其准确性也不能适应人工智能时代海量科技信息的认知需求。因此,开发和使用一种互联网与大数据环境下的科技信息自动化处理方法与系统成为广大科技信息用户的实际和迫切需求。<br>
技术实现思路
本专利技术的目的在于:提供一种基于互联网的科学知识数据自组织和可视化的处理系统与方法,以解决以上技术缺陷。为了实现上述目的,本专利技术提供如下技术方案:一种基于知识组织的科技信息自动化处理方法,包括如下步骤:S1、根据用户个性化检索需求生成专业信息检索式,并利用所述专业信息检索式在互联网中进行检索,得到第一数据集,同时在科技数据库中进行检索,得到第二数据集;S2、将第一数据集中的所有数据转换为预定格式的数据,得到第三数据集,合并所述第三数据集和所述第二数据集,得到目标数据集;并对所述目标数据集进行数据去重操作,删除所述目标数据集中的重复信息数据;S3、根据数据文本共现关联关系,得到所述目标数据集中的任意单个数据与所述目标数据集中其他任意数据间的关联关系,而每一个单个数据对应的关联关系大数据形成一个数据组合;S4、将所有的单个数据与所述目标数据集中的其他任意数据的关联关系导出得到关系大数据矩阵;S5、利用所述关系大数据矩阵,聚类分析所述关系大数据矩阵中的所有数据组合,并筛选出相似度超过预定阈值的若干个数据组合;根据所述关系大数据矩阵,将筛选得到的若干个数据组合可视化,得到所属领域的科技信息图谱。优选地,在S5步骤中,对于得到的科技信息图谱,根据具体知识场景进行科学知识可视化输出,单独解释所述
科学图谱中的每个数据与其他数据的关联关系。优选地,在S1步骤中,所述专业信息检索式的生成具体步骤为:根据用户个性化检索需求,利用共词分析得到若干个关键字词;并将所述若干个关键字词进行布尔逻辑组合,得到所述的专业检索式。优选地,在S5步骤中,对于得到的科技信息图谱,还可以根据预设参数,对所在
内科技信息图谱的网络密度、子网权重以及局部位置进行调整。优选地,在S5步骤中,所述聚类分析,是根据所述关系大数据矩阵以及聚类目的,对所述关系大数据矩阵中所有数据的组合进行专业探索性分析。一种基于知识组织的科技信息自动化处理系统,包括:科技信息智能检索模块、检索结果处理和存储模块、科学知识关系组织模块、关联关系抽取模块、可视化表达模块;所述科技信息智能检索模块,用于根据用户个性化检索需求生成专业信息检索式,并利用专业信息检索式在互联网中进行检索,得到第一数据集,同时在科技数据库中进行检索,得到第二数据集;所述检索结果处理和存储模块,用于将第一数据集中的所有数据转换为预定格式的数据,得到第三数据集,合并所述第三数据集和科技信息智能检索模块得到的第二数据集,得到目标数据集;并对所述目标数据集进行数据去重操作,删除所述目标数据集中重复数据信息;所述科学知识关系组织模块,用于根据数据文本共现关联关系,得到检索结果处理和存储模块得到的目标数据集中的任意单个数据与所述目标数据集中其他任意数据间的关联关系,其中每一个单个数据对应的关联关系的数据形成一个数据组合;所述关联关系抽取模块,用于将科学知识关系组织模块中的所有的单个数据与所述目标数据集中的其他任意数据的关联关系导出,得到关系大数据矩阵;所述可视化表达模块,用于利用关系大数据矩阵,聚类分析所述关系大数据矩阵中的所有数据组合,并筛选出相似度超过预定阈值的若干个数据组合;并根据所述关系大数据矩阵,将筛选得到的所述若干个数据组合可视化,得到所属
的科技信息图谱。优选地,一种基于知识组织的科技信息自动化处理系统,还包括:科学知识可视化输出模块;所述科学知识可视化输出模块,用于根据具体知识场景,对于经可视化表达模块得到的科技信息图谱进行科学知识可视化输出,单独解释所述
科学图谱中的每个数据与其他数据的关联关系。优选地,所述科技信息智能检索模块,包括:关键字词提取子模块、检索式生成子模块,所述关键字词提取子模块,用于根据用户个性化检索需求,利用共词分析得到若干个关键字词;所述检索式生成子模块,用于将经过检索式生成子模块获得的若干个关键字词进行布尔逻辑组合,得到专业信息检索式。优选地,一种基于知识组织的科技信息自动化处理系统,还包括:图像参数调整模块;所述图像参数调整模块,用于根据预设参数或机器学习经验调节参数,对经可视化表达模块得到的所在
内科技信息图谱的网络密度、子网权重以及局部位置进行调整。优选地,所述可视化表达模块,能够根据关系大数据矩阵以及聚类目的,对关系大数据矩阵中的所有关系数据组合进行专业探索性分析。本专利技术的有益效果在于:本专利技术一种基于知识组织的科技信息自动化处理方法及系统,能够自动完成科技信息检索、数据处理、聚类及可视化表达,可以帮助科技信息用户完成需要人工进行的专业操作,在利用了机器学习等人工智能技术之后,在科技信息利用上比人工获取具备更大的专业性和完备性优势,大大提高了科学知识的检索效率,降低了智力劳动成本,更重要的是能够使科技信息用户获得所需的全部相关科技信息以及隐藏在科技信息背后的潜在关联关系,并推送给用户大量需要专业技能才能获取的领域内隐形知识,提高了科学信息的用户的对相关科学知识掌握的完备性和准确性,从而加快科学信息用户的研究和工作效率,同时有利于科学知识认识和推广的广度和准确度。另外,本专利技术一种基于知识组织的科技信息自动化处理系统,可以分为多个模块分别进行深化处理,具有很强的模块化特性与技术集成优势,开发成本低且易于维护。附图说明图1:本专利技术实施例1的一种基于知本文档来自技高网
...

【技术保护点】
1.一种基于知识组织技术的科技信息自动化处理方法,其特征在于,包括如下步骤:/nS1、根据用户个性化检索需求自动生成专业信息检索式,并利用所述专业信息检索式在互联网中进行检索,得到第一数据集,同时在科技数据库中进行专业检索,得到第二数据集;/nS2、将第一数据集中的所有数据转换为特定格式的数据,得到第三数据集,合并所述第三数据集和所述第二数据集,得到目标数据集;并对所述目标数据集进行数据去重操作,删除所述目标大数据集中的重复信息数据;/nS3、根据数据文本共现关联关系,得到所述目标数据集中的任意单个数据与所述目标数据集中其他任意数据间的关联关系,使每一组单个数据对应的关联关系的数据形成一个数据组合;/nS4、获取所有的单个数据与所述目标数据集中的其他任意数据的关联关系并导出得到关系大数据矩阵;/nS5、利用所述关系大数据矩阵,聚类分析所述关系大数据矩阵中的所有数据组合,并筛选出相似度超过预定阈值的若干组数据的组合;根据所述关系大数据矩阵,将筛选得到的若干个数据组合可视化,得到所属领域的科技信息图谱。/n

【技术特征摘要】
1.一种基于知识组织技术的科技信息自动化处理方法,其特征在于,包括如下步骤:
S1、根据用户个性化检索需求自动生成专业信息检索式,并利用所述专业信息检索式在互联网中进行检索,得到第一数据集,同时在科技数据库中进行专业检索,得到第二数据集;
S2、将第一数据集中的所有数据转换为特定格式的数据,得到第三数据集,合并所述第三数据集和所述第二数据集,得到目标数据集;并对所述目标数据集进行数据去重操作,删除所述目标大数据集中的重复信息数据;
S3、根据数据文本共现关联关系,得到所述目标数据集中的任意单个数据与所述目标数据集中其他任意数据间的关联关系,使每一组单个数据对应的关联关系的数据形成一个数据组合;
S4、获取所有的单个数据与所述目标数据集中的其他任意数据的关联关系并导出得到关系大数据矩阵;
S5、利用所述关系大数据矩阵,聚类分析所述关系大数据矩阵中的所有数据组合,并筛选出相似度超过预定阈值的若干组数据的组合;根据所述关系大数据矩阵,将筛选得到的若干个数据组合可视化,得到所属领域的科技信息图谱。


2.根据权利要求1所述一种基于知识组织的科技信息自动化处理方法,其特征在于,在S5步骤中,对于得到的科技信息图谱,根据具体知识场景进行科学知识可视化输出,个性化解释所述技术领域科学图谱中的每个数据与其他数据的关联关系。


3.根据权利要求1所述一种基于知识组织的科技信息自动化处理方法,其特征在于,在S1步骤中,所述专业信息检索式的生成具体步骤为:根据用户个性化检索需求,自动利用共词分析得到若干关键字词;并将所述若干个关键字词进行布尔逻辑组合,得到所述的专业检索式。


4.根据权利要求1所述一种基于知识组织的科技信息自动化处理方法,其特征在于,在S5步骤中,对于得到的科技信息图谱,还可以根据预设参数,对所在技术领域内科技信息图谱的网络密度、子网权重以及局部空间位置进行调整。


5.根据权利要求1所述一种基于知识组织的科技信息自动化处理方法,其特征在于,在S5步骤中,所述的聚类分析是根据所述关系大数据矩阵以及聚类目的,对所述关系大数据矩阵中所有数据的组合进行的专业探索性分析。


6.一种基于知识组织的科技信息自动化处理系统,其特征在于,包括:科技信息智能检索模块、检索信息结果处理和存储模块、科学知识关系组织模块、关联关系抽取模块和可视化表达等模块;
所述科技信息智能检索模块,用于根据用户个性...

【专利技术属性】
技术研发人员:吕鹏辉卫睿远童冉
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1