【技术实现步骤摘要】
一种基于知识组织的科技信息自动化处理方法及系统
本专利技术涉及科技大数据以及科技文本信息智能处理的
,具体为一种基于知识组织技术的科技信息自动化处理方法及系统。
技术介绍
在互联网与大数据时代,科学知识生产及其成果生产数量呈爆炸式增长及扩散,这导致科技信息领域后期出现的成果数量以前期成果总数量的数倍且呈指数式增长。人类认知危机逐渐出现在海量科学与技术知识之后,这种危机不仅体现在难以全面掌握学科领域信息,还体现在难以全面认识新兴知识领域信息。为了解决这种认知危机,亟须使用数据采集组合技术针对海量科学知识进行自动化获取与处理,并进行科学知识关系的挖掘以及大数据分析,将得到的结果提供给广大科技知识用户,以便科技知识用户能够快速查询并获取到全部相关科技知识及知识间相互关系,这有利于科技知识的用户对科学领域相关现有知识进行全面认知与理解。目前,获取及挖掘目标专家所在的学科或领域内的科学知识的办法通常是先人工搜索科学知识,之后鸟瞰式判读搜索得到的知识并进行人为取舍,最终得到数量有限的目标文献。在知识成果剧增的时代,这种方式不仅效率低下,而且还使科学信息用户很难获得所需的全部相关科技知识,在很大程度上影响了科技信息用户对相关科技信息掌握的完备性和准确性,严重影响科技信息用户的研究效果与工作效率,同时这种方式不利于扩大科技信息认知与推广的广度与深度,其准确性也不能适应人工智能时代海量科技信息的认知需求。因此,开发和使用一种互联网与大数据环境下的科技信息自动化处理方法与系统成为广大科技信息用户的实际和迫切需求。< ...
【技术保护点】
1.一种基于知识组织技术的科技信息自动化处理方法,其特征在于,包括如下步骤:/nS1、根据用户个性化检索需求自动生成专业信息检索式,并利用所述专业信息检索式在互联网中进行检索,得到第一数据集,同时在科技数据库中进行专业检索,得到第二数据集;/nS2、将第一数据集中的所有数据转换为特定格式的数据,得到第三数据集,合并所述第三数据集和所述第二数据集,得到目标数据集;并对所述目标数据集进行数据去重操作,删除所述目标大数据集中的重复信息数据;/nS3、根据数据文本共现关联关系,得到所述目标数据集中的任意单个数据与所述目标数据集中其他任意数据间的关联关系,使每一组单个数据对应的关联关系的数据形成一个数据组合;/nS4、获取所有的单个数据与所述目标数据集中的其他任意数据的关联关系并导出得到关系大数据矩阵;/nS5、利用所述关系大数据矩阵,聚类分析所述关系大数据矩阵中的所有数据组合,并筛选出相似度超过预定阈值的若干组数据的组合;根据所述关系大数据矩阵,将筛选得到的若干个数据组合可视化,得到所属领域的科技信息图谱。/n
【技术特征摘要】
1.一种基于知识组织技术的科技信息自动化处理方法,其特征在于,包括如下步骤:
S1、根据用户个性化检索需求自动生成专业信息检索式,并利用所述专业信息检索式在互联网中进行检索,得到第一数据集,同时在科技数据库中进行专业检索,得到第二数据集;
S2、将第一数据集中的所有数据转换为特定格式的数据,得到第三数据集,合并所述第三数据集和所述第二数据集,得到目标数据集;并对所述目标数据集进行数据去重操作,删除所述目标大数据集中的重复信息数据;
S3、根据数据文本共现关联关系,得到所述目标数据集中的任意单个数据与所述目标数据集中其他任意数据间的关联关系,使每一组单个数据对应的关联关系的数据形成一个数据组合;
S4、获取所有的单个数据与所述目标数据集中的其他任意数据的关联关系并导出得到关系大数据矩阵;
S5、利用所述关系大数据矩阵,聚类分析所述关系大数据矩阵中的所有数据组合,并筛选出相似度超过预定阈值的若干组数据的组合;根据所述关系大数据矩阵,将筛选得到的若干个数据组合可视化,得到所属领域的科技信息图谱。
2.根据权利要求1所述一种基于知识组织的科技信息自动化处理方法,其特征在于,在S5步骤中,对于得到的科技信息图谱,根据具体知识场景进行科学知识可视化输出,个性化解释所述技术领域科学图谱中的每个数据与其他数据的关联关系。
3.根据权利要求1所述一种基于知识组织的科技信息自动化处理方法,其特征在于,在S1步骤中,所述专业信息检索式的生成具体步骤为:根据用户个性化检索需求,自动利用共词分析得到若干关键字词;并将所述若干个关键字词进行布尔逻辑组合,得到所述的专业检索式。
4.根据权利要求1所述一种基于知识组织的科技信息自动化处理方法,其特征在于,在S5步骤中,对于得到的科技信息图谱,还可以根据预设参数,对所在技术领域内科技信息图谱的网络密度、子网权重以及局部空间位置进行调整。
5.根据权利要求1所述一种基于知识组织的科技信息自动化处理方法,其特征在于,在S5步骤中,所述的聚类分析是根据所述关系大数据矩阵以及聚类目的,对所述关系大数据矩阵中所有数据的组合进行的专业探索性分析。
6.一种基于知识组织的科技信息自动化处理系统,其特征在于,包括:科技信息智能检索模块、检索信息结果处理和存储模块、科学知识关系组织模块、关联关系抽取模块和可视化表达等模块;
所述科技信息智能检索模块,用于根据用户个性...
【专利技术属性】
技术研发人员:吕鹏辉,卫睿远,童冉,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。