一种书目信息共现挖掘方法技术

技术编号:38000206 阅读:9 留言:0更新日期:2023-06-30 10:14
本发明专利技术涉及文本挖掘方法,尤其涉及一种书目信息共现挖掘方法。其可对从书目文献数据库下载的记录中的书目信息进行快速读取,准确提取字段并归类存储、统计,并生成书目数据的共现矩阵。包括:根据下载的书目数据格式,选择相应的格式类型或自定义字段信息抽取模板,解析从文献数据库下载的书目信息并抽取关键字段;对特定字段的特定信息做单个或批量修改或删除,对提取后各字段值进行降序、升序排列,以及筛选指定结果值的全部记录;统计关键字相同记录的频次,获取指定频次的关键字信息及其原始文献信息;搜索关键字段中出现一定频次以上或某一数值范围内的条目,统计其在每篇文献中的出现情况或共现情况得到矩阵。出现情况或共现情况得到矩阵。出现情况或共现情况得到矩阵。

【技术实现步骤摘要】
一种书目信息共现挖掘方法


[0001]本专利技术涉及文本挖掘方法,尤其涉及一种书目信息共现挖掘方法。特别是涉及一种从书目文献数据库中下载的文献记录中自动抽取和统计书目信息,并构建特定书目信息间的共现矩阵的方法。

技术介绍

[0002]生物医学文献正在爆炸式的增长,同时随着网络技术和文献电子化的发展,书目文献数据库中收集了巨大数量的文献信息,单凭人工在浩瀚的文献海洋中发现和获得自己需要的信息变得困难重重,因此对文本挖掘提出了技术上的需求。
[0003]文本挖掘是数据挖掘的一个重要研究领域,其是指从大量文本数据中抽取和发现之前未知的、隐含的、富有潜在利用价值的知识的过程。目前,对文献书目信息进行文本挖掘的方法无法自动抽取和生成特定书目信息间的共现矩阵,不利于书目信息挖掘和知识发现。

技术实现思路

[0004]本专利技术就是针对现有技术存在的缺陷,提供一种书目信息共现挖掘方法,其可对从书目文献数据库下载的记录中的书目信息进行快速读取,准确提取字段并归类存储、统计,并生成书目数据的共现矩阵。
[0005]为实现上述目的,本专利技术采用如下技术方案,包括:
[0006]根据下载的书目数据格式,选择相应的格式类型或自定义字段信息抽取模板,解析从文献数据库下载的书目信息并抽取关键字段。
[0007]对特定字段的特定信息做单个或批量修改或删除,包括对整个字段值和局部值进行替换。
[0008]对提取后各字段值进行降序、升序排列,以及筛选指定结果值的全部记录;统计关键字相同记录的频次,并按频次降序排列,获取指定频次的关键字信息及其原始文献信息。
[0009]根据统计结果,搜索关键字段中出现一定频次以上或某一数值范围内的条目,统计其在每篇文献中的出现情况或共现情况得到矩阵。
[0010]进一步地,所述解析从文献数据库下载的书目信息并抽取关键字段包括:利用提供的中国知网(CNKI)、PubMed、Web of Science和万方数据库中特定格式的模板,解析从文献数据库下载的书目信息并抽取关键字段,该关键字段的关键词包括作者、期刊、标题、年代、卷、期、页、关键词、主题词、引文任意一项,以及根据下载的书目数据格式<xml>、<txt>,自定义字段信息抽取模板,包括单值单行、单值多行、多值单行、多值多行四种字段表现格式。
[0011]进一步地,所述对特定字段的特定信息做单个或批量修改或删除包括:
[0012]对特定字段的整个字段值和局部值进行替换,指定的字符、特定位置的字符修改与删除,去掉数字或者字母,以及大小写转换;
[0013]对提取后各字段值进行降序、升序排列,以及筛选指定结果值的全部记录;
[0014]根据文献记录中的“文章标识符”寻找到特定的一条记录。
[0015]进一步地,所述统计关键字相同记录的频次还包括:
[0016]统计关键字段相同记录的字段内容、出现频次、出现百分比和累积百分比,并且筛选含有指定字段内容的全部文献记录;
[0017]根据实际需要,选择频次超出一定阈值或全部关键字段结果,生成Excel文档。
[0018]进一步地,所述根据统计结果,搜索关键字段中出现一定频次以上或某一数值范围内的条目,统计其在每篇文献中的出现情况或共现情况得到矩阵包括:
[0019]根据统计结果,对关键字段中超过出现频次阈值的条目或某一数值范围内的条目在每篇文献中的出现情况进行搜索统计,生成词篇矩阵;
[0020]根据统计结果,对关键字段中超过出现频次阈值的条目或某一数值范围内的条目在每篇文献中的共现情况进行搜索统计,生成共现矩阵;
[0021]通过共现矩阵查看共现次数,以及含有共现字段的全部文献记录。
[0022]与现有技术相比本专利技术有益效果。
[0023]本专利技术通过解析从文献数据库下载的文献记录中的书目信息并抽取关键字段,并统计关键字段值相同记录的频次,并根据关键字段在文献中的出现次数和共现次数构建矩阵,从而实现自动化地书目信息抽取和挖掘。
附图说明
[0024]下面结合附图和具体实施方式对本专利技术做进一步说明。本专利技术保护范围不仅局限于以下内容的表述。
[0025]图1是为本专利技术实施例提供的书目信息自动抽取、统计和构建共现矩阵流程图。
[0026]图2为本专利技术实施例提供的自定义字段表现格式示意图。
具体实施方式
[0027]本专利技术的总体构思是,通过解析从书目文献数据库下载的文献记录中的书目信息并抽取关键字段,统计关键字段值相同记录的频次,并根据关键字段在文献中的出现次数和共现次数构建矩阵,从而实现自动化地书目信息抽取和挖掘。
[0028]下面结合附图对书目共现分析方法进行详细描述。
[0029]图1为本专利技术实施例提供的书目信息自动抽取、统计和构建共现矩阵流程图。
[0030]参照图1,在步骤S101,根据下载的书目数据格式,选择相应的格式类型或自定义字段信息抽取模板,解析从文献数据库下载的书目信息并抽取关键字段。
[0031]用户可以根据所下载文献记录的格式,选择格式类型,自动提取书目信息中的关键字段;如果软件提供的中国知网(CNKI)、PubMed、Web of Science和万方数据库的格式模板无法满足用户需求,可自定义BICOMB的格式模板。
[0032]在步骤S102,对特定字段的特定信息做单个或批量修改或删除,包括对整个字段值和局部值进行替换。
[0033]对整个字段值和局部值进行替换,包括指定的字符、特定位置的字符修改与删除,去掉数字或者字母,以及大小写转换;
[0034]在步骤S103,对提取后各字段值进行降序、升序排列,以及筛选指定结果值的全部记录;统计关键字相同记录的频次,并按频次降序排列,获取指定频次的关键字信息及其原始文献信息。
[0035]在步骤S104,根据统计结果,搜索关键字段中出现一定频次以上或某一数值范围内的条目,统计其在每篇文献中的出现情况或共现情况得到矩阵。
[0036]进一步地,生成矩阵包括:
[0037]词篇矩阵,是针对主题词

文献标识符矩阵而言的简要称呼。该矩阵揭示关键字段中出现一定频次以上或某一数值范围内的条目在每篇文献中的出现情况,矩阵的第一列是主题词,第一行是文献记录的号码。词篇矩阵的实质是一种数据矩阵。其中间格子中的数字(“0”和“1”)分别代表该条目在对应的文章中是否出现。
[0038]共现矩阵,揭示关键字段中出现一定频次以上或某一数值范围内的条目在每篇文献中的共现情况。共现矩阵中行和列是一样的,均为关键字段;矩阵中的数值是行和列共现的次数,对角线上的数字是条目出现的总次数。可以进行共现分析的条目有作者、单位、主题词或关键词、引文等。
[0039]实施例1:自定义字段表现格式,参照图2,本专利技术提供了4种字段格式的种类:单值单行、单值多行、多值单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种书目信息共现挖掘方法,其特征在于:包括:根据下载的书目数据格式,选择相应的格式类型或自定义字段信息抽取模板,解析从文献数据库下载的书目信息并抽取关键字段;对特定字段的特定信息做单个或批量修改或删除,包括对整个字段值和局部值进行替换;对提取后各字段值进行降序、升序排列,以及筛选指定结果值的全部记录;统计关键字相同记录的频次,并按频次降序排列,获取指定频次的关键字信息及其原始文献信息;根据统计结果,搜索关键字段中出现一定频次以上或某一数值范围内的条目,统计其在每篇文献中的出现情况或共现情况得到矩阵。2.根据权利要求1所述的一种书目信息共现挖掘方法,其特征在于:所述解析从文献数据库下载的书目信息并抽取关键字段包括:利用提供的中国知网、PubMed、Web of Science和万方数据库中特定格式的模板,解析从文献数据库下载的书目信息并抽取关键字段,该关键字段的关键词包括作者、期刊、标题、年代、卷、期、页、关键词、主题词、引文任意一项,以及根据下载的书目数据格式<xml>、<txt>,自定义字段信息抽取模板,包括单值单行、单值多行、多值单行、多值多行四种字段表现格式。3.根据权利要求1所述的一种书目信息共现...

【专利技术属性】
技术研发人员:崔雷张晗兰雪宋江典
申请(专利权)人:中国医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1