一种基于无监督关键词提取的科学文献聚类方法与系统技术方案

技术编号：40211377 阅读：4 留言：0更新日期：2024-02-02 22:21

本发明专利技术涉及一种基于无监督关键词提取的科学文献聚类方法与系统，首先，综合考虑词语在文献摘要和标题中的出现情况、词语和文献本身的语义相似度、领域关键词特点等方面，对科学文献的关键词进行有效提取；然后，本发明专利技术根据中文和英文的特性，对提取出来的中文文献关键词和英文文献关键词使用不同的嵌入方式进行聚类，从而实现对于中文科学文献和英文科学文献的有效聚类。本发明专利技术从多方面考虑单词的重要程度，综合考虑词语在文献摘要和标题中的出现情况，使用根据领域特性自动化调整预设关键词长度的方式计算关键词得分，并集中了单词的更多特征。本发明专利技术比已有的无监督关键词提取算法效果有所提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于无监督关键词提取的科学文献聚类方法与系统，属于自然语言处理。

技术介绍

1、随着科学技术研究的融合与创新，包含新知识、新技术的科研文献也日益增多，这对科研工作者相对有限的阅读时间和信息理解力带来挑战。因此，如何对新增文献按照其领域进行整理，在方便科研工作者借鉴前人成果，避免重复研究的同时，保持对最新研究趋势的把握，从而推进研究工作的深入开展，具有十分重要的科研意义。

2、考虑到关键词识别是文献整理的基础，现有文献管理系统与网站(百度学术、知网等)，已经将相关文献按照其关键词进行分领域整理，但是上述文献整理方式对关键词的识别能力相对弱。现有方法和工具主要依靠文献作者自行标注的关键词进行分类整理，忽视了对文献标题和摘要中关键信息的有效识别，因此可能无法实现更加准确的文献整理。此外，如何基于关键词提取进行文献自动整理，即文本聚类研究，以提升文献整理的处理效率也具有明显的研究意义。

3、目前基于关键词提取进行文献研究主要存在以下两个挑战：

4、第一，有效地获得具有领域概念且信息丰富的关键词。如今的无监督关键词提取算法忽略了背景知识在科学文献关键词提取中的重要性。例如，对于一篇题目为《光纤器件流变制造过程数值分析与试验》的文献，机械工程领域相应的专业术语更有可能成为其关键词。同时，现有的无监督关键词提取算法使用预设关键词长度来对关键词得分进行调控，但预设关键词的长度是固定的。在不同的领域，对应的关键词长度也有所区别，需要模型自动化识别。例如在药学领域中，容易出现字数较多的关键词(“

5、第二，有效地对中文科学文献进行聚类。学术网络上存在着大量中文科学文献，这些文献可能同属于某一领域，并且在研究角度等方面具有相关性，但是容易受到非专业领域词的影响而无法聚成一类。例如两篇同属于研究历史学的文章，一篇研究“复辟时期的英国财政与税收史”，而另一篇研究“明代中叶陆楫的经济思想”，这两篇文章可能存在很少相似的词，但是二者的侧重有所相似(经济)，利用自动化的方法将其聚成一类具有挑战性。

技术实现思路

1、针对现有技术的不足，本专利技术提出了一种基于无监督关键词提取的科学文献聚类方法；

2、本专利技术构建一个基于无监督关键词提取的聚类模型，从给定的科学文献数据库中对相似的文献进行聚类。本专利技术提出了一种新的从科学文献中无监督提取关键词的方法，综合考虑词语在文献摘要和标题中的出现情况、词语和文献本身的语义相似度、领域关键词特点等方面，对科学文献的关键词进行有效提取；然后，本专利技术根据中文和英文的特性，对提取出来的中文文献关键词和英文文献关键词使用不同的嵌入方式进行聚类，从而实现对于中文科学文献和英文科学文献的有效聚类。

3、本专利技术面向中英文科学文献，进行基于关键词识别的文献聚类研究，即从文献摘要和标题中识别并提取关键词，随后基于关键词进行文献聚类。例如，从一篇介绍“抗高血压药利用分析”的文献的摘要和标题中提取出提供文献高级主题描述的关键词(“抗高血压药”、“销售金额”等)，然后通过这些关键词在文献数据库中对文献进行聚类，从而找到与该文献大致相似的其他文献。本专利技术一方面是对无监督关键词提取技术的深化，该技术聚焦于科学文献领域；另一方面，本专利技术将无监督关键词提取技术与科学文献聚类技术进行有效结合，从而实现高质量的文献聚类。

4、本专利技术还提出了一种基于无监督关键词提取的科学文献聚类系统；

5、术语解释：

6、paraphrase-multilingual-minilm-l12-v2预训练模型，该预训练模型可用于文本的嵌入表示，并可应用于语义文本相似性、语义搜索和同义词挖掘等常见任务。

7、本专利技术的技术方案如下：

8、一种基于无监督关键词提取的科学文献聚类方法，包括：

9、对于给定的科学文献的摘要，使用无监督方法进行初步的关键词提取，形成候选关键词和初始得分，对于每个候选关键词，根据其是否出现在标题中和其长度计算关键词得分，得到候选关键词与其关键词得分的二维表；

10、对于每个候选关键词，计算其和原文本的语义相似度；

11、根据候选关键词的相关特征进行打分；

12、将所有得分进行加权相加，排序后得到提取出的文献关键词；

13、将提取出的文献关键词进行嵌入，得到关键词的嵌入向量；

14、将得到的关键词的嵌入向量相加，得到文献的嵌入向量；

15、对所有的嵌入向量进行聚类，得到关键词聚类结果。

16、作为进一步的优选方案，根据其是否出现在标题中和其长度计算关键词得分，包括：如果该候选关键词出现在标题中，其关键词得分为初始得分乘以候选词长度，同时乘上权重因子。

17、作为进一步的优选方案，在本方法中，对于每个候选关键词，计算其和原文本的语义相似度，包括：使用sentence transformers库中的paraphrase-multi6ingual-minilm-l12-v2预训练模型，将原文本和候选关键词输入paraphrase-multilingual-minilm-l12-v2预训练模型中，得到原文本和候选关键词的向量嵌入表示，计算原文本和候选关键词的余弦相似度作为该候选词和原文本的语义相似度。

18、作为进一步的优选方案，在本方法中，根据候选关键词的相关特征进行打分，包括：

19、对于中文数据集，利用sentence transformers库中的paraphrase-multilingual-minilm-l12-v2预训练模型，将科学文献与每个领域的名称输入paraphrase-multilingual-minilm-l12-v2预训练模型中，得到科学文献与每个领域的名称的向量嵌入表示，计算科学文献与每个领域的名称的余弦相似度，余弦相似度最高的领域即为该科学文献最可能的领域；计算该科学文献最可能的领域对应的专业术语库中文关键词的平均长度，得到该科学文献对应领域关键词的平均长度；

20、对于英文数据集，将术语库中的所有专业术语取平均，得到英文数据集对应领域关键词的平均长度；

21、经过上述步骤，得到领域关键词平均长度tokens_average、avg_token_big和avg_token_small，avg_token_big为对tokens_average向上取整结果，avg_token_small为对tokens_average向下取整结果；

22、根据每个候选关键词的长度和该领域的关键词的平均长度对关键词得分进行惩罚；

23、综合考虑每个关键词的位置、词频、上下文关系和出现在不同本文档来自技高网...

【技术保护点】

1.一种基于无监督关键词提取的科学文献聚类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于无监督关键词提取的科学文献聚类方法，其特征在于，根据其是否出现在标题中和其长度计算关键词得分，包括：如果该候选关键词出现在标题中，其关键词得分为初始得分乘以候选词长度，同时乘上权重因子。

3.根据权利要求1所述的一种基于无监督关键词提取的科学文献聚类方法，其特征在于，在本方法中，对于每个候选关键词，计算其和原文本的语义相似度，包括：使用SentenceTransformers库中的paraphrase-multilingual-MiniLM-L12-v2预训练模型，将原文本和候选关键词输入paraphrase-multilingual-MiniLM-L12-v2预训练模型中，得到原文本和候选关键词的向量嵌入表示，计算原文本和候选关键词的余弦相似度作为该候选词和原文本的语义相似度。

4.根据权利要求1所述的一种基于无监督关键词提取的科学文献聚类方法，其特征在于，在本方法中，根据候选关键词的相关特征进行打分，包括：

5.根据权利要求4所述

6.根据权利要求1所述的一种基于无监督关键词提取的科学文献聚类方法，其特征在于，将所有得分进行加权相加，包括：根据每个候选关键词的长度和该领域关键词的平均长度计算候选关键词得分Fi,q，如下所示：

7.根据权利要求1所述的一种基于无监督关键词提取的科学文献聚类方法，其特征在于，在本方法中，对关键词进行嵌入并聚类，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于无监督关键词提取的科学文献聚类方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于无监督关键词提取的科学文献聚类方法的步骤。

10.一种基于无监督关键词提取的科学文献聚类系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于无监督关键词提取的科学文献聚类方法，其特征在于，包括：

3.根据权利要求1所述的一种基于无监督关键词提取的科学文献聚类方法，其特征在于，在本方法中，对于每个候选关键词，计算其和原文本的语义相似度，包括：使用sentencetransformers库中的paraphrase-multilingual-minilm-l12-v2预训练模型，将原文本和候选关键词输入paraphrase-multilingual-minilm-l12-v2预训练模型中，得到原文本和候选关键词的向量嵌入表示，计算原文本和候选关键词的余弦相似度作为该候选词和原文本的语义相似度。

4.根据权利要求1所述的一种基于无监督关键词提取的科学文献聚类方法，其特征在于，在本方法中，根据候选关键词的相关特征进行打分，包括：

5.根据权利要求4所述的一种基于无监督关键词提取的科学文...

【专利技术属性】
技术研发人员：刘皓，王浩聪，韩昱东，于成龙，王明财，朱士博，胡宇鹏，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人