文献主题内容分析方法及装置制造方法及图纸

技术编号:36686811 阅读:14 留言:0更新日期:2023-02-27 19:50
本发明专利技术提供一种文献主题内容分析方法及装置,所述方法包括:获取目标领域的多个待分析文献;得到所述主题词提取模型输出的各主题下的主题词、各主题下的主题词扩展短语以及所述语步标注模型输出的各待分析文献的摘要的语步标注信息;基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。本发明专利技术的文献主题内容分析方法,通过主题提取、生成主题词扩展短语并对反映主题的文本进行语步功能标注,能更深层次、细粒度地对大量文献进行主题分析,更加有利于相关人员更加全面而又准确地对文献主题进行了解。对文献主题进行了解。对文献主题进行了解。

【技术实现步骤摘要】
文献主题内容分析方法及装置


[0001]本专利技术涉及文本分析
,尤其涉及一种文献主题内容分析方法及装置。

技术介绍

[0002]随着数据科学的不断创新与发展,论文、专利、基金项目等学术研究载体数量迅速增长,内容丰富且深入,在研究内容中蕴含了大量高学术价值的知识,其中涉及专家学者的研究观点、研究方法、研究成果等重要的信息。面对海量学术信息,科技情报工作者、领域科研人员仅凭人工处理这些信息,并主观分析解读这些信息资源,不仅耗时耗力,而且难以全面、准确地识别出研究主题,获取有价值的信息。
[0003]因此,现亟需建立一种深层次、细粒度的主题识别与分析方法,辅助科研人员、情报人员对领域内容进行解读与分析。

技术实现思路

[0004]本专利技术提供一种文献主题内容分析方法及装置,用以解决现有技术中难以快速全面而又准确地识别出文献主题的缺陷,实现对文献进行深层次、细粒度的主题识别与分析。
[0005]本专利技术提供一种文献主题内容分析方法,包括:
[0006]获取目标领域的多个待分析文献;
[0007]将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到所述语步标注模型输出的各待分析文献的摘要的语步标注信息;
[0008]基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。
[0009]根据本专利技术提供的一种文献主题内容分析方法,所述将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,包括:
[0010]将各待分析文献文本进行分词并向量化,得到各待分析文献对应的词袋向量;
[0011]基于各待分析文献文本分词结果中各词语的出现频次,将各待分析文献对应的词袋向量进行筛选,得到各待分析文献对应的目标词袋向量;
[0012]将各待分析文献对应的目标词袋向量输入至所述主题词提取模型,得到所述主题词提取模型输出的第一数量的主题和各主题对应的第二数量的主题词;其中,每个所述待分析文献与一个所述主题对应。
[0013]根据本专利技术提供的一种文献主题内容分析方法,所述生成各主题下的主题词扩展短语,包括:
[0014]基于各主题下的各主题词,确定各主题下第三数量的目标主题词;
[0015]基于各目标主题词和短语结构,构建主题词扩展短语集合;
[0016]通过语义相似度模型确定所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度;
[0017]基于所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度,从所述主题词扩展短语集合中确定第四数量的主题词扩展短语。
[0018]根据本专利技术提供的一种文献主题内容分析方法,所述基于各主题下的各主题词,确定各主题下第三数量的目标主题词,包括:
[0019]对各待分析文献的各主题词在对应的待分析文献中的出现频率进行统计;
[0020]基于各待分析文献的各主题词的出现频率,确定各主题下所述第三数量的目标主题词。
[0021]根据本专利技术提供的一种文献主题内容分析方法,所述语步标注模型为SCIBert模型,所述语步标注模型的训练数据通过以下方式获取:
[0022]获取数据库中的结构化摘要论文;
[0023]以论文的领域标签词语作为检索词,通过检索筛选研究方向为所述目标领域的文献并进行数据导出,得到所述目标领域的原始文献;
[0024]对所述目标领域的原始文献的摘要进行清洗,识别语步标签并提取得到不同语步标签后的句子。
[0025]根据本专利技术提供的一种文献主题内容分析方法,所述语步标签包括研究背景、研究目标、研究方法、结果和结论。
[0026]本专利技术还提供一种文献主题内容分析装置,包括:
[0027]获取模块,用于获取目标领域的多个待分析文献;
[0028]第一处理模块,用于将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到所述语步标注模型输出的各待分析文献的摘要的语步标注信息;
[0029]第二处理模块,用于基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。
[0030]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文献主题内容分析方法。
[0031]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文献主题内容分析方法。
[0032]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文献主题内容分析方法。
[0033]本专利技术提供的文献主题内容分析方法及装置,通过主题提取、生成主题词扩展短语并对反映主题的文本进行语步功能标注,能更深层次、细粒度地对大量文献进行主题分析,更加有利于相关人员更加全面而又准确地对文献主题进行了解。
附图说明
[0034]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
[0035]图1是本专利技术提供的文献主题内容分析方法的流程示意图;
[0036]图2是本专利技术提供的文献主题内容分析装置的结构示意图;
[0037]图3是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0038]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]下面结合图1

图3描述本专利技术的文献主题内容分析方法及装置。
[0040]本专利技术实施例的文献主题内容分析方法的执行主体可以是处理器,当然,在另一些实施例中,本专利技术实施例的文献主题内容分析方法的执行主体还可以是服务器,此处对执行主体的类型不做限制。下面以执行主体为处理器为例来对本专利技术实施例的文献主题内容分析方法进行说明。
[0041]如图1所示,本专利技术实施例的文献主题内容分析方法主要包括步骤110、步骤120以及步骤130。
[0042]步骤110、获取目标领域的多个待分析文献。
[0043]可以理解的是,相同领域的文献在词语以及短语上具有一定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文献主题内容分析方法,其特征在于,包括:获取目标领域的多个待分析文献;将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,并生成各主题下的主题词扩展短语;将各待分析文献的摘要输入至语步标注模型,得到所述语步标注模型输出的各待分析文献的摘要的语步标注信息;基于各主题下的主题词扩展短语以及各待分析文献的摘要的语步标注信息,生成各主题下待分析文献的分析文本。2.根据权利要求1所述的文献主题内容分析方法,其特征在于,所述将各待分析文献输入至主题词提取模型,得到所述主题词提取模型输出的各主题下的主题词,包括:将各待分析文献文本进行分词并向量化,得到各待分析文献对应的词袋向量;基于各待分析文献文本分词结果中各词语的出现频次,将各待分析文献对应的词袋向量进行筛选,得到各待分析文献对应的目标词袋向量;将各待分析文献对应的目标词袋向量输入至所述主题词提取模型,得到所述主题词提取模型输出的第一数量的主题和各主题对应的第二数量的主题词;其中,每个所述待分析文献与一个所述主题对应。3.根据权利要求1所述的文献主题内容分析方法,其特征在于,所述生成各主题下的主题词扩展短语,包括:基于各主题下的各主题词,确定各主题下第三数量的目标主题词;基于各目标主题词和短语结构,构建主题词扩展短语集合;通过语义相似度模型确定所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度;基于所述主题词扩展短语集合中各主题词扩展短语与各待分析文献的语义相似度,从所述主题词扩展短语集合中确定第四数量的主题词扩展短语。4.根据权利要求3所述的文献主题内容分析方法,其特征在于,所述基于各主题下的各主题词,确定各主题下第三数量的目标主题词,包括:对各待分析文献的各主题词在对应的待分析文献中的出...

【专利技术属性】
技术研发人员:张辉串丽敏赵静娟齐世杰秦晓婧王爱玲
申请(专利权)人:北京市农林科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1