一种文献的共性分析方法及装置制造方法及图纸

技术编号:37998566 阅读:12 留言:0更新日期:2023-06-30 10:12
本发明专利技术提供了一种文献的共性分析方法及装置,方法包括:依据获取的目标领域的文献,构建文献语料库,基于文献语料库,构建关键词种子、停用词词表与领域关键词词表;针对每一文献,基于关键词种子、停用词词表,利用预训练模型,得到该文献的文本向量表示,利用文献语义聚类算法,对文本向量表示、关键词种子及领域关键词词表进行聚类,得到主题;基于主题包含的单词,依据预设的类别压缩算法进行排序,获取该主题对应的主题关键词组;针对每一主题,基于该主题对应的主题关键词组与其它主题对应的主题关键词组,计算该主题在所述目标领域的综合得分;选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析。可以提升文献分析效率。献分析效率。献分析效率。

【技术实现步骤摘要】
一种文献的共性分析方法及装置


[0001]本专利技术涉及文献分析
,具体而言,涉及一种文献的共性分析方法及装置。

技术介绍

[0002]随着科学技术和经济建设的快速发展,技术文献,尤其是专利文献作为最系统、最全面、最迅速的技术信息源,越来越受到重视,是了解相关领域内应用研究前沿发展的重要文献载体。
[0003]目前,文献一般是基于基础应用研究的产品,实现基础应用研究的产业化,能够带动产业或多个产业及其企业的发展,具有大的经济和社会效益。以化妆品领域为例,利用特色植物资源的国内化妆品相关的专利文献申请量呈现快速增长态势,专利申请量远高于国外,但专利质量有待提升,技术集中度较低,比较分散地掌握在各创新主体中。因而,若通过全部浏览专利文献的方式,对分散的专利文献进行逐一分析,了解该化妆品领域内应用研究的前沿发展,为基础研究产业化提供技术参考,文献分析效率较低。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供文献的共性分析方法及装置,以提升文献分析效率。
[0005]第一方面,本专利技术实施例提供了文献的共性分析方法,包括:
[0006]依据获取的目标领域的文献,构建文献语料库,基于文献语料库,构建关键词种子、停用词词表与领域关键词词表;
[0007]针对每一文献,基于关键词种子、停用词词表,利用预先设置的预训练模型,得到该文献的文本向量表示,利用文献语义聚类算法,对文本向量表示、关键词种子及领域关键词词表进行聚类,得到聚类结果,每一聚类结果对应一主题;r/>[0008]基于主题包含的单词,依据预先设置的类别压缩算法进行排序,获取该主题对应的主题关键词组;
[0009]针对每一主题,基于该主题对应的主题关键词组与其它主题对应的主题关键词组,计算该主题在所述目标领域的综合得分;
[0010]选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析。
[0011]结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述基于主题包含的单词,依据预先设置的类别压缩算法进行排序,获取该主题对应的主题关键词组,包括:
[0012]针对聚类得到的每一主题,获取该主题包含的主题候选单词,去除主题候选单词中包含的停用词词表中的停用词,得到主题单词;
[0013]基于主题包含的主题单词以及所有主题包含的主题单词,获取该主题的主题单词的基于类的文档

逆文档频率,基于主题单词的基于类的文档

逆文档频率,获取该主题的主题关键词组。
[0014]结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述基于主题包含的主题单词以及所有主题包含的主题单词,获取该主题的主题单词的基于类的文档

逆文档频率,包括:
[0015]针对主题包含的每一主题单词,获取该主题单词在该主题包括的文献中出现的频率;
[0016]统计各主题包括的文献中的主题单词总数,基于主题单词总数以及主题数,计算主题平均单词数;
[0017]基于主题单词在主题包括的文献中出现的频率以及主题平均单词数,获取该主题单词的基于类的文档

逆文档频率。
[0018]结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述基于该主题对应的主题关键词组与其它主题对应的主题关键词组,计算该主题在所述目标领域的综合得分,包括:
[0019]获取第一主题的第一主题关键词组以及第二主题的第二主题关键词组;
[0020]利用基于变换的双向编码器预训练语言模型,分别获得第一主题关键词组中各主题关键词对应的第一词向量编码,以及,第二主题关键词组中各主题关键词对应的第二词向量编码;
[0021]利用预先设置的语义相似度算法,计算第一词向量编码与第二词向量编码的语义加权相似度值;
[0022]针对每一主题,基于该主题分别与其他主题的语义加权相似度值,计算该主题在所述目标领域的综合得分。
[0023]结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述利用预先设置的语义相似度算法,计算第一词向量编码与第二词向量编码的语义加权相似度值,包括:
[0024]获取第一主题关键词组以及第二主题关键词组分别与领域关键词词表的第一词集和第二词集;
[0025]针对第一词集的每一主题关键词,获取该主题关键词在对应主题中的第一词频,以及,针对第二词集的每一主题关键词,获取该主题关键词在对应主题中的第二词频;
[0026]获取第一词集中各主题关键词在对应主题中的词频的第一词频总数,以及,第二词集中各主题关键词在对应主题中的词频的第二词频总数;
[0027]计算主题关键词在对应主题中的词频与对应该主题的词频总数的商值,得到该主题关键词的权重,所述词频包括第一词频以及第二词频;
[0028]针对每一主题关键词,计算该主题关键词的权重与该主题关键词对应的词向量编码的乘积,得到该主题关键词的权重分值;
[0029]计算第一词集中各主题关键词的权重分值的第一权重分值和值和权重的第一权重和值,以及第二词集中各主题关键词的权重分值的第二权重分值和值和权重的第二权重和值;
[0030]计算第一权重分值和值与第二权重分值和值的乘积,得到分值乘积,以及,第一权重和值与第二权重和值的乘积,得到权重乘积;
[0031]计算分值乘积与权重乘积的商值,得到第一词向量编码与第二词向量编码的语义加权相似度值。
[0032]结合第一方面的第三种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,所述基于该主题分别与其他主题的语义加权相似度值,计算该主题在所述目标领域的综合得分,包括:
[0033]计算该主题分别与其他主题的语义加权相似度值的语义加权平均相似度值,以及,该主题分别与其他主题的语义加权相似度值的方差;
[0034]基于语义加权平均相似度值以及方差,获取该主题在所述目标领域的综合得分。
[0035]结合第一方面、第一方面的第一种可能的实施方式或第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,所述利用预先设置的预训练模型,得到该文献的文本向量表示,包括:
[0036]从文献对应的语料中,剔除停用词词表对应的语料后,利用预先构建的句子转换器预训练模型,对剔除停用词词表对应的语料后的文献进行编码,获得该文献的文本向量表示。
[0037]第二方面,本专利技术实施例提供了文献的共性分析装置,包括:
[0038]语料构建模块,用于依据获取的目标领域的文献,构建文献语料库,基于文献语料库,构建关键词种子、停用词词表与领域关键词词表;
[0039]主题聚类模块,用于针对每一文献,基于关键词种子、停用词词表,利用预先设本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文献的共性分析方法,其特征在于,包括:依据获取的目标领域的文献,构建文献语料库,基于文献语料库,构建关键词种子、停用词词表与领域关键词词表;针对每一文献,基于关键词种子、停用词词表,利用预先设置的预训练模型,得到该文献的文本向量表示,利用文献语义聚类算法,对文本向量表示、关键词种子及领域关键词词表进行聚类,得到聚类结果,每一聚类结果对应一主题;基于主题包含的单词,依据预先设置的类别压缩算法进行排序,获取该主题对应的主题关键词组;针对每一主题,基于该主题对应的主题关键词组与其它主题对应的主题关键词组,计算该主题在所述目标领域的综合得分;选取满足预设得分阈值的综合得分对应的主题下的文献进行共性分析。2.根据权利要求1所述的方法,其特征在于,所述基于主题包含的单词,依据预先设置的类别压缩算法进行排序,获取该主题对应的主题关键词组,包括:针对聚类得到的每一主题,获取该主题包含的主题候选单词,去除主题候选单词中包含的停用词词表中的停用词,得到主题单词;基于主题包含的主题单词以及所有主题包含的主题单词,获取该主题的主题单词的基于类的文档

逆文档频率,基于主题单词的基于类的文档

逆文档频率,获取该主题的主题关键词组。3.根据权利要求2所述的方法,其特征在于,所述基于主题包含的主题单词以及所有主题包含的主题单词,获取该主题的主题单词的基于类的文档

逆文档频率,包括:针对主题包含的每一主题单词,获取该主题单词在该主题包括的文献中出现的频率;统计各主题包括的文献中的主题单词总数,基于主题单词总数以及主题数,计算主题平均单词数;基于主题单词在主题包括的文献中出现的频率以及主题平均单词数,获取该主题单词的基于类的文档

逆文档频率。4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于该主题对应的主题关键词组与其它主题对应的主题关键词组,计算该主题在所述目标领域的综合得分,包括:获取第一主题的第一主题关键词组以及第二主题的第二主题关键词组;利用基于变换的双向编码器预训练语言模型,分别获得第一主题关键词组中各主题关键词对应的第一词向量编码,以及,第二主题关键词组中各主题关键词对应的第二词向量编码;利用预先设置的语义相似度算法,计算第一词向量编码与第二词向量编码的语义加权相似度值;针对每一主题,基于该主题分别与其他主题的语义加权相似度值,计算该主题在所述目标领域的综合得分。5.根据权利要求4所述的方法,其特征在于,所述利用预先设置的语义相似度算法,计算第一词向量编码与第二词向量编码的语义加权相似度值,包括:获取第一主题关键词组以及第二主题关键词组分别与领域关键词词表的第一词集和第二词集;
针对第一词集的每一主题关键词,获取该主题关键词在对应主题中的第一词频,以及,针对第二词集的每一主题关键词,获取该主题关键词在对...

【专利技术属性】
技术研发人员:吴迪董云张青川黄惠刘月恒李晨壹
申请(专利权)人:太和康美北京中医研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1