文献知识脉络生成方法、装置及存储介质制造方法及图纸

技术编号:29156688 阅读:20 留言:0更新日期:2021-07-06 22:56
本发明专利技术涉及人工智能,揭露一种文献知识脉络生成方法,包括:对待检测文献进行标签分类,并获取与待检测文献对应的类别标签集;获取查询信息,并基于查询信息获取待检测文献中与查询信息对应的目标文献范围;同时,对目标文献范围内的目标文献进行实体抽取,以获取目标文献中所有的标准实体指称;基于标准实体指称及类别标签集,获取与目标文献对应的类别标签和标准实体指称集;基于类别标签和标准实体指称集,形成与查询信息对应的文献知识脉络。本发明专利技术可以完成对相关文献的知识脉络梳理,进而可据此及用户预期为用户推荐相应的内容,以供导览。

【技术实现步骤摘要】
文献知识脉络生成方法、装置及存储介质
本专利技术涉及人工智能
,尤其涉及一种文献知识脉络生成的方法、装置、电子设备及计算机可读存储介质。
技术介绍
目前,针对高校人员开发的自助式科研信息服务平台,为研究人员提供了基于文献的信息挖掘与分析服务。利用该服务,研究人员可以深入全面了解关注课题的研究现状,完成特定领域的专家与研究机构的研究数据提取,掌握学科最新动态与基金研究热点。例如,Aminer是由清华大学自主研发,利用数据挖掘和社会网络分析与挖掘技术,提供研究者语义信息抽取、话题发现和趋势分析等功能,为研究者提供全面的领域知识、针对性的研究话题和合作者信息。但是,现有的科研信息服务平台大多只支持中文文献分析解读,对Pubmed文献收录不足,普遍侧重于计算机领域,同时对于文献研究热点的挖掘不深。总体而言,国内现有产品除了在学术挖掘和学者搜索有不同程度的功能缺失外,更为显著且共性的问题是,并非只针对医疗领域的文献,导致垂直度不足,不可避免的会对医疗领域的挖掘和研究缺乏专业性。
技术实现思路
本专利技术提供一种文献知识脉络生成方法、装置、电子设备及计算机可读存储介质,其主要目的在于提供针对医学等专业文献知识脉络生成的可靠方案。为实现上述目的,本专利技术提供的一种文献知识脉络生成方法,包括:对待检测文献进行标签分类,并获取与所述待检测文献对应的类别标签集;获取查询信息,并基于查询信息及所述类别标签集,获取所述待检测文献中与所述查询信息对应的目标文献范围;对所述目标文献范围内的目标文献进行实体抽取,以获取所述目标文献中所有的标准实体指称;基于所述标准实体指称及所述类别标签集,获取与所述目标文献对应的类别标签和标准实体指称集;基于所述类别标签和所述标准实体指称集,形成与所述查询信息对应的文献知识脉络。可选地,所述获取所述目标文献中所有的标准实体指称的步骤包括:基于预训练的实体识别模型获取与所述目标文献对应的所有实体指称;基于实体链接技术将所述实体指称链接到标准图谱上,获取与所述实体指称对应的标准实体指称。可选地,所述获取与所述实体指称对应的标准实体指称的步骤包括:基于所述实体指称,获取与所述实体指称对应的同义信息项,并基于所述实体指称及所述同义信息项,确定指称项集合;基于所述指称项集合,在预设知识库中查找与所述指称项集合对应的候选实体项集合;分别提取所述指称项集合和所述候选实体项集合的降维特征;对所述指称项集合和所述候选实体项集合的降维特征进行相似度计算,并根据所述相似度计算得到的分值对所述候选实体项集合中的所有实体进行排序;基于所述排序的结果确定与所述实体指称对应的实体集合,所述实体集合中的实体作为所述标准实体指称。可选地,所述分别提取所述指称项集合和所述候选实体项集合的降维特征包括:获取所述指称项集合和所述候选实体项集合中的所有实体的Word2Vec值;基于所述Word2Vec值,获取与所述Word2Vec值对应的所述实体的TF-IDF值;将所述TF-IDF值作为权重与所述实体的词向量相乘,以获取所述指称项集合和所述候选实体项集合的降维特征。可选地,对所述待检测文献进行标签分类,并获取与所述待检测文献对应的类别标签集的步骤包括:获取带有分类标签的文献数据作为训练数据集;基于所述训练数据训练MLG-Bert模型,直至所述MLG-Bert模型收敛至预设范围内,形成文献分类模型;基于所述文献分类模型获取与所述待检测文献对应的类别标签集。可选地,将所述TF-IDF值作为权重与所述实体的词向量相乘的公式表示为:doc_emb=∑TF-IDF('wordi)·Word2vec(wordi)其中,doc_emb表示所述指称项集合/所述候选实体项集合的降维特征,wordi表示所述指称项集合/所述候选实体项集合中的第i个实体,TF-IDF表示第i个实体的TF-IDF值,Word2Vec表示第i个实体的Word2Vec词向量。为了解决上述问题,本专利技术还提供一种文献知识脉络生成装置,所述装置包括:类别标签集获取单元,用于对所述待检测文献进行标签分类,并获取与所述待检测文献对应的类别标签集;目标文献范围获取单元,用于获取查询信息,并基于所述查询信息及所述类别标签集,获取所述待检测文献中与所述查询信息对应的目标文献范围;标准实体指称获取单元,用于对所述目标文献范围内的目标文献进行实体抽取,以获取所述目标文献中所有的标准实体指称;类别标签和标准实体指称集获取单元,用于基于所述标准实体指称及所述类别标签集,获取与所述目标文献对应的类别标签和标准实体指称集;文献知识脉络形成单元,用于基于所述类别标签和所述标准实体指称集,形成与所述查询信息对应的文献知识脉络。可选地,所述获取所述目标文献中所有的标准实体指称的步骤包括:基于预训练的实体识别模型获取与所述目标文献对应的所有实体指称;基于实体链接技术将所述实体指称链接到标准图谱上,获取与所述实体指称对应的标准实体指称。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述文献知识脉络生成方法中的步骤。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的文献知识脉络生成方法。本专利技术实施例通过对所述待检测文献进行标签分类,并获取与所述待检测文献对应的类别标签集;基于查询信息,获取所述待检测文献中与所述查询信息对应的目标文献范围;对所述目标文献进行实体抽取,以获取所述目标文献中所有的标准实体指称;基于所述标准实体指称及所述类别标签集,获取与所述目标文献对应的类别标签和标准实体指称集;基于所述类别标签和所述标准实体指称集,形成与所述查询信息对应的文献知识脉络,能够通过人工智能与自然语言处理技术对海量医学等类型的文献进行挖掘理解,为研究者提供科研知识脉络服务,基于命名实体识别抽取、文献多标签分类、实体推荐等底层算法技术,获取文献的类别标签和实体指称集,并据此给用户提供符合预期的知识脉络导航,同时覆盖文献-实体,展现从面到点的趋势,更方便用户对所要研究领域有系统性的、总体认识。附图说明图1为本专利技术一实施例提供的文献知识脉络生成方法的流程图;图2为本专利技术一实施例提供的文献知识脉络生成装置的模块示意图;图3为本专利技术一实施例提供的实现文献知识脉络生成方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当本文档来自技高网...

【技术保护点】
1.一种文献知识脉络生成方法,其特征在于,所述方法包括:/n对待检测文献进行标签分类,并获取与所述待检测文献对应的类别标签集;/n获取查询信息,并基于所述查询信息及所述类别标签集,获取所述待检测文献中与所述查询信息对应的目标文献范围;/n对所述目标文献范围内的目标文献进行实体抽取,以获取所述目标文献中所有的标准实体指称;/n基于所述标准实体指称及所述类别标签集,获取与所述目标文献对应的类别标签和标准实体指称集;/n基于所述类别标签和所述标准实体指称集,形成与所述查询信息对应的文献知识脉络。/n

【技术特征摘要】
1.一种文献知识脉络生成方法,其特征在于,所述方法包括:
对待检测文献进行标签分类,并获取与所述待检测文献对应的类别标签集;
获取查询信息,并基于所述查询信息及所述类别标签集,获取所述待检测文献中与所述查询信息对应的目标文献范围;
对所述目标文献范围内的目标文献进行实体抽取,以获取所述目标文献中所有的标准实体指称;
基于所述标准实体指称及所述类别标签集,获取与所述目标文献对应的类别标签和标准实体指称集;
基于所述类别标签和所述标准实体指称集,形成与所述查询信息对应的文献知识脉络。


2.如权利要求1所述的文献知识脉络生成方法,其特征在于,所述获取所述目标文献中所有的标准实体指称的步骤包括:
基于预训练的实体识别模型获取与所述目标文献对应的所有实体指称;
基于实体链接技术将所述实体指称链接到标准图谱上,获取与所述实体指称对应的标准实体指称。


3.如权利要求2所述的文献知识脉络生成方法,其特征在于,所述获取与所述实体指称对应的标准实体指称的步骤包括:
基于所述实体指称,获取与所述实体指称对应的同义信息项,并基于所述实体指称及所述同义信息项,确定指称项集合;
基于所述指称项集合,在预设知识库中查找与所述指称项集合对应的候选实体项集合;
分别提取所述指称项集合和所述候选实体项集合的降维特征;
对所述指称项集合和所述候选实体项集合的降维特征进行相似度计算,并根据所述相似度计算得到的分值对所述候选实体项集合中的所有实体进行排序;
基于所述排序的结果确定与所述实体指称对应的实体集合,所述实体集合中的实体作为所述标准实体指称。


4.如权利要求3所述的文献知识脉络生成方法,其特征在于,所述分别提取所述指称项集合和所述候选实体项集合的降维特征包括:
获取所述指称项集合和所述候选实体项集合中的所有实体的Word2Vec值;
基于所述Word2Vec值,获取与所述Word2Vec值对应的所述实体的TF-IDF值;
将所述TF-IDF值作为权重与所述实体的词向量相乘,以获取所述指称项集合和所述候选实体项集合的降维特征。


5.如权利要求1所述的文献知识脉络生成方法,其特征在于,对所述待检测文献进行标签分类,并获取与所述待检测文献对应的类别标签集的步骤包括:
获取带有分类标签的文献数据作为训练数据集;
基于所述训练数据训练...

【专利技术属性】
技术研发人员:林桂
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1