基于英文学术文章元数据的基金规范化方法、系统和设备技术方案

技术编号:40025163 阅读:17 留言:0更新日期:2024-01-16 17:22
本发明专利技术属于数据处理技术领域,具体涉及基于英文学术文章元数据的基金规范化方法、系统和设备,对多来源数据进行组织、整合;采用抽取策略获取所述数据集中的实体名称;根据所述实体抽取结果采用正则匹配方式对应项目编号;采用正则匹配与字典相结合的方式对项目编号完成基金、机构分类;对所述实体分类数据中分类为基金的实体采用朴素贝叶斯+字典的方式完成基金等级分类;对所述基金等级分类进行规范文档匹配,获得匹配结果;在基金匹配环节,通过无监督的挖掘算法和匹配算法,并结合专家校正,分别提升基金规范文档匹配环节的召回率和准确率;在基金匹配环节提出了按照对应项目进行别名挖掘的方案,运行成本也得到了降低。

【技术实现步骤摘要】

本专利技术属于数据处理,具体涉及基于英文学术文章元数据的基金规范化方法、系统和设备


技术介绍

1、科学技术的快速发展催生了海量学术文献的发表,并且学术文献发表量仍在快速的增长,对学术文献的有序组织非常重要。从资助基金维度对学术文献进行组织,一方面可直观了解或对比资助基金或资助机构支持产出的学术成果情况,另一方面也利于构建完整的科研人员画像和便于对科研人员学术成果、贡献情况、相互关联等进行分析评估,以进一步引导资助方向、服务科研人员(比如服务科研工作者开展基金申请、了解各行业前沿学术研究、了解不同基金资助机构关注热点等)、促进科学合作、推动科技进步等。基于学术文章著录数据的基金规范是学术文献有序组织的重要研究内容之一。

2、学术文章著录数据中资助机构实体与基金实体具有混合存在的特点,资助机构实体和基金实体既存在于纯文本如致谢说明文本和资助说明文本中,同时也存在于已经过初步处理的第三方规范化数据,且纯文本数据和第三方规范化数据都存在不同程度的值缺失。因此,基金规范首先需要分别从提供的致谢或资助信息文本中高效而准确地抽取并识别基金相关实体。自然语言本文档来自技高网...

【技术保护点】

1.基于英文学术文章元数据的基金规范化方法,其特征在于,包括:

2.根据权利要求1所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述抽取策略包括正则匹配和BERT+CRF的模型;

3.根据权利要求2所述的基于英文学术文章元数据的基金规范化方法,其特征在于,建立所述BERT+CRF的模型时,包括:

4.根据权利要求3所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述BERT+CRF模型的概率公式如下:

5.根据权利要求4所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述朴素贝叶斯的公式如下:

6...

【技术特征摘要】

1.基于英文学术文章元数据的基金规范化方法,其特征在于,包括:

2.根据权利要求1所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述抽取策略包括正则匹配和bert+crf的模型;

3.根据权利要求2所述的基于英文学术文章元数据的基金规范化方法,其特征在于,建立所述bert+crf的模型时,包括:

4.根据权利要求3所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述bert+crf模型的概率公式如下:

5.根据权利要求4所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述朴素贝叶斯的公式如下:

6.根据权利要求5所述的基于英文学术文章元数据的基金规范化方法,其特征在于:所述对所述基金等级分...

【专利技术属性】
技术研发人员:张鹤许景芳李宁田阳杰张学渊许若华李沄沨
申请(专利权)人:中图科信数智技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1