【技术实现步骤摘要】
本专利技术属于数据处理,具体涉及基于英文学术文章元数据的基金规范化方法、系统和设备。
技术介绍
1、科学技术的快速发展催生了海量学术文献的发表,并且学术文献发表量仍在快速的增长,对学术文献的有序组织非常重要。从资助基金维度对学术文献进行组织,一方面可直观了解或对比资助基金或资助机构支持产出的学术成果情况,另一方面也利于构建完整的科研人员画像和便于对科研人员学术成果、贡献情况、相互关联等进行分析评估,以进一步引导资助方向、服务科研人员(比如服务科研工作者开展基金申请、了解各行业前沿学术研究、了解不同基金资助机构关注热点等)、促进科学合作、推动科技进步等。基于学术文章著录数据的基金规范是学术文献有序组织的重要研究内容之一。
2、学术文章著录数据中资助机构实体与基金实体具有混合存在的特点,资助机构实体和基金实体既存在于纯文本如致谢说明文本和资助说明文本中,同时也存在于已经过初步处理的第三方规范化数据,且纯文本数据和第三方规范化数据都存在不同程度的值缺失。因此,基金规范首先需要分别从提供的致谢或资助信息文本中高效而准确地抽取并识别基
...【技术保护点】
1.基于英文学术文章元数据的基金规范化方法,其特征在于,包括:
2.根据权利要求1所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述抽取策略包括正则匹配和BERT+CRF的模型;
3.根据权利要求2所述的基于英文学术文章元数据的基金规范化方法,其特征在于,建立所述BERT+CRF的模型时,包括:
4.根据权利要求3所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述BERT+CRF模型的概率公式如下:
5.根据权利要求4所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述朴素贝叶斯的公式如
6...
【技术特征摘要】
1.基于英文学术文章元数据的基金规范化方法,其特征在于,包括:
2.根据权利要求1所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述抽取策略包括正则匹配和bert+crf的模型;
3.根据权利要求2所述的基于英文学术文章元数据的基金规范化方法,其特征在于,建立所述bert+crf的模型时,包括:
4.根据权利要求3所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述bert+crf模型的概率公式如下:
5.根据权利要求4所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述朴素贝叶斯的公式如下:
6.根据权利要求5所述的基于英文学术文章元数据的基金规范化方法,其特征在于:所述对所述基金等级分...
【专利技术属性】
技术研发人员:张鹤,许景芳,李宁,田阳杰,张学渊,许若华,李沄沨,
申请(专利权)人:中图科信数智技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。