System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于英文学术文章元数据的基金规范化方法、系统和设备技术方案_技高网

基于英文学术文章元数据的基金规范化方法、系统和设备技术方案

技术编号:40025163 阅读:7 留言:0更新日期:2024-01-16 17:22
本发明专利技术属于数据处理技术领域,具体涉及基于英文学术文章元数据的基金规范化方法、系统和设备,对多来源数据进行组织、整合;采用抽取策略获取所述数据集中的实体名称;根据所述实体抽取结果采用正则匹配方式对应项目编号;采用正则匹配与字典相结合的方式对项目编号完成基金、机构分类;对所述实体分类数据中分类为基金的实体采用朴素贝叶斯+字典的方式完成基金等级分类;对所述基金等级分类进行规范文档匹配,获得匹配结果;在基金匹配环节,通过无监督的挖掘算法和匹配算法,并结合专家校正,分别提升基金规范文档匹配环节的召回率和准确率;在基金匹配环节提出了按照对应项目进行别名挖掘的方案,运行成本也得到了降低。

【技术实现步骤摘要】

本专利技术属于数据处理,具体涉及基于英文学术文章元数据的基金规范化方法、系统和设备


技术介绍

1、科学技术的快速发展催生了海量学术文献的发表,并且学术文献发表量仍在快速的增长,对学术文献的有序组织非常重要。从资助基金维度对学术文献进行组织,一方面可直观了解或对比资助基金或资助机构支持产出的学术成果情况,另一方面也利于构建完整的科研人员画像和便于对科研人员学术成果、贡献情况、相互关联等进行分析评估,以进一步引导资助方向、服务科研人员(比如服务科研工作者开展基金申请、了解各行业前沿学术研究、了解不同基金资助机构关注热点等)、促进科学合作、推动科技进步等。基于学术文章著录数据的基金规范是学术文献有序组织的重要研究内容之一。

2、学术文章著录数据中资助机构实体与基金实体具有混合存在的特点,资助机构实体和基金实体既存在于纯文本如致谢说明文本和资助说明文本中,同时也存在于已经过初步处理的第三方规范化数据,且纯文本数据和第三方规范化数据都存在不同程度的值缺失。因此,基金规范首先需要分别从提供的致谢或资助信息文本中高效而准确地抽取并识别基金相关实体。自然语言处理(natural language processing,nlp)一直是人工智能领域最热门技术之一,从传统机器学习方法编辑距离(levenshtein distance),到tf-idf、word2vec,再到神经网络rnn、lstm、bert等,既有字符层面相似探索又有语义向量化表征的方法,可根据不同应用场景选择不同应用方法,已被应用于解决基金规范问题。

3、在科研基金规范领域,结合自然语言处理技术的一种常见解决方案是:利用ocr技术从图片中提取文献信息或从数据库获取文献信息;采用分类模型区分包含基金信息的文本;正则清洗基金信息文本并基于命名实体识别与提取技术抽取得到基金实体名称;利用编辑距离等技术分析基金实体规范文档(包括基金标准名、别名等)和著录基金实体名称(新录入信息中抽取的基金实体名称),以将著录基金实体名称映射到标准规范文档;经由专家审核映射结果,扩充完善基金规范文档。现有方法存在如下特点:在基于命名实体识别与抽取技术从相关文本信息中提取基金命名实体方面,已有工作多使用标准化工具或基于标准化工具的融合方法,基金信息抽取精度不能满足当下业务需求;对基金等级分类的考虑欠缺;在与基金规范文档进行匹配阶段的性能和准确率有待提高。


技术实现思路

1、本专利技术的目的在于提供基于英文学术文章元数据的基金规范化方法、系统和设备,以英文学术文章为主要分析对象,基于英文学术文章元数据的致谢、资助声明以及其它信息来源文本信息,结合自然语言处理等人工智能技术实现包括基金信息抽取、基金等级分类、基金匹配等的基金规范流程。

2、为实现上述目的,本专利技术采用了如下技术方案:

3、本专利技术提出基于英文学术文章元数据的基金规范化方法,包括:对多来源数据进行组织、整合,构建相同项目在不同编号体系下的映射关系,获取数据集;采用抽取策略获取所述数据集中的实体名称,获得实体抽取结果;根据所述实体抽取结果采用正则匹配方式对应项目编号;采用正则匹配与字典相结合的方式对项目编号完成基金、机构分类,获得实体分类数据;对所述实体分类数据中分类为基金的实体采用朴素贝叶斯+字典的方式完成基金等级分类;对所述基金等级分类进行规范文档匹配,获得匹配结果;将所述匹配结果按文档来源进行展示,经由专家人工审核校正,利用审核通过的结果继续扩充规范文档,获得基金规范文档。

4、优选的,所述抽取策略包括正则匹配和bert+crf的模型;其中,所述正则匹配用于抽取第三方规范化数据的实体名称;所述bert+crf的模型用于抽取基金、机构的实体名称。

5、优选的,建立所述bert+crf的模型时,包括:采用bio标注方法构建训练数据;利用bert对文本信息进行向量化表征;借助crf进行实体预测,crf(条件随机场)假设输出变量之间的联合概率分布构成概率无向图模型;使用所述训练数据训练所述概率无向图模型,熟练成熟后获取bert+crf的模型。

6、优选的,所述bert+crf模型的概率公式如下:

7、

8、其中,z(x)为归一化项,fk为特征函数,wk为特征函数向量,l与x都是向量,l=l1l2…ln,x=x1x2…xn,二者关系为单词序列为x=x1x2…xn时,整个句子标为l=l1l2…ln的概率。

9、优选的,所述朴素贝叶斯的公式如下:

10、

11、其中,p(x)为事件x发生的概率,p(y)为事件y发生的概率,p(y|x)为事件y在事件x发生下的条件概率,p(x|y)为事件x在事件y发生下的条件概率。

12、优选的,其特征在于:所述对所述基金等级分类进行规范文档匹配,包括:

13、匹配原则一,基于基金名称与对应基金资助项目编号的对应关系挖掘基金别名,实现基金名称消歧;

14、匹配原则二,采用基于character级别ngram的jaccard相似度算法与规范文档进行匹配。

15、优选的,在执行所述匹配原则一时,包括:首先将基金资助项目编号映射成一致编码格式,建立基金与资助机构间对应关系;以基金资助项目作为关键要素进行倒排索引,分析与同一基金资助项目相关联的基金;设置共现阈值,认为高于阈值的共现基金名称存在别名关系,与规范文档中的基金进行关联。

16、优选的,在执行所述匹配原则二时,包括:针对因简单拼写错误或书写习惯不同等导致的拼写不同,jaccard相似度算法原理如下所示:

17、

18、其中,a特指由基金名称a得到的ngram字符集合,|a|为其集合长度,b特指由基金名称b得到的ngram字符集合,|b|为其集合长度,|a∩b|特指a、b两字符集合交集长度,|a∪b|特指a、b两字符集合并集长度。

19、另一方面,本专利技术提出一种基于英文学术文章元数据的基金规范化系统,包括:

20、字段选择选择模块,用于对多来源数据进行组织、整合,构建相同项目在不同编号体系下的映射关系,获取数据集;

21、实体抽取模块,用于采用抽取策略获取所述数据集中的实体名称,获得实体抽取结果;

22、实体对应项目抽取模块,用于根据所述实体抽取结果采用正则匹配方式对应项目编号;

23、实体分类模块,用于采用正则匹配与字典相结合的方式对项目编号完成基金、机构分类,获得实体分类数据;

24、基金等级分类模块,用于对所述实体分类数据中分类为基金的实体采用朴素贝叶斯+字典的方式完成基金等级分类;

25、规范文档匹配模块,用于对所述基金等级分类进行规范文档匹配,获得匹配结果;

26、审核模块,用于将所述匹配结果按文档来源进行展示,经由专家人工审核校正,利用审核通过的结果继续扩充规范文档,获得基金规范文档。

27、另一方面,本专利技术提出一种基金规范化本文档来自技高网...

【技术保护点】

1.基于英文学术文章元数据的基金规范化方法,其特征在于,包括:

2.根据权利要求1所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述抽取策略包括正则匹配和BERT+CRF的模型;

3.根据权利要求2所述的基于英文学术文章元数据的基金规范化方法,其特征在于,建立所述BERT+CRF的模型时,包括:

4.根据权利要求3所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述BERT+CRF模型的概率公式如下:

5.根据权利要求4所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述朴素贝叶斯的公式如下:

6.根据权利要求5所述的基于英文学术文章元数据的基金规范化方法,其特征在于:所述对所述基金等级分类进行规范文档匹配,包括:

7.根据权利要求6所述的基于英文学术文章元数据的基金规范化方法,其特征在于,在执行所述匹配原则一时,包括:

8.根据权利要求6所述的基于英文学术文章元数据的基金规范化方法,其特征在于,在执行所述匹配原则二时,包括:针对因简单拼写错误或书写习惯不同等导致的拼写不同,jaccard相似度算法原理如下所示:

9.一种基于英文学术文章元数据的基金规范化系统,其特征在于,包括:

10.一种基金规范化终端设备,其特征在于,所述基金规范化终端设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基金规范化处理程序,所述基金规范化程序被所述处理器执行时实现如权利要求1-8中任一项所述的基金规范化方法的步骤。

...

【技术特征摘要】

1.基于英文学术文章元数据的基金规范化方法,其特征在于,包括:

2.根据权利要求1所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述抽取策略包括正则匹配和bert+crf的模型;

3.根据权利要求2所述的基于英文学术文章元数据的基金规范化方法,其特征在于,建立所述bert+crf的模型时,包括:

4.根据权利要求3所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述bert+crf模型的概率公式如下:

5.根据权利要求4所述的基于英文学术文章元数据的基金规范化方法,其特征在于,所述朴素贝叶斯的公式如下:

6.根据权利要求5所述的基于英文学术文章元数据的基金规范化方法,其特征在于:所述对所述基金等级分...

【专利技术属性】
技术研发人员:张鹤许景芳李宁田阳杰张学渊许若华李沄沨
申请(专利权)人:中图科信数智技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1