System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大规模数据的作者消歧方法、装置及可读存储介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>之江实验室专利>正文

大规模数据的作者消歧方法、装置及可读存储介质制造方法及图纸

技术编号:40513713 阅读:5 留言:0更新日期:2024-03-01 13:30
本申请涉及一种大规模数据的作者消歧方法、装置及可读存储介质,所述方法包括:基于所述大规模数据和预先定义的谓词,生成对应的谓词实例数据;其中,所述大规模数据包括结构化存储的文献信息和对应的作者信息;所述谓词实例数据包括文献作者对;将所述谓词实例数据切分为多个初始数据块;基于预先确定的一阶逻辑规则,对所述多个初始数据块中具有相同作者的文献作者对进行合并,生成最终数据块;基于所述最终数据块中的文献作者对,生成所述大规模数据对应的作者标识信息,解决了相关技术中存在的对大规模学术文献数据的作者消歧效率较低的问题。

【技术实现步骤摘要】

本申请涉及文本处理,特别是涉及一种大规模数据的作者消歧方法、装置及可读存储介质


技术介绍

1、由于学术文献数据量巨大且与日俱增,如何对同名作者进行识别成为提高数据检索精准度的一个重要问题。在现有技术中,有一些技术利用关联关系异质网络、论文语义表征构建相似矩阵并聚类、消歧的方法对作者进行识别,以及提取表征向量分别生成相似度矩阵并加权求和、再利用无监督聚类方法进行聚类,对聚类离散点进行簇指派后得到消歧结果的方法等等。然而,现有的作者消歧方法对于大规模、特大规模的学术文献数据,不能提供加速算法实现过程的方式,对于现实情况下文献数据量巨大的适配性不强,完成作者消歧的效率较低。


技术实现思路

1、在本实施例中提供了一种大规模数据的作者消歧方法、装置及可读存储介质,以解决相关技术中存在的对大规模学术文献数据的作者消歧效率较低的问题。

2、第一个方面,在本实施例中提供了一种大规模数据的作者消歧方法,所述方法包括:

3、基于所述大规模数据和预先定义的谓词,生成对应的谓词实例数据;其中,所述大规模数据包括结构化存储的文献信息和对应的作者信息;所述谓词实例数据包括文献作者对;

4、将所述谓词实例数据切分为多个初始数据块;

5、基于预先确定的一阶逻辑规则,对所述多个初始数据块中具有相同作者的文献作者对进行合并,生成最终数据块;

6、基于所述最终数据块中的文献作者对,生成所述大规模数据对应的作者标识信息。

7、在其中的一些实施例中,所述基于预先确定的一阶逻辑规则,对所述多个初始数据块中具有相同作者的文献作者对进行合并,生成最终数据块包括:

8、基于预先确定的一阶逻辑规则,获取所述初始数据块中具有相同作者的文献作者对;

9、对所述文献作者对进行合并,得到所述初始数据块对应的更新数据块;

10、基于多个更新数据块中具有相同作者的文献作者对,对所述多个更新数据块进行重复合并,直至生成最终数据块。

11、在其中的一些实施例中,所述基于预先确定的一阶逻辑规则,获取所述初始数据块中具有相同作者的文献作者对包括:

12、基于所述一阶逻辑规则,获取所述初始数据块中各文献作者对之间具有相同作者的概率值;

13、基于所述概率值,对所述各文献作者对中的作者进行聚合,得到所述初始数据块对应的作者群和单独作者;

14、对所述作者群中的各作者对应的文献作者对进行合并,并获取所述作者群与对应作者的映射关系。

15、在其中的一些实施例中,所述基于所述一阶逻辑规则,获取所述初始数据块中各文献作者对之间具有相同作者的概率值包括:

16、基于所述一阶逻辑规则和所述初始数据块中的谓词实例数据,生成规则实例数据;

17、基于马尔科夫逻辑网络,计算获得所述规则实例数据对应的各文献作者对之间具有相同作者的概率值。

18、在其中的一些实施例中,所述基于所述概率值,对所述各文献作者对中的作者进行聚合,得到所述初始数据块对应的作者群和单独作者包括:

19、以所述初始数据块中各文献作者对中的作者为节点,以各文献作者对之间具有相同作者的概率值为边,建立作者网络;

20、以所述作者网络的模块度最大化为目标,对所述作者网络进行聚合,得到所述作者群和单独作者。

21、在其中的一些实施例中,所述基于多个更新数据块中具有相同作者的文献作者对,对所述多个更新数据块进行重复合并,直至生成最终数据块包括:

22、基于预先确定的数据块规模阈值,从所述多个更新数据块中确定待合并数据块;

23、对所述待合并数据块两两合并,得到合并后数据块;

24、对所述合并后数据块中具有相同作者的文献作者对进行合并,生成所述合并后数据块对应的更新数据块;

25、将所述更新数据块作为待合并数据块进行两两合并,直至生成最终数据块。

26、在其中的一些实施例中,所述基于所述大规模数据和预先定义的谓词,生成对应的谓词实例数据包括:

27、基于所述大规模数据中的文献信息和对应的作者信息,生成各文献作者对;

28、对所述各文献作者对进行组合,生成配对数据;

29、基于预先定义的谓词,以及所述配对数据对应的作者信息和文献信息,生成所述配对数据对应的谓词实例数据。

30、在其中的一些实施例中,在所述基于所述大规模数据和预先定义的谓词,生成对应的谓词实例数据之前,所述方法还包括:

31、采集原始文献数据并进行预处理,生成所述大规模数据,所述大规模数据包括文献标识和作者标识;

32、对所述大规模数据进行结构化存储。

33、第二个方面,在本实施例中提供了一种大规模数据的作者消歧装置,所述装置包括:

34、第一生成模块,用于基于所述大规模数据和预先定义的谓词,生成对应的谓词实例数据;其中,所述大规模数据包括结构化存储的文献信息和对应的作者信息;所述谓词实例数据包括文献作者对;

35、切分模块,用于将所述谓词实例数据切分为多个初始数据块;

36、合并模块,用于基于预先确定的一阶逻辑规则,对所述多个初始数据块中具有相同作者的文献作者对进行合并,生成最终数据块;

37、第二生成模块,用于基于所述最终数据块中的文献作者对,生成所述大规模数据对应的作者标识信息。

38、第三个方面,在本实施例中提供了一种可读存储介质,其上存储有程序,所述程序被处理器执行时实现第一个方面所述的大规模数据的作者消歧方法的步骤。

39、与相关技术相比,在本实施例中提供的大规模数据的作者消歧方法,通过基于大规模数据和预先定义的谓词,生成对应的谓词实例数据,作为后续进行作者消歧的基础数据;通过将谓词实例数据切分为多个初始数据块,降低对数据处理的硬件资源的需求,提高大规模数据的处理效率;通过基于预先确定的一阶逻辑规则,对多个初始数据块中具有相同作者的文献作者对进行合并,生成最终数据块,基于建模推理的方式完成作者消歧,提高消歧过程的逻辑性和可解释性;通过基于最终数据块中的文献作者对,生成大规模数据对应的作者标识信息,识别大规模文献中的相同作者,解决了相关技术中存在的对大规模学术文献数据的作者消歧效率较低的问题。

40、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

本文档来自技高网...

【技术保护点】

1.一种大规模数据的作者消歧方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于预先确定的一阶逻辑规则,对所述多个初始数据块中具有相同作者的文献作者对进行合并,生成最终数据块包括:

3.根据权利要求2所述的方法,其特征在于,所述基于预先确定的一阶逻辑规则,获取所述初始数据块中具有相同作者的文献作者对包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述一阶逻辑规则,获取所述初始数据块中各文献作者对之间具有相同作者的概率值包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述概率值,对所述各文献作者对中的作者进行聚合,得到所述初始数据块对应的作者群和单独作者包括:

6.根据权利要求2所述的方法,其特征在于,所述基于多个更新数据块中具有相同作者的文献作者对,对所述多个更新数据块进行重复合并,直至生成最终数据块包括:

7.根据权利要求1所述的方法,其特征在于,所述基于所述大规模数据和预先定义的谓词,生成对应的谓词实例数据包括:

8.根据权利要求1所述的方法,其特征在于,在所述基于所述大规模数据和预先定义的谓词,生成对应的谓词实例数据之前,所述方法还包括:

9.一种大规模数据的作者消歧装置,其特征在于,所述装置包括:

10.一种可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现权利要求1至权利要求8中任一项所述的大规模数据的作者消歧方法的步骤。

...

【技术特征摘要】

1.一种大规模数据的作者消歧方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于预先确定的一阶逻辑规则,对所述多个初始数据块中具有相同作者的文献作者对进行合并,生成最终数据块包括:

3.根据权利要求2所述的方法,其特征在于,所述基于预先确定的一阶逻辑规则,获取所述初始数据块中具有相同作者的文献作者对包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述一阶逻辑规则,获取所述初始数据块中各文献作者对之间具有相同作者的概率值包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述概率值,对所述各文献作者对中的作者进行聚合,得到所述初始数据块对应的作者群和单独作者包括:...

【专利技术属性】
技术研发人员:陆矜菁姬朋立严笑然刘洋顾剑波侯炜华
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1