语料库构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34884420 阅读:87 留言:0更新日期:2022-09-10 13:41
本发明专利技术提供一种语料库构建方法、装置、电子设备及存储介质,其中方法包括:确定目标学科;基于所述目标学科与各候选学科在学科层级结构中的交汇情况,和/或,名词分别在所述目标学科与各候选学科中的含义的相似情况,从各候选学科中选取与所述目标学科相关的关联学科;基于所述目标学科的语料和所述关联学科的语料,构建语料库。本发明专利技术提供的方法、装置、电子设备及存储介质,从学科分类层面和/或共用名词含义层面入手,选取与目标学科相关的关联学科,确保了关联学科选取的客观性和准确性,由此构建覆盖目标学科及其关联学科语料的语料库,其全面性能够满足机器翻译等语料库后续应用的需求。用的需求。用的需求。

【技术实现步骤摘要】
语料库构建方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种语料库构建方法、装置、电子设备及存储介质。

技术介绍

[0002]在机器学习的训练优化过程中,大规模的语料库是不可或缺的源数据之一。此处,语料库指经合理取样的电子文本库,其中存放的是在实际使用中真实出现过的语言材料。
[0003]目前,针对任意学科的语料库的构建,通常可以划分为两种方式,一种是仅收集该学科的电子文本,另一种是既收集该学科的电子文本,也收集与该学科相关学科的电子文本。
[0004]考虑到学科之间经常出现交叉引用的情况,仅收集一种学科的电子文本,必然导致由此构建的语料库中的内容欠缺;而在收集与该种学科相关学科的电子文本时,由于多是人为划定相关学科,相关学科的选择并不客观,因此难以保证由此构建的语料库是情感中性的,也就无法满足机器学习的训练要求。

技术实现思路

[0005]本专利技术提供一种语料库构建方法、装置、电子设备及存储介质,用以解决现有技术中语料库构建客观性差、准确性低的缺陷
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料库构建方法,其特征在于,包括:确定目标学科;基于所述目标学科与各候选学科在学科层级结构中的交汇情况,和/或,名词分别在所述目标学科与各候选学科中的含义的相似情况,从各候选学科中选取与所述目标学科相关的关联学科;基于所述目标学科的语料和所述关联学科的语料,构建语料库。2.根据权利要求1所述的语料库构建方法,其特征在于,所述目标学科与各候选学科在学科层级结构中的交汇情况基于如下步骤确定:基于所述学科层级结构,确定所述目标学科与各候选学科的交汇层级;基于所述目标学科与各候选学科的交汇层级,确定所述目标学科与各候选学科在学科层级结构中的交汇情况。3.根据权利要求2所述的语料库构建方法,其特征在于,所述基于所述目标学科与各候选学科的交汇层级,确定所述目标学科与各候选学科在学科层级结构中的交汇情况,包括:基于所述目标学科与各候选学科的交汇层级对应的层级权重,确定所述目标学科与各候选学科在学科层级结构中的交汇情况;所述层级权重基于各层级在所述学科层级结构中包含的学科数量确定。4.根据权利要求1所述的语料库构建方法,其特征在于,所述名词分别在所述目标学科与各候选学科中的含义的相似情况基于如下步骤确定:基于所述目标学科的名词集合与各候选学科的名词集合,确定所述目标学科分别与各候选学科的共用名词;基于所述共用名词分别在所述目标学科与各候选学科中的含义分布,确定所述名词分别在所述目标学科与各候选学科中的含义的相似情况。5.根据权利要求4所述的语料库构建方法,其特征在于,所述基于所述共用名词分别在所述目标学科与各候选学科中的含义分布,确定所述名词分别在所述目标学科与各候选学科中的含义的相似情况,包括:基于所述共用名词分别在所述目标学科与各候选学科中的含义分布,以及所述共用名词分别在所述目标学科与各候选学科中的常用含义之间的关系,确定所述名词分别在所述目标学科与各候选学科中的含义的相似情况;所述常用含义为所述共用名词在对应学科中最高频的含义。6.根据权利...

【专利技术属性】
技术研发人员:汪雪松李康熙唐俊峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1