【技术实现步骤摘要】
一种基于词向量模型的机构名称规范方法
本专利技术涉及图书情报和信息提取领域,尤其涉及一种基于词向量模型的机构名称规范方法。
技术介绍
在科技文献数据库中,包含多种来源的文献信息资源,从海量的资源中进行信息抽取,需要用实体进行检索,实体主要包括人名、机构、地理名称、日期、题目、关键词等内容,其中人名和机构名是最重要的两类。随着历史变迁和体制改革,机构名称特别是团体名称因其基本职能、组织结构的变化也经常发生变化,由于中英文全称、简称和缩写等原因,许多机构名称存在不统一和不规范表述的问题。在科技文献方面,这种不规范、不统一的机构名称表述现象容易造成针对这些机构学术成果的检索和统计错误,也不利于对其相关数据的统计和挖掘分析。目前对科技文献的名称规范尚处于研究阶段,主要采取手工标注、更正等方法,这种方法对人力成本要求高,从而导致现有人名和机构之间的关联较为困难。因此需要一种基于词向量模型的机构名称规范方法以解決上述问题。
技术实现思路
为解决上述技术问题,本专利技术的目的在于提供一种基于词向量模型的 ...
【技术保护点】
1.一种基于词向量模型的机构名称规范方法,其特征在于:/n包括以下步骤:/nS10获取科技文献数据的机构名称以及字段特征,选取机构相关字段;/nS20通过所述选取机构相关字段提取文献相关字段信息文本;/nS30将多个所述信息文本构建word2vec词向量模型,并将机构名称聚类;/nS40基于词向量模型和聚类结果对相似机构名称查找和提取集合;/nS50所述集合采用Jaro相似度方法计算机构间相似度,得出最终机构规范结果。/n
【技术特征摘要】
1.一种基于词向量模型的机构名称规范方法,其特征在于:
包括以下步骤:
S10获取科技文献数据的机构名称以及字段特征,选取机构相关字段;
S20通过所述选取机构相关字段提取文献相关字段信息文本;
S30将多个所述信息文本构建word2vec词向量模型,并将机构名称聚类;
S40基于词向量模型和聚类结果对相似机构名称查找和提取集合;
S50所述集合采用Jaro相似度方法计算机构间相似度,得出最终机构规范结果。
2.根据权利要求1所述的一种基于词向量模型的机构名称规范方法,其特征在于,所述机构相关字段包括机构简称,机构全称,webofscience提供的增强组织机构名称,二级机构名称,机构内部Id机构地址等信息。
3.根据权利要求1所述的一种基于词向量模型的机构名称规范方法,其特征在于,所述文献相关信息文本的提取工作包括对文献相关字段的提取,以及对所提取字段信息的清洗和变换,以得到词向量训练文本集合textwv、清洗变换后机构名称集合listinst、清洗变换后机构名称和内部Id对应关系集合listinst-id。
4.根据权利要求3所述的一种基于词向量模型的机构名称规范方法,其特征在于,所述获取词向量训练文本集合textwv的方法包括:
1)对于科技文献数据集R中的每一篇文献Ri,根据标签信息提取文献标题;
2)对于每篇文献贡献集C中每一个贡献者Cj,判断其类型是否为作者,如果是则根据标签信息提取作者名称和作者对应机构编号;
3)根据机构编号,提取作者对应机构(包含机构简称、机构全称、机构所属系统)和机构对应地址编号;
4)根据地址编号,提取机构对应地址信息;
5)根据标签信息提取文献主题;
6)对提取文献信息进行清洗变换和保存。
5.根据权利要求3所述的一种基于词向量模型的机构名称规范方法,其特征在于,所述数据清洗工作包括删除特殊字符和标点,统一转化为小写字符,清洗变换后机构名称集合listinst只包含清洗变换后的机构名称。
6.根据权利要求3所述的一种基于词向量模型的机构名称规范方法,其特征在于,所述清洗变换后机构名称和内部Id对应关系集合listinst-id包含变换后机构名称、原始机构名称和机构内部Id。获取listinst-id的方法包括:
1)对于科技文献数据集R中的每一篇文献Ri,提取机构相关信息;
2)对于每篇文献机构集I中每一个机构Ij,提取机构名称和机构内部Id;
3)对提取机构名称进行清洗变换;
4)将清洗变换后机构名称,原始机构名称和...
【专利技术属性】
技术研发人员:侯颖,崔运鹏,李欢,王婷,马浩,
申请(专利权)人:中国农业科学院农业信息研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。