基于LEAM模型的机构命名实体归一化方法和系统技术方案

技术编号：27031473 阅读：14 留言：0更新日期：2021-01-12 11:14

本发明专利技术提供了一种基于LEAM模型的机构命名实体归一化方法和系统，包括：步骤S1：通过预设统计规则对所有的学术机构信息数据进行筛选，去除不符合预设条件的数据；步骤S2：在筛选过的数据中，根据正则表达式去除数据中存在的噪音；步骤S3：将去噪的数据按照类别和预设比例分为训练集、验证集和测试集；步骤S4：将训练集和验证集输入LEAM模型，训练出用于机构命名实体归一化的模型；步骤S5：将测试集输入训练好的模型中，测试模型效果并进行微调。通过本发明专利技术可以对每一个学术机构的论文发表数进行统计，从而可以更科学，更直观的对某个学术机构的学术能力进行判别。

全部详细技术资料下载

【技术实现步骤摘要】
基于LEAM模型的机构命名实体归一化方法和系统
本专利技术涉及机构命名实体归一化
，具体地，涉及一种基于LEAM模型的机构命名实体归一化方法和系统。
技术介绍
机构命名实体归一化在学术大数据中的主要目的是将各种机构别名识别和映射到属于现实的机构实体。机构命名实体归一化对于学术机构能力评估，机构合作网络，学者姓名消歧，学者轨迹追踪，人才流动，学术论文管理以及学术排名等至关重要。在学术论文日益增多的今天，机构命名实体归一化也是构建学术网络知识图谱必不可少的一步。随着现代科学技术的进步，科研论文数量激增。近年来，论文和专利的数量的平均增长率一直保持在15％左右。同时，对机构论文统计又因为翻译方法，拼写方法，拼写错误，制度变化，写作风格等问题而显得极为复杂。所以，提出一种简单有效的大规模学术机构命名实体归一化系统就显得极其关键。解决机构归一化问题的方法总体上可以分为三类：基于规则的方法，基于知识的方法，以及两种方法结合的混合方法。基于规则的方法利用机构命名实体的一些命名规则，利用正则表达式对机构别名进行匹配，提取出其中能够利用的用于识别机构的信息。主要有DeBru和Moed提出的NEMO系统，该系统利用一层层的规则，提取出机构命名实体中的信息，例如地理位置，网址，邮箱，机构名称等等，并通过现有的本地信息来进行映射。基于知识的方法利用预先准备好的带标签数据，通过机器学习算法学习其中的特征，实现一个分类或者聚类模型。利用规则进行归一化的方法尽管在一些例子上表现优越，但其对作者命名规范有一定的要求，所...

【技术保护点】
1.一种基于LEAM模型的机构命名实体归一化方法，其特征在于，包括：/n步骤S1：通过预设统计规则对所有的学术机构信息数据进行筛选，去除不符合预设条件的数据；/n步骤S2：在筛选过的数据中，根据正则表达式去除数据中存在的噪音；/n步骤S3：将去噪的数据按照类别和预设比例分为训练集、验证集和测试集；/n步骤S4：将训练集和验证集输入LEAM模型，训练出用于机构命名实体归一化的模型；/n步骤S5：将测试集输入训练好的模型中，测试模型效果并进行微调。/n

【技术特征摘要】
1.一种基于LEAM模型的机构命名实体归一化方法，其特征在于，包括：
步骤S1：通过预设统计规则对所有的学术机构信息数据进行筛选，去除不符合预设条件的数据；
步骤S2：在筛选过的数据中，根据正则表达式去除数据中存在的噪音；
步骤S3：将去噪的数据按照类别和预设比例分为训练集、验证集和测试集；
步骤S4：将训练集和验证集输入LEAM模型，训练出用于机构命名实体归一化的模型；
步骤S5：将测试集输入训练好的模型中，测试模型效果并进行微调。

2.根据权利要求1所述的基于LEAM模型的机构命名实体归一化方法，其特征在于，所述步骤S1包括：
步骤S101：从数据库中导出所有学术机构的命名实体；
步骤S102：统计所有相同的命名实体对应的所有归一化机构的名称和频次；
步骤S103：按照最大频次保留该命名实体所对应的归一化机构，删除其他数据。

3.根据权利要求1所述的基于LEAM模型的机构命名实体归一化方法，其特征在于，所述步骤S2包括：
步骤S201：将机构名称中出现的拉丁文转化为英语字母；
步骤S202：根据正则表达式，去除已经转化过的机构名称中的停用词和标点符号，并将机构名称中的缩略词进行扩写。

4.根据权利要求1所述的基于LEAM模型的机构命名实体归一化方法，其特征在于，所述步骤S3包括：
步骤S301：统计所有归一化后机构的类别所对应的机构实体别名的数目；
步骤S302：按照6：2：2的比例将每一个类别的实体别名随机划分为训练集、验证集和测试集。

5.根据权利要求1所述的基于LEAM模型的机构命名实体归一化方法，其特征在于，所述步骤S4包括：
步骤S401：载入训练好的100维字符向量，作为训练时字符的初始化；
步骤S402：将训练集中机构原始名称按照字符串长度进行排序，每次按长度从中取batch大小的训练数据构成一个训练的batch，验证集的batch进行同等操作；
步骤S403：将每一个batch中的每一个原始名称表示成一个L行100列的矩阵，L是这个batch中最长字符串的长度，矩阵每一行为每个字符的100维向量表示；
步骤S404：通过训练数据的矩阵表示来训练一个基于LEAM的文本分类模型；
步骤S405：在每一个训练回合结束后，利用验证集对文本分类模型进行验证，判断文本分类模型是否达到预设效果，并且通过验证集的结果，对文本分类模型的超参数进行调整。

6.根据权利要求5所述的基于LEAM模型的机构命名实体归一化方法，其特征在于，将基于LEAM的文本分类模型看成f0、f1以及f2三个系统的级联，其中f0表示将字符表示为向量，f1是将这些向量进行运算得到文本的表示，f2是将文本表示用于分类；
在f0中，学习归一化机构的矩阵表示来影响字符向量的表示，同时在f1中利用归一化机构和原始机构字符的相似性来进行文本表示的聚合；
用ci表示第i个归一化机构的向量表示，C为所有归一化机构的矩阵表示，假设共有K个类别，利用cosine相似度计算每个类别和字符间的相似度：

其中，表示元素积，是K×100的归一化矩阵，中的每一个元素为
V表示文本表示矩阵；v1表示V的第l列；
用Glr衡量中心在长度l为2r+1的相关性，则相似度向量表示为：
ul＝RELU(GlrW1+b1)
其中，ul∈RK，
W1表示分类模型中的线性参数；b1表示分类模型中的常量参数；
...

【专利技术属性】
技术研发人员：亓杰星，彭金波，傅洛伊，王新兵，陈贵海，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人