基于LEAM模型的机构命名实体归一化方法和系统技术方案

技术编号:27031473 阅读:14 留言:0更新日期:2021-01-12 11:14
本发明专利技术提供了一种基于LEAM模型的机构命名实体归一化方法和系统,包括:步骤S1:通过预设统计规则对所有的学术机构信息数据进行筛选,去除不符合预设条件的数据;步骤S2:在筛选过的数据中,根据正则表达式去除数据中存在的噪音;步骤S3:将去噪的数据按照类别和预设比例分为训练集、验证集和测试集;步骤S4:将训练集和验证集输入LEAM模型,训练出用于机构命名实体归一化的模型;步骤S5:将测试集输入训练好的模型中,测试模型效果并进行微调。通过本发明专利技术可以对每一个学术机构的论文发表数进行统计,从而可以更科学,更直观的对某个学术机构的学术能力进行判别。

【技术实现步骤摘要】
基于LEAM模型的机构命名实体归一化方法和系统
本专利技术涉及机构命名实体归一化
,具体地,涉及一种基于LEAM模型的机构命名实体归一化方法和系统。
技术介绍
机构命名实体归一化在学术大数据中的主要目的是将各种机构别名识别和映射到属于现实的机构实体。机构命名实体归一化对于学术机构能力评估,机构合作网络,学者姓名消歧,学者轨迹追踪,人才流动,学术论文管理以及学术排名等至关重要。在学术论文日益增多的今天,机构命名实体归一化也是构建学术网络知识图谱必不可少的一步。随着现代科学技术的进步,科研论文数量激增。近年来,论文和专利的数量的平均增长率一直保持在15%左右。同时,对机构论文统计又因为翻译方法,拼写方法,拼写错误,制度变化,写作风格等问题而显得极为复杂。所以,提出一种简单有效的大规模学术机构命名实体归一化系统就显得极其关键。解决机构归一化问题的方法总体上可以分为三类:基于规则的方法,基于知识的方法,以及两种方法结合的混合方法。基于规则的方法利用机构命名实体的一些命名规则,利用正则表达式对机构别名进行匹配,提取出其中能够利用的用于识别机构的信息。主要有DeBru和Moed提出的NEMO系统,该系统利用一层层的规则,提取出机构命名实体中的信息,例如地理位置,网址,邮箱,机构名称等等,并通过现有的本地信息来进行映射。基于知识的方法利用预先准备好的带标签数据,通过机器学习算法学习其中的特征,实现一个分类或者聚类模型。利用规则进行归一化的方法尽管在一些例子上表现优越,但其对作者命名规范有一定的要求,所以不能大范围的适用,准确率不高,所以大多数的归一化算法利用的是基于知识的方法。在本专利技术中,提出了一种基于深度学习的方法,与传统的基于机器学习方法,例如朴素贝叶斯,SVM等不同,深度学习方法能更好的提取文本中的特征,大大的提高分类的准确性。专利文献CN111783465A(申请号:CN202010630635.5)公开了一种命名实体归一化方法,包括:获取用户问句;对所述用户问句进行分词和命名实体识别,得到通用命名实体集;对所述通用命名实体集利用CYK算法生成句法树集合;对所述句法树集合遍历得到最大树组合;遍历所述最大树组合,按照预设语法顺序转化为固定表达式。本申请能够有效提高对于复杂问句的解析匹配能力,进一步提高智能设备的人机交互能力。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于LEAM模型的机构命名实体归一化方法和系统。根据本专利技术提供的基于LEAM模型的机构命名实体归一化方法,包括:步骤S1:通过预设统计规则对所有的学术机构信息数据进行筛选,去除不符合预设条件的数据;步骤S2:在筛选过的数据中,根据正则表达式去除数据中存在的噪音;步骤S3:将去噪的数据按照类别和预设比例分为训练集、验证集和测试集;步骤S4:将训练集和验证集输入LEAM模型,训练出用于机构命名实体归一化的模型;步骤S5:将测试集输入训练好的模型中,测试模型效果并进行微调。优选的,所述步骤S1包括:步骤S101:从数据库中导出所有学术机构的命名实体;步骤S102:统计所有相同的命名实体对应的所有归一化机构的名称和频次;步骤S103:按照最大频次保留该命名实体所对应的归一化机构,删除其他数据。优选的,所述步骤S2包括:步骤S201:将机构名称中出现的拉丁文转化为英语字母;步骤S202:根据正则表达式,去除已经转化过的机构名称中的停用词和标点符号,并将机构名称中的缩略词进行扩写。优选的,所述步骤S3包括:步骤S301:统计所有归一化后机构的类别所对应的机构实体别名的数目;步骤S302:按照6:2:2的比例将每一个类别的实体别名随机划分为训练集、验证集和测试集。优选的,所述步骤S4包括:步骤S401:载入训练好的100维字符向量,作为训练时字符的初始化;步骤S402:将训练集中机构原始名称按照字符串长度进行排序,每次按长度从中取batch大小的训练数据构成一个训练的batch,验证集的batch进行同等操作;步骤S403:将每一个batch中的每一个原始名称表示成一个L行100列的矩阵,L是这个batch中最长字符串的长度,矩阵每一行为每个字符的100维向量表示;步骤S404:通过训练数据的矩阵表示来训练一个基于LEAM的文本分类模型;步骤S405:在每一个训练回合结束后,利用验证集对文本分类模型进行验证,判断文本分类模型是否达到预设效果,并且通过验证集的结果,对文本分类模型的超参数进行调整。优选的,将基于LEAM的文本分类模型看成f0、f1以及f2三个系统的级联,其中f0表示将字符表示为向量,f1是将这些向量进行运算得到文本的表示,f2是将文本表示用于分类;在f0中,学习归一化机构的矩阵表示来影响字符向量的表示,同时在f1中利用归一化机构和原始机构字符的相似性来进行文本表示的聚合;用ci表示第i个归一化机构的向量表示,C为所有归一化机构的矩阵表示,假设共有K个类别,利用cosine相似度计算每个类别和字符间的相似度:其中,表示元素积,是K×100的归一化矩阵,中的每一个元素为V表示文本表示矩阵;v1表示V的第l列;用Glr衡量中心在长度l为2r+1的相关性,则相似度向量表示为:ul=RELU(GlrW1+b1)其中,ul∈RK,W1表示分类模型中的线性参数;b1表示分类模型中的常量参数;利用最大池得到最大相关的系数,通过该系数得到注意力机制的系数,命名为β,最终的文本表示为:β1表示β的第l个元素;通过相应的损失熵函数将该模型转化为一个最优化问题,利用相应的训练集数据,训练出相应的参数。优选的,所述步骤S5包括:步骤S501:利用训练好的模型对测试集数据进行测试,统计结果的准确率,并将准确率及对应模型进行保存;步骤S502:对分类不符预设规则的数据进行分析,去除标签错误的数据,并对难以分类数据进行手动的标记;步骤S503:修改batch的大小以及学习率的超参数,重复执行步骤S1-S5,得到最佳的超参数设计和对应的模型。根据本专利技术提供的基于LEAM模型的机构命名实体归一化系统,包括:模块M1:通过预设统计规则对所有的学术机构信息数据进行筛选,去除不符合预设条件的数据;模块M2:在筛选过的数据中,根据正则表达式去除数据中存在的噪音;模块M3:将去噪的数据按照类别和预设比例分为训练集、验证集和测试集;模块M4:将训练集和验证集输入LEAM模型,训练出用于机构命名实体归一化的模型;模块M5:将测试集输入训练好的模型中,测试模型效果并进行微调。优选的,所述模块M1包括:模块M101:从数据库中导出所有学术机构的命名实体;模块M102:统计所有相同的命名实体对应的所有归本文档来自技高网
...

【技术保护点】
1.一种基于LEAM模型的机构命名实体归一化方法,其特征在于,包括:/n步骤S1:通过预设统计规则对所有的学术机构信息数据进行筛选,去除不符合预设条件的数据;/n步骤S2:在筛选过的数据中,根据正则表达式去除数据中存在的噪音;/n步骤S3:将去噪的数据按照类别和预设比例分为训练集、验证集和测试集;/n步骤S4:将训练集和验证集输入LEAM模型,训练出用于机构命名实体归一化的模型;/n步骤S5:将测试集输入训练好的模型中,测试模型效果并进行微调。/n

【技术特征摘要】
1.一种基于LEAM模型的机构命名实体归一化方法,其特征在于,包括:
步骤S1:通过预设统计规则对所有的学术机构信息数据进行筛选,去除不符合预设条件的数据;
步骤S2:在筛选过的数据中,根据正则表达式去除数据中存在的噪音;
步骤S3:将去噪的数据按照类别和预设比例分为训练集、验证集和测试集;
步骤S4:将训练集和验证集输入LEAM模型,训练出用于机构命名实体归一化的模型;
步骤S5:将测试集输入训练好的模型中,测试模型效果并进行微调。


2.根据权利要求1所述的基于LEAM模型的机构命名实体归一化方法,其特征在于,所述步骤S1包括:
步骤S101:从数据库中导出所有学术机构的命名实体;
步骤S102:统计所有相同的命名实体对应的所有归一化机构的名称和频次;
步骤S103:按照最大频次保留该命名实体所对应的归一化机构,删除其他数据。


3.根据权利要求1所述的基于LEAM模型的机构命名实体归一化方法,其特征在于,所述步骤S2包括:
步骤S201:将机构名称中出现的拉丁文转化为英语字母;
步骤S202:根据正则表达式,去除已经转化过的机构名称中的停用词和标点符号,并将机构名称中的缩略词进行扩写。


4.根据权利要求1所述的基于LEAM模型的机构命名实体归一化方法,其特征在于,所述步骤S3包括:
步骤S301:统计所有归一化后机构的类别所对应的机构实体别名的数目;
步骤S302:按照6:2:2的比例将每一个类别的实体别名随机划分为训练集、验证集和测试集。


5.根据权利要求1所述的基于LEAM模型的机构命名实体归一化方法,其特征在于,所述步骤S4包括:
步骤S401:载入训练好的100维字符向量,作为训练时字符的初始化;
步骤S402:将训练集中机构原始名称按照字符串长度进行排序,每次按长度从中取batch大小的训练数据构成一个训练的batch,验证集的batch进行同等操作;
步骤S403:将每一个batch中的每一个原始名称表示成一个L行100列的矩阵,L是这个batch中最长字符串的长度,矩阵每一行为每个字符的100维向量表示;
步骤S404:通过训练数据的矩阵表示来训练一个基于LEAM的文本分类模型;
步骤S405:在每一个训练回合结束后,利用验证集对文本分类模型进行验证,判断文本分类模型是否达到预设效果,并且通过验证集的结果,对文本分类模型的超参数进行调整。


6.根据权利要求5所述的基于LEAM模型的机构命名实体归一化方法,其特征在于,将基于LEAM的文本分类模型看成f0、f1以及f2三个系统的级联,其中f0表示将字符表示为向量,f1是将这些向量进行运算得到文本的表示,f2是将文本表示用于分类;
在f0中,学习归一化机构的矩阵表示来影响字符向量的表示,同时在f1中利用归一化机构和原始机构字符的相似性来进行文本表示的聚合;
用ci表示第i个归一化机构的向量表示,C为所有归一化机构的矩阵表示,假设共有K个类别,利用cosine相似度计算每个类别和字符间的相似度:



其中,表示元素积,是K×100的归一化矩阵,中的每一个元素为
V表示文本表示矩阵;v1表示V的第l列;
用Glr衡量中心在长度l为2r+1的相关性,则相似度向量表示为:
ul=RELU(GlrW1+b1)
其中,ul∈RK,
W1表示分类模型中的线性参数;b1表示分类模型中的常量参数;
...

【专利技术属性】
技术研发人员:亓杰星彭金波傅洛伊王新兵陈贵海
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1