基于可靠信息库的学术成果机构命名排歧方法及装置制造方法及图纸

技术编号：23764586 阅读：96 留言：0更新日期：2020-04-11 19:10

本发明专利技术公开了一种基于可靠信息库的学术成果机构命名排歧方法及装置，其中，该方法包括：从学术成果文本中提取机构相关信息，并获取机构字符串；按照特殊字符对机构字符串进行分割，并对分割后的字符串部分实体命名识别，将属于实体命名的存入疑似机构队列；对疑似机构队列进行地理位置信息映射，得到机构地理位置信息；根据可靠机构数据集进行多类名称相似度计算，得到疑似机构实体序列和对应的最高相似名称相似度值；对疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与机构地理位置信息上的距离和最高相似名称相似度值的最终相似度值筛选出最佳结果。该方法能够简单快速准确地实现学术成果中机构的命名排歧，并实现机构名称的标准化。

The method and device of naming and disambiguating academic achievement organization based on reliable information base

全部详细技术资料下载

【技术实现步骤摘要】
基于可靠信息库的学术成果机构命名排歧方法及装置
本专利技术涉及信息检索
，特别涉及一种基于可靠信息库的学术成果机构命名排歧方法及装置。
技术介绍
学术成果中的机构实体信息文本较短，易出现表达歧义等问题，可靠外部信息库，能够为短文本提供足够的对照信息，这为实现学术成果中机构的命名排歧提供了可能。基于可靠机构信息库的机构命名排歧，可以应用到多种应用中，例如无歧义机构实体信息库的构建，机构合作网络分析等。机构名称在特定的时间和空间范围内有一定的排他性，但在超出特定时间和空间的范围内呈现出较强的歧义性。机构名称的命名排歧是地址命名排歧的一个细分类别，基于可靠信息库的地址命名排歧方法已经得到了较多人的关注，例如，Buscaldi等人在借助WordNet的地理参考版本的基础上对基于知识的方法和基于地图的方法进行了比较，结果表明，相对而言基于知识的方法可以在较小的上下文下获得更好的结果；Hu等介绍了借助维基百科的语义网版本DBpedia，通过其提供的结构化的和机器可理解的知识，来消除短文中地名歧义的方法，该方法的准确性和通用...

【技术保护点】
1.一种基于可靠信息库的学术成果机构命名排歧方法，其特征在于，包括以下步骤：/n从学术成果文本中提取机构相关信息，并获取机构字符串；/n按照特殊字符对所述机构字符串进行文本分割，并对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列；/n对所述疑似机构队列进行地理位置信息映射，得到机构地理位置信息；/n根据可靠机构数据集进行多类名称相似度计算，得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值；以及/n对所述疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。...

【技术特征摘要】
1.一种基于可靠信息库的学术成果机构命名排歧方法，其特征在于，包括以下步骤：
从学术成果文本中提取机构相关信息，并获取机构字符串；
按照特殊字符对所述机构字符串进行文本分割，并对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列；
对所述疑似机构队列进行地理位置信息映射，得到机构地理位置信息；
根据可靠机构数据集进行多类名称相似度计算，得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值；以及
对所述疑似机构实体序列进行地址抽取及地理位置信息映射，并通过与所述机构地理位置信息上的距离和所述最高相似名称相似度值的最终相似度值筛选出最佳结果。

2.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法，其特征在于，基于特殊符号对机构字符串进行文本分割，采用自然语言处理工具对所述分割后的字符串部分进行实体命名识别。

3.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法，其特征在于，所述对分割后的字符串部分进行实体命名识别，将属于实体命名的部分保存并存入疑似机构队列，包括：
判断所述分割后的字符串部分是否属于命名实体；
若属于，则属于命名实体的部分保存并存入所述疑似机构队列；
若不属于，则不属于命名实体的部分丢弃。

4.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法，其特征在于，所述对所述疑似机构队列进行地理位置信息映射，得到机构地理位置信息，包括：
采用多地图API对所述疑似机构队列中的机构文本进行地理位置信息的映射，根据是否返回映射结果判断是否将机构文本从所述疑似机构队列中删除；
若返回映射结果，则对所述映射结果和所述机构文本进行计算，得到所述机构地理位置信息；
若未返回映射结果，则将所述机构文本删除。

5.根据权利要求1所述的基于可靠信息库的学术成果机构命名排歧方法，其特征在于，所述根据可靠机构数据集进行多类名称相似度计算，得到所述可靠机构数据集中的疑似机构实体序列和对应的最高相似名称相似度值，包括：
根据所述可靠机构数据集进行多类名称相似度计算，并根据相似度计算的结果的不同类型，判断是否将当前类型加入所述疑似机构实体序列中...

【专利技术属性】
技术研发人员：唐杰，邵洲，袁莎，刘德兵，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人