当前位置: 首页 > 专利查询>清华大学专利>正文

基于学者科研成果挖掘的学者精准定位方法及装置制造方法及图纸

技术编号:20389823 阅读:37 留言:0更新日期:2019-02-20 02:50
本发明专利技术公开了一种基于学者科研成果挖掘的学者精准定位方法及装置,其中,该方法包括:对学者科研成果p中文本信息进行抽取以获取关键信息,并构建结构化信息;根据关键信息和结构化信息对学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造学者科研成果p相关结构化的隐含信息O;对结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据隐含信息O和不同类型地图API特点,获取最终结果R;根据最终结果R和矩阵U获取A→R映射,并获取学者科研成果中集合A的每个学者的地理位置信息,输出学者科研成果p中所有作者的定位信息。该方法可以通过深度挖掘学者科研成果的文本信息,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。

【技术实现步骤摘要】
基于学者科研成果挖掘的学者精准定位方法及装置
本专利技术涉及定位
,特别涉及一种基于学者科研成果挖掘的学者精准定位方法及装置。
技术介绍
学者科研成果的特定性质决定了其高可靠性,而学者的科研成果蕴含了学者的时空相关信息,根据学者的科研成果实现对学者的定位提供了可能性,根据复杂文本(如学者隶属关系的信息)实现精准的定位一直以来是一个难题,已有的多种方法在实现精准定位上出现多方面的不一致。学者的科研成果具有真实性、准确性、非匿名性、严谨等一系列的特点,因此,其信息具有相当高的可靠性,学者的科研成果蕴含了学者在特定时间、特定地点、从事特定方向的科研活动信息。就一般的论文、专利等科研成果来讲,会包含学者的姓名、所在单位、时间和研究的内容等基本信息。其中,对学者科研论文信息进行抽取等可以完成学者时间空间的关系的关联,在此基础上使用地图API完成学者所属单位和地理位置信息的映射即可实现学者的定位。但是,由于学者科研成果文本信息的非结构化、写法多样等原因,导致抽取单一、语义明确的单位信息存在相当大的困难。使得所获取的学者隶属信息往往具有信息量相对较大、无用信息多、重点信息不突出、干扰信息多、信息缺失、歧义性大、多语言等一系列问题,都使得从学者的科研成果中实现对学者的精准定位变得困难。传统的地图在实现字符串到地理位置信息的映射中做了很多工作,如谷歌实现了将来自用户的、用于地图搜索的输入条目解析成用于指示输入搜索条目中的位置信息的位置部分相关的工作。百度将用户的输入语句进行切词,并在切词结果中提取与该用户需求相关的特定信息,然后再提取相应信息。奇虎根据用户输入的语句确定查询对应的查询样式,然后根据查询样式,确定查询的地图相关度分数,再根据地图相关分数,判断是否显示与查询相关的电子地图。腾讯通过统计兴趣点数据库内部地图数据出现频率及通过搜索引擎的查询结果数进行排序,提高了地图数据重要度的覆盖率和准确率。微软在多语言的查询上进行了转化和处理,提高了多语言环境下的处理准确率。上述方法在一定程度上提高了用户输入查询得到的结果的准确性,但是,针对学者科研成果中学者隶属关系信息的特殊性没有进行考虑,导致相当部分的数据无法获得地理位置信息结果,获得的部分结果出现了较大的偏差。使用国内著名的科技大数据挖掘服务平台AMiner的论文数据进行测试,其中,结果显示,直接使用地图API对学者隶属关系信息进行地理位置信息映射的查全率为50%,正确率低于80%。由于不同的地图在地址信息库的建设的差异性存在,使得地址收录的情况不一致、搜索关键字的权重不一样、搜索结果的顺序不一样等情况的出现。这使得在查询同一字符串时出现的结果出现差异,例如,以查询“西北大学”为例,分别调用百度地图和谷歌地图API,百度地图定位结果为:{"lng":108.9342237431768,"lat":34.25373435757479},谷歌地图定位结果为:{"lat":42.0564594,"lng":-87.67526699999999},其中,两者一个在中国境内,一个在美国境内,如果可以从论文中抽取出学者所在国别信息即可实现信息的正确化处理。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于学者科研成果挖掘的学者精准定位方法,该方法可以有效、准确地实现学者科研成果到学者地理位置信息的精确映射。本专利技术的另一个目的在于提出一种基于学者科研成果挖掘的学者精准定位装置。为达到上述目的,本专利技术一方面实施例提出了一种基于学者科研成果挖掘的学者精准定位方法,包括以下步骤:对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,所述结构化信息包括所述学者科研成果中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U;根据所述关键信息和所述结构化信息对所述学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造所述学者科研成果p相关结构化的隐含信息O;对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果R;根据所述最终结果R和所述矩阵U获取A→R映射,并获取所述学者科研成果中集合A的每个学者的地理位置信息,输出所述学者科研成果p中所有作者的定位信息。本专利技术实施例的基于学者科研成果挖掘的学者精准定位方法,通过深度挖掘学者科研成果的文本信息,构建具有地理指向性的隐含信息,然后通过自适应权重计算方法消除不同类型地图API返回的差异性结果,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。另外,根据本专利技术上述实施例的基于学者科研成果挖掘的学者精准定位方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,还包括:判断学者科研成果p是否为结构化的文本;如果是,则识别所述学者科研成果p的每个部分的类别,否则对所述学者科研成果p中文本信息进行抽取,并构建所述结构化信息。进一步地,在本专利技术的一个实施例中,所述具有地理指向性的隐含信息包括所使用到的语言lang、邮政编码信息code、与所述集合B中重复或者有关联的信息。进一步地,在本专利技术的一个实施例中,所述对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果进一步包括:对集合B做输入预处理,按照信息的重要程度做清洗、筛选和结构化整理;根据构造的字符串,使用多个不同类型的fm做结构化轮换查询,当查询结果为空的时,逐渐抛弃权重较低的字符串,直到通过地图API查询到结果;获取所述结果的差异性,并判断是否超过差异阈值;如果超过所述差异阈值,则进入基于具有地理指向性的隐含信息O的可靠性判断阶段,否则进入基于地图API特性选择阶段,以获取最终地址信息。进一步地,在本专利技术的一个实施例中,其中,如果是具有地理指向性的隐含信息O在缩小范围去重之后的结果,则直接选中最后判断得到的结果;如果是基于地图API特性选择,则按照结果所在区域返回该地区地图可靠性最高的结果返回。为达到上述目的,本专利技术另一方面实施例提出了一种基于学者科研成果挖掘的学者精准定位装置,包括:抽取模块,用于对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,所述结构化信息包括所述学者科研成果中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U;构造模块,用于根据所述关键信息和所述结构化信息对所述学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造所述学者科研成果p相关结构化的隐含信息O;获取模块,用于对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果R;定位模块,用于根据所述最终结果R和所述矩阵U获取A→R映射,并获取所述学者科研成果中集合A的每个学者的地理位置信息,输出所述学者科研成果p中所有作者的定位信息。本专利技术实施例的基于学者科研成果挖掘的学者精准定位装置,通过深度挖掘学者科研成果的文本信息,构建具有地理指向性的隐含信息,然后通过自适应权重计算方法消除不同类型地图API返回的差异性结果,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。另外,根据本专利技术上述实施本文档来自技高网
...

【技术保护点】
1.一种基于学者科研成果挖掘的学者精准定位方法,其特征在于,包括以下步骤:步骤1:对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,所述结构化信息包括所述学者科研成果中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U;步骤2:根据所述关键信息和所述结构化信息对所述学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造所述学者科研成果p相关结构化的隐含信息O;步骤3:对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果R;步骤4:根据所述最终结果R和所述矩阵U获取A→R映射,并获取所述学者科研成果中集合A的每个学者的地理位置信息,输出所述学者科研成果p中所有作者的定位信息。

【技术特征摘要】
1.一种基于学者科研成果挖掘的学者精准定位方法,其特征在于,包括以下步骤:步骤1:对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,所述结构化信息包括所述学者科研成果中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U;步骤2:根据所述关键信息和所述结构化信息对所述学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造所述学者科研成果p相关结构化的隐含信息O;步骤3:对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果R;步骤4:根据所述最终结果R和所述矩阵U获取A→R映射,并获取所述学者科研成果中集合A的每个学者的地理位置信息,输出所述学者科研成果p中所有作者的定位信息。2.根据权利要求1所述的基于学者科研成果挖掘的学者精准定位方法,其特征在于,还包括:判断学者科研成果p是否为结构化的文本;如果是,则识别所述学者科研成果p的每个部分的类别,否则对所述学者科研成果p中文本信息进行抽取,并构建所述结构化信息。3.根据权利要求1所述的基于学者科研成果挖掘的学者精准定位方法,其特征在于,所述具有地理指向性的隐含信息包括所使用到的语言lang、邮政编码信息code、与所述集合B中重复或者有关联的信息。4.根据权利要求1所述的基于学者科研成果挖掘的学者精准定位方法,其特征在于,所述步骤3进一步包括:对集合B做输入预处理,按照信息的重要程度做清洗、筛选和结构化整理;根据构造的字符串,使用多个不同类型的fm做结构化轮换查询,当查询结果为空的时,逐渐抛弃权重较低的字符串,直到通过地图API查询到结果;获取所述结果的差异性,并判断是否超过差异阈值;如果超过所述差异阈值,则进入基于具有地理指向性的隐含信息O的可靠性判断阶段,否则进入基于地图API特性选择阶段,以获取最终地址信息。5.根据权利要求4所述的基于学者科研成果挖掘的学者精准定位方法,其特征在于,其中,如果是具有地理指向性的隐含信息O在缩小范围去重之后的结果,则直接选中最后判断得到的结果;如果是基于地图API特性选择,则按照结果所在区域返回该地区地图可靠性最高的结果返回。6.一种基于...

【专利技术属性】
技术研发人员:唐杰邵洲高博刘德兵
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1