抽取学者学术画像基本信息的方法与装置制造方法及图纸

技术编号:21629126 阅读:22 留言:0更新日期:2019-07-17 11:09
本发明专利技术提供一种抽取学者学术画像基本信息的方法与装置,方法包括:将学者主页中的文本拆分为短标签文本并存储至短文本列表,所述短标签文本中单词的数量不大于预设的第一阈值;遍历所述短文本列表中的所有包括职称信息的短标签文本,从中筛选出其内容仅包含职称信息的短标签文本作为独立职称,并按照其在所述短文本列表中的顺序存储至候选职称列表;根据预设的过滤策略,对包括职称信息的短标签文本进行过滤,将过滤结果中的短标签文本作为强规则职称,并按照其在所述短文本列表中的顺序存储至所述候选职称列表;将候选职称列表中记录的第一个独立职称或强规则职称作为学者的标准职称。通过本发明专利技术,能够精准快速地从网页中获取到学者职称信息。

Methods and Devices for Extracting Basic Information of Scholars'Academic Portraits

【技术实现步骤摘要】
抽取学者学术画像基本信息的方法与装置
本专利技术涉及信息检索和文本信息处理领域,尤其涉及一种抽取学者学术画像基本信息的方法与装置。
技术介绍
在学术大数据分析领域,学者的学术画像有助于区分同名学者,以及对学者的研究兴趣、关系网络、影响力评估等方面进行更准确的分析。但是当前学术数据呈现指数增长趋势,全球学术论文已超过3亿篇,学术工作者也已达到1亿人。从而也给获取学者的学术画像带来了难度。现有的学者的学术画像方式一般都是针对学者主页中的全部内容进行职称获取,对获取到的全部学者职称进行数理统计分析,将出现概率最大的学者职称作为该学者的标准职称。但是,在学者的个人网页上,职称往往存在多个,主页上的其他人的职称也可能对学者职称的判断形成干扰。而且,一般学者主页中,较长的段落中往往会出现多个职称,该段落中位置较为靠后的职称可能不是学者的正确职称,因此,对整个学者主页进行数据分析一般工作量较大,造成效率较低,而且会造成分析结果不准确。
技术实现思路
本专利技术提供一种抽取学者学术画像基本信息的方法与装置,用于解决现有的邮箱获取方法由于网页中职称较多而导致的获取不精准的问题。本专利技术的第一个方面是提供一种抽取学者学术画像基本信息的方法,包括:将学者主页中的文本拆分为短标签文本并存储至短文本列表,所述短标签文本中单词的数量不大于预设的第一阈值;遍历所述短文本列表中的所有包括职称信息的短标签文本,从中筛选出其内容仅包含职称信息的短标签文本作为独立职称,并按照其在所述短文本列表中的顺序存储至候选职称列表;根据预设的过滤策略,对所述包括职称信息的短标签文本进行过滤,将过滤结果中的短标签文本作为强规则职称,并按照其在所述短文本列表中的顺序存储至所述候选职称列表;将所述候选职称列表中记录的第一个独立职称或强规则职称作为所述学者的标准职称。本专利技术的另一个方面是提供一种抽取学者学术画像基本信息的装置,包括:拆分模块,用于将学者主页中的文本拆分为短标签文本并存储至短文本列表,所述短标签文本中单词的数量不大于预设的第一阈值;第一筛选模块,用于遍历所述短文本列表中的所有包括职称信息的短标签文本,从中筛选出其内容仅包含职称信息的短标签文本作为独立职称,并按照其在所述短文本列表中的顺序存储至候选职称列表;第二筛选模块,用于根据预设的过滤策略,对所述包括职称信息的短标签文本进行过滤,将过滤结果中的短标签文本作为强规则职称,并按照其在所述短文本列表中的顺序存储至所述候选职称列表;第一确定模块,用于将所述候选职称列表中记录的第一个独立职称或强规则职称作为所述学者的标准职称。本专利技术提供的抽取学者学术画像基本信息的方法与装置,通过对网页中的长标签文本拆分为短标签文本,并对拆分后的短标签文本进行分析,获取其内容仅包含职称信息的短标签文本作为独立职称存储至候选职称列表,并根据预设的过滤策略,对所述包括职称信息的短标签文本进行过滤,将过滤结果中的短标签文本作为强规则职称存储至所述候选职称列表,遍历所述候选职称列表,若候选职称列表中包括独立职称或强规则职称,则将候选职称列表中记录的第一个独立职称或强规则职称作为学者的标准职称。从而能够解决现有的邮箱获取方法由于网页中职称较多而导致的获取不精准的问题,精准地从网页中获取到学者的职称信息。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的抽取学者学术画像基本信息的方法的流程图;图2为本专利技术实施例二提供的抽取学者学术画像基本信息的方法的流程图;图3为本专利技术实施例三提供的抽取学者学术画像基本信息的装置的结构图;图4为本专利技术实施例四提供的抽取学者学术画像基本信息的装置的结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例一提供的抽取学者学术画像基本信息的方法的流程图,如图1所示,该方法包括:101、将学者主页中的文本拆分为短标签文本并存储至短文本列表,所述短标签文本中单词的数量不大于预设的第一阈值。在本实施方式中,接收用户通过搜索引擎输入的待获取职称信息的学者名字,并向用户展示搜索结果,以便用户根据搜索结果选择正确的学者主页。获取用户选择的学者主页作为待分析的学者主页,并获取该学者主页中的全部标签文本,其中,学者主页中包括长标签文本与短标签文本,长标签文本中单词的数量大于预设的第一阈值,短标签文本不大于预设的第一阈值,具体地,该第一阈值可以由用户自行设定,也可以根据历史经验进行设定。由于现有的学者主页中可能会有很多较长的段落,但是,通常这些长段落中只有开头部分单词内有学者的职称信息,因此,为了提高识别的效率,可以将单词数量超过预设的第一阈值的长标签文本进行拆分。具体地,对长标签文本拆分为短标签文本之后,可以按照该短标签文本在网页学者主页中出现的顺序进行排序,并存储至短文本列表。102、遍历所述短文本列表中的所有包括职称信息的短标签文本,从中筛选出其内容仅包含职称信息的短标签文本作为独立职称,并按照其在所述短文本列表中的顺序存储至候选职称列表。在本实施方式中,获取到短文本列表之后,遍历该短文本列表中的全部短标签文本,检测全部短标签文本中是否有只包含一个职称信息的短标签文本,若包含,则将只包含职称信息的短标签文本作为独立职称并存储至候选职称列表,举例来说,只包含职称信息的短标签文本可以为<h2>ResearchProfessor</h2>,其代表该短文本职称中只包含职称ResearchProfessor,则将ResearchProfessor作为独立职称并存储至候选职称列表。需要说明的是,独立职称中除了职称信息,不包括任何其他的单词。103、根据预设的过滤策略,对所述包括职称信息的短标签文本进行过滤,将过滤结果中的短标签文本作为强规则职称,并按照其在所述短文本列表中的顺序存储至所述候选职称列表。可选地,若检测到短文本列表中的短标签文本中不包含独立职称,还可以通过预设的过滤策略对包括职称信息的短标签文本进行过滤,并将通过此方法获取到的短标签文本作为强规则职称并存储至候选职称列表,举例来说,若短文本列表中某一短文本的内容为IamaProfessorofComputer,则通过预设的过滤策略能够得出Professor,则将Professor作为强规则职称并存储至候选职称列表。作为一种可实施的方式,若已知待抽取职称的学者的科研领域,则可以根据短文本列表中获取到的职称周围出现的领域名词来判断获取到的职称是否为最标准的职称。例如,若已知待抽取职称的学者的科研领域为机械领域,但是通过上述方式获取到的职称周围出现了其他领域的单词,例如Computer,则此时可以判断当前获取到的职称可能不是该学者的职称或者获取到的职称不是最准确的职称。则此时,可以向用户推送再次获取职称或者当本文档来自技高网...

【技术保护点】
1.一种抽取学者学术画像基本信息的方法,其特征在于,包括:将学者主页中的文本拆分为短标签文本并存储至短文本列表,所述短标签文本中单词的数量不大于预设的第一阈值;遍历所述短文本列表中的所有包括职称信息的短标签文本,从中筛选出其内容仅包含职称信息的短标签文本作为独立职称,并按照其在所述短文本列表中的顺序存储至候选职称列表;根据预设的过滤策略,对所述包括职称信息的短标签文本进行过滤,将过滤结果中的短标签文本作为强规则职称,并按照其在所述短文本列表中的顺序存储至所述候选职称列表;将所述候选职称列表中记录的第一个独立职称或强规则职称作为所述学者的标准职称。

【技术特征摘要】
1.一种抽取学者学术画像基本信息的方法,其特征在于,包括:将学者主页中的文本拆分为短标签文本并存储至短文本列表,所述短标签文本中单词的数量不大于预设的第一阈值;遍历所述短文本列表中的所有包括职称信息的短标签文本,从中筛选出其内容仅包含职称信息的短标签文本作为独立职称,并按照其在所述短文本列表中的顺序存储至候选职称列表;根据预设的过滤策略,对所述包括职称信息的短标签文本进行过滤,将过滤结果中的短标签文本作为强规则职称,并按照其在所述短文本列表中的顺序存储至所述候选职称列表;将所述候选职称列表中记录的第一个独立职称或强规则职称作为所述学者的标准职称。2.根据权利要求1所述的方法,其特征在于,所述遍历所述短文本列表中的所有短标签文本之后,还包括:若所述短文本列表中不包含独立职称或强规则职称,则将所述短文本列表中包括多个职称信息的短标签文本作为普通职称并存储至所述候选职称列表,并按照预设的各职称的权重对所述普通职称进行排序;获取权重最高的普通职称,检测其权重是否大于预设的第二阈值,若是,则将所述短文本列表中权重最高的普通职称作为所述标准职称,否则,则将所述短文本列表中记录的第一个普通职称作为所述学者的标准职称。3.根据权利要求1所述的方法,其特征在于,所述将学者主页中的文本拆分为短标签文本并存储至短文本列表,包括:获取长标签文本中第一个标点符号之前的全部单词,所述长标签文本中单词的数量大于预设的第一阈值;检测所述全部单词的数量是否在预设的范围内;若是,则将所述长标签文本中第一个标点符号之前的全部单词作为所述短标签文本;若否,则按照预设的第一阈值在所述长标签文本中第一个标点符号之前的全部单词中获取短标签文本并存储至所述短文本列表。4.根据权利要求1所述的方法,其特征在于,所述根据预设的过滤策略,对所述包括职称信息的短标签文本进行过滤,包括:通过正则表达式对所述包括职称信息的短标签文本进行过滤。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:检测所述候选职称列表中是否包括重复的职称;若是,则保留重复职称中第一个职称,并将后续重复的职称删除。6.一种抽取学者学术画像基本信息的装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:陈雪飞罗学文谢海华佟津乐黄肖俊高良才汤帜
申请(专利权)人:北大方正集团有限公司北大方正信息产业集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1