团队信息的确定方法和确定装置制造方法及图纸

技术编号:15792130 阅读:266 留言:0更新日期:2017-07-09 23:27
本发明专利技术提供了团队信息的确定方法和确定装置,该方法包括:基于获取到的文本数据对应的至少一个机构名称信息,来创建机构信息库;基于获取到的文本数据对应的至少一个著者姓名信息,并结合文本数据和机构信息库来创建人员信息库;基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息,针对任一著者选择对应于该任一著者的主题信息,来创建主题信息库;基于机构信息库、人员信息库和所述主题信息库,确定针对各个主题的团队信息库。应用本技术方案相比于其它方法确定的团队信息更细致,对基于团队信息的科研管理决策更有效、更有价值。

【技术实现步骤摘要】
团队信息的确定方法和确定装置
本专利技术涉及大数据领域,具体而言,本专利技术涉及一种团队信息的确定方法和一种团队信息的确定装置。
技术介绍
随着科学技术的飞速发展,科学技术的分支也越来越多,而科学技术的分支交叉发展致使传统的学科间界限变得越来越模糊。由于各学科之间的交叉性和渗透性达到了前所未有的程度,科研人员不仅需要独立思考和研究,而且还需要科研团队的支持。科研团队是指以科技研究和开发为内容,由能够技能互补并愿意为共同的科研目的和方法相互承担责任的科研人员组成的群体。其中,科研团队可分为显性科研团队和隐性科研团队。显性科研团队是以固定的机构,如,课题组、实验室为标准而建立的科研团队,或者是由学术组织人组织科研人员来构成的机构团队或学术团队。隐性科研团队是具有明确的研究目标或研究方向和研究平台,并结合已有或者存在潜在的合作基础而形成的团队。在现有技术中,科研团队的确定方法一般基于人工调查、采集数据来实现,或是通过大型文献数据库建立整体网络和数据挖掘算法实现。但是这些科研团队的确定方法不仅耗费了较高的人工成本、还耗费了大量的时间、且最后确定到的科研团队的结果也不够全面。
技术实现思路
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:本专利技术的一个实施例提出了一种团队信息的确定方法,包括:基于获取到的文本数据对应的至少一个机构名称信息,来创建机构信息库;基于获取到的文本数据对应的至少一个著者姓名信息,并结合文本数据和机构信息库来创建人员信息库;基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息,针对任一著者选择对应于该任一著者的主题信息,来创建主题信息库;基于机构信息库、人员信息库和主题信息库,确定针对各个主题的团队信息库。优选地,基于获取到的文本数据对应的至少一个机构名称信息,来创建机构信息库,包括:对文本数据对应的至少一个原始机构名称信息进行名称抽取、合并及去重处理,以确定符合预置条件的机构名称信息;基于预置的规范机构名称信息,对已确定的机构名称信息进行规范化处理,并基于规范化处理后的机构名称信息来创建机构信息库。优选地,基于获取到的文本数据对应的至少一个著者姓名信息,并结合文本数据和机构信息库来创建人员信息库,包括:对文本数据对应的至少一个原始著者姓名信息进行姓名抽取、消歧及合并处理,以确定符合预置条件的著者姓名信息;基于机构信息库中机构名称信息和已确定的各个著者姓名信息,建立机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系;基于文本数据和机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系,建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系,并基于关联关系来创建人员信息库。优选地,基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息,针对任一著者选择对应于该任一著者的主题信息,来创建主题信息库,包括:对文本数据进行分词处理,并对分词处理得到的分词片段的出现频率进行统计处理;将各个分词片段、分词片段的出现频率和人员信息库中的著者姓名信息输入到预置主题模型中,以获取到文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息;基于已获取的主题信息和各个主题信息对应著者姓名信息的分布信息,通过预置选择规则选择出针对任一著者姓名信息的多个主题信息,以创建主题信息库。优选地,基于机构信息库、人员信息库和主题信息库,确定针对各个主题的团队信息库,包括:基于主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系,以及人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系,建立机构信息库、人员信息库和主题信息库之间的关联关系;基于机构信息库、人员信息库和主题信息库之间的关联关系,建立主题信息库中针对各个主题信息对应的机构名称信息的合作关系网络,合作关系网络包括一个主题信息对应的一个机构名称下多个著者姓名信息之间的关系;针对任一合作关系网络中,判断是否存在无关联关系的著者姓名信息;若存在,则将无关联关系的著者姓名信息之间建立关联关系;基于预置分析方式,确定一个或多个合作关系网络中具有关联关系的多个著者姓名信息,并将具有关联关系的多个著者姓名信息作为一个团队,以确定团队信息库。该方法还包括:对比各个团队中的著者姓名信息;基于对比结果,将包含完全相同的著者姓名信息的团队进行合并。其中,团队包括以下任一项:同机构团队和/或跨机构团队:同机构团队为任一团队下所有的著者姓名信息对应于同一个机构名称信息;跨机构团队为任一团队下的所有的著者姓名信息对应于至少两个科研机构。本专利技术的另一个实施例提出了一种团队信息的确定装置,包括:第一创建模块,用于基于获取到的文本数据对应的至少一个机构名称信息,来创建机构信息库;第二创建模块,用于基于获取到的文本数据对应的至少一个著者姓名信息,并结合文本数据和机构信息库来创建人员信息库;第三创建模块,用于基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息,针对任一著者选择对应于该任一著者的主题信息,来创建主题信息库;确定模块,用于基于机构信息库、人员信息库和主题信息库,确定针对各个主题的团队信息库。优选地,第一创建模块包括:第一处理单元,用于对文本数据对应的至少一个原始机构名称信息进行名称抽取、合并及去重处理,以确定符合预置条件的机构名称信息;规范单元,用于基于预置的规范机构名称信息,对已确定的机构名称信息进行规范化处理,并基于规范化处理后的机构名称信息来创建机构信息库。优选地,第二创建模块包括:第二处理单元,用于对文本数据对应的至少一个原始著者姓名信息进行姓名抽取、消歧及合并处理,以确定符合预置条件的著者姓名信息;第一建立单元,用于基于机构信息库中机构名称信息和已确定的各个著者姓名信息,建立机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系;第二建立单元,用于基于文本数据和机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系,建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系,并基于关联关系来创建人员信息库。优选地,第三创建模块包括:第三处理单元,用于对文本数据进行分词处理,并对分词处理得到的分词片段的出现频率进行统计处理;获取单元,用于将各个分词片段、分词片段的出现频率和人员信息库中的著者姓名信息输入到预置主题模型中,以获取到文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息;选择单元,用于基于已获取的主题信息和各个主题信息对应著者姓名信息的分布信息,通过预置选择规则选择出针对任一著者姓名信息的多个主题信息,以创建主题信息库。优选地,确定模块包括:第三建立单元,用于基于主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系,以及人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系,建立机构信息库、人员信息库和主题信息库之间的关联关系;第四建立单元,用于基于机构信息库、人员信息库和主题信息库之间的关联关系,建立主题信息库中针对各个主题信息对应的机构名称信息的合作关系网络,合作关系网络包括一个主题信息对应的一个机构名称下多个著者姓名信息之间的关系;判断单元,用于针本文档来自技高网...
团队信息的确定方法和确定装置

【技术保护点】
一种团队信息的确定方法,其特征在于,包括:基于获取到的文本数据对应的至少一个机构名称信息,来创建机构信息库;基于获取到的所述文本数据对应的至少一个著者姓名信息,并结合所述文本数据和所述机构信息库来创建人员信息库;基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息,针对任一著者选择对应于该任一著者的主题信息,来创建主题信息库;基于所述机构信息库、所述人员信息库和所述主题信息库,确定针对各个主题的团队信息库。

【技术特征摘要】
1.一种团队信息的确定方法,其特征在于,包括:基于获取到的文本数据对应的至少一个机构名称信息,来创建机构信息库;基于获取到的所述文本数据对应的至少一个著者姓名信息,并结合所述文本数据和所述机构信息库来创建人员信息库;基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息,针对任一著者选择对应于该任一著者的主题信息,来创建主题信息库;基于所述机构信息库、所述人员信息库和所述主题信息库,确定针对各个主题的团队信息库。2.根据权利要求1所述的方法,其中,基于获取到的文本数据对应的至少一个机构名称信息,来创建机构信息库,包括:对文本数据对应的至少一个原始机构名称信息进行名称抽取、合并及去重处理,以确定符合预置条件的机构名称信息;基于预置的规范机构名称信息,对已确定的所述机构名称信息进行规范化处理,并基于规范化处理后的机构名称信息来创建机构信息库。3.根据权利要求1或2所述的方法,其中,基于获取到的所述文本数据对应的至少一个著者姓名信息,并结合所述文本数据和所述机构信息库来创建人员信息库,包括:对文本数据对应的至少一个原始著者姓名信息进行姓名抽取、消歧及合并处理,以确定符合预置条件的著者姓名信息;基于所述机构信息库中机构名称信息和已确定的各个著者姓名信息,建立所述机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系;基于所述文本数据和所述机构信息库中机构名称信息与已确定的各个著者姓名信息之间的关联关系,建立已确定的各个著者姓名信息、机构名称信息与文本数据之间的关联关系,并基于所述关联关系来创建人员信息库。4.根据权利要求1或2所述的方法,其中,基于获取到的任一文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息,针对任一著者选择对应于该任一著者的主题信息,来创建主题信息库,包括:对所述文本数据进行分词处理,并对分词处理得到的分词片段的出现频率进行统计处理;将各个分词片段、分词片段的出现频率和所述人员信息库中的著者姓名信息输入到预置主题模型中,以获取到所述文本数据所包含的主题信息和各个主题信息对应著者姓名信息的分布信息;基于已获取的主题信息和各个主题信息对应著者姓名信息的分布信息,通过预置选择规则选择出针对任一著者姓名信息的多个主题信息,以创建主题信息库。5.根据权利要求1或2所述的方法,其中,基于所述机构信息库、所述人员信息库和所述主题信息库,确定针对各个主题的团队信息库,包括:基于所述主题信息库中著者姓名信息与文本数据包含的主题信息之间的关联关系,以及所述人员信息库中著者姓名信息、机构名称信息与文本数据的关联关系,建立所述机构信息库、所述人员信息库和所述主题信息库之间的关联关系;基于所述机构信息库、所述人员信息库和所述主题信息库之间的关联关系,建立所述主题信息库中针对各个主题信息对应的机构名称信息的合作关系网络,所述合作关系网络包括一个主题信息对应的一个机构名称下多个著者姓名信息之间的关系;针对任一合作关系网络中,判断是否存在无关联关系的著者姓名信息;若存在,则将无关联关系的著者姓名信息之间建立关联关系;基于预置分析方式,确定一个或多个合作关系网络中具有关联关系的多个著者姓名信息,并将具有关联关系的多个著者姓名信息作为一个团队,以确定团队信息库。6.根据权利要求5所述的方法,其中,还包括:对比各个团队中的著者姓名信息;基于对比结果,将包含完全相同的著者姓名信息的团队进行合并。7.根据权利要求1-6任一项所述的方法,其中,所述团队包括以下任一项:同机构团队和/或跨机构团队:所述同机构团队为任一团队下所有的著者姓名信息对应于同一个机构名称信息;所述跨机构团队为任一团队下的所有的著者姓名信息对应于至少两个科...

【专利技术属性】
技术研发人员:韩红旗李仲刘洢颖姚长青李琳娜侯慧敏
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1