当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于互联网的人物传记自动提取方法技术

技术编号:7534569 阅读:260 留言:0更新日期:2012-07-12 23:45
本发明专利技术公开了一种基于互联网的人物传记自动提取方法,它的步骤如下:1、获取预置的与人物传记相关的网站集合,以数组保存,该数组记为传记类网站数组A;2、输入待检索的人物姓名搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B;3、采用标签过滤工具对传记类网页脚本数组B中的各元素进行处理,将各网页的正文保存在传记数组中,该数组记为传记数组C;4、输入待生成的人物传记长度的字数,从传记数组C中提取一篇人物传记。该方法不仅能即时获取互联网上的信息用于人物传记生成,还能利用构建的人物信息相关文本库提取人物传记信息用于生成人物传记。

【技术实现步骤摘要】

本专利技术涉及的是,属于信息处理

技术介绍
随着互联网技术的迅猛发展,大量的信息以电子文档的形式保存在网络服务器上,面对大量的电子信息,如何从网络上这些无序的信息中及时准确的提取、整理,将无序的信息整理成人们感兴趣的信息,已成为一个亟待解决的难题。人物传记的信息提取,它是从互联网中已有的信息提取出与人物相关的信息,整理成一篇与人物有关的传记。Schiffman 在 2001 年最早提出人物传记概念(Schiffman, Mani, Concepcion, Producing biographical summaries Combining linguistic knowledge with corpus statistics. Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics(ACL' 2001). New Brunswick, New Jersey!Association for Computational Linguistics, 2001:450-457),他把多文档摘要技术应用到人物传记抽取,设计了一个多文档人物传记自动摘要系统,利用在语料库上的统计信息和语言学知识, 由计算机选择、合并针对新闻中人物的描述语句,从而形成一篇新闻人物的传记,它是将描述一个人物的多个文本的主要信息按一定的压缩比例提炼为一个简短的摘要。人物传记方法是一种基于多文档的摘要方法的延伸,是将同一主题下的多个文本描述的的信息按一定的压缩比提炼为一个文本的自然语言处理方法。 Miller (Miller. WordNetA lexical database for English. Communications of the ACM, 2004:39-41)认为不同于多文档摘要方法,传记方法是研究如何通过语义理解生成简洁的人物传记。超文本标记语言HTML标签过滤工具主要是对网页的超文本标记语言HTML脚本中的标签进行过滤的一种工具,目前此类过滤工具已经很成熟,包括C++、Java, 1等多种主流语言均可以编写此类过滤工具。爬虫技术是指,从互联网中爬取与预置信息有关系的网页,最后返回网页的链接和正文的一种技术。美国南加州大学的aiou、Ticrea和Hovy在2004年设计了一个英文的多文档 1 专i己摘要系统(Zhou, Ticrea, Hovy. Multi-document biography summarization . Proceedings of EMNLP, 2004,434-441.),该方法首先把句子定义为人物传记和非人物传记,其中人物传记的句子分为9类个人简历信息、声望、个性、社会关系、受教育程度、国籍、丑闻、私人信息、工作信息和其它,然后,把句子分类,抽取描述人物传记的句子中各类型的句子组成一个人物传记。目前,Zhou的方法是基于事件的英文人物传记提取方法,上述方法不能用于中文的人物传记提取,没有利用互联网,换言之,一方面,该方法只能提取英文的人物传记,不能提取中文的人物传记,原因是上述方法中的英语与中文存在语言上的差异,涉及的语言处理技术、工具有较大的不同。比如,中文需要对文本先进行分词,而英文则不需要进行文本的分词操作;英文需要对词汇进行原形提取,而中文的词汇不存在时态、第三人称单数等变化,不需要进行原形提取。另一方面,现有的方法并不能即时从互联网上信息提取人物传记。
技术实现思路
鉴于现有的技术存在的问题和不足,本专利技术的目的在于提供,该方法不仅能从互联网上及时的获取人物信息,而且能从人物信息中提取人物传记。为了达到上述的目的,本专利技术采用下述技术方案 ,它包括如下步骤步骤1、获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,该数组记为传记类网站数组A ;步骤2、输入待检索的人物姓名,对传记类网站数组A中的每一个网站分别对该姓名进行搜索,将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B;步骤3、采用超文本标记语言HTML标签过滤工具对传记类网页脚本数组B中的各元素进行处理,将各网页的正文保存在传记数组中,该数组记为传记数组C;步骤4、输入待生成的人物传记长度的字数,根据输入的人物传记的字数从传记数组C 中提取一篇人物传记。上述步骤1所述的获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,记该数组为传记类网站数组A,其中,对上述传记类网站数组A的索引从1开始进行编号,其索引号依次递增,传记类网站数组A中的元素的优先级随着索引号的递增依次递减,该优先级预置为人物传记相关的网站的优先级。上述步骤2所述的输入待检索的人物姓名,传记类网站数组A中的每一个网站分别对该姓名进行搜索,将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B,其中,对上述传记类网页脚本数组B中的索引依次递增编号,其索引号为1至n,传记类网页脚本数组B的索引号与传记类网站数组A的索引号一一对应,定义上述传记类网页脚本数组B中元素依次递增编排的索引号为传记类网页脚本数组B中的元素依次递减编排的优先级,该优先级为搜索后得到的每个网页的超文本标记语言HTML脚本的优先级本专利技术的与现有技术相比较,具有如下实质性特点和显著的优点如下该方法克服了现有的基于事件的英文人物传记提取方法存在的不能用于中文的提取人物传记及没有利用互联网知识库的缺陷,不仅能即时获取互联网上的信息用于人物传记生成,还能利用构建的人物信息相关文本库提取人物传记信息用于生成人物传记。附图说明图1是本专利技术的的流程图; 图2是图1中步骤2的流程图3是图1中步骤3的流程图; 图4是图1中步骤4的流程图。具体实施例方式下面结合说明书附图和具体实施方式对本专利技术作进一步详细的说明。参照图1,本专利技术的,其具体步骤如下 步骤1、获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,该数组记为传记类网站数组A,其中,对上述传记类网站数组A的索引从1开始进行编号,其索引号依次递增,传记类网站数组A中的元素的优先级随着索引号的递增依次递减,该优先级预置为人物传记相关的网站的优先级,如表1所示, 表1传记类网站数组A权利要求1.,它包括如下步骤步骤1、获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,记该数组为传记类网站数组A ;步骤2、输入待检索的人物姓名,对传记类网站数组A中的每一个网站分别对该姓名进行搜索,将搜索后得到的每个网站的超文本标记语言HTML脚本保存在数组中,该数组记为传记类网页脚本数组B;步骤3、采用超文本标记语言HTML标签过滤工具对传记类网页脚本数组B中的各元素进行处理,将各网页的正文保存在传记数组中,该数组记为传记数组C ;步骤4、输入待生成的人物传记长度的字数,根据输入的人物传记的字数从传记数组C 中提取一篇人物传记。2.根据权利要求1所述的,其特征在于,上述步骤1所述的获取预置的与人物传记相关的网站集合,将该集合以数组的形式保存,记该数组为传记类网站数组A,其中,对上述传记类网站数组A中的索引从1开始进行编本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:周文李辉
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术