当前位置: 首页 > 专利查询>刘健萍专利>正文

一种查找人员影踪的方法及装置制造方法及图纸

技术编号:10804797 阅读:62 留言:0更新日期:2014-12-24 11:48
本发明专利技术实施方式提供了一种查找人员影踪的方法及装置,该方法及装置属于网络通信领域,该方法包括:将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;在独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;在独立句子中提取人员信息,如提取的人物信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人物的一条影踪,并存储该人员影踪。该方法及装置具有其效率较高,不会发生人为错误,当新闻数量特别大时,能获取人员影踪的优点。

【技术实现步骤摘要】
【专利摘要】本专利技术实施方式提供了一种查找人员影踪的方法及装置,该方法及装置属于网络通信领域,该方法包括:将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;在独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;在独立句子中提取人员信息,如提取的人物信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人物的一条影踪,并存储该人员影踪。该方法及装置具有其效率较高,不会发生人为错误,当新闻数量特别大时,能获取人员影踪的优点。【专利说明】一种查找人员影踪的方法及装置
本专利技术涉及网络通信领域,尤其涉及一种查找人员影踪的方法及装置。
技术介绍
目前大量的新闻报道中都会有新闻人员在具体时间、地点所从事的活动,通过对新闻语料中人员影踪的挖掘,可以向互联网用户呈现出特定人员在特定时间段内去过的地方,所从事过的活动,甚至可以预告他们将要从事的活动。现有技术提供的人员影踪的搜索方法主要通过人工统计特定人员在具体时间、地点所从事的活动。 在实现本专利技术的过程中,现有技术所提供的技术方案存在如下问题:现有技术的方案通过人工统计的方法来获取人员影踪的,其效率较低,且容易发生人为错误,当新闻数量特别大时,人工也无法准确统计,进而无法获取人员的影踪。
技术实现思路
本专利技术实施方式提供一种查找人员影踪的方法,所述方法包括: 将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;在包含有效地点信息的独立句子中提取人员信息,如提取的人员信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人员的一条影踪,并存储该人员影踪。 本专利技术还提供一种查找人员影踪的装置,所述装置包括:在间单元,用于将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;地点单元,用于在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息;任务单元,用于在包含有效地点信息的独立句子中提取人员信息,如提取的人员信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人员的一条踪迹,并存储该人员影踪。 由上述所提供的技术方案可以看出,本专利技术实施例的技术方案能自动搜索人员的影踪,具有效率高,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务影踪进行准确的统计。 【专利附图】【附图说明】 图1为本专利技术提供的一种查找人员影踪的方法的流程图;图2为本专利技术一实施例提供的一种查找人员影踪的方法的流程图。 图3为本专利技术提供的一种查找人员影踪的装置的结构图。 【具体实施方式】 本专利技术实施方式提供一种查找人员影踪的方法,该方法如图1所示,包括:S11、将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;获取时间信息的方法可以为,对上述独立的句子使用正则表达式来实现对时间信息的提取;也可以用枚举所有可能的日期,与句子中的日期进行逐个匹配。 上述正则表达式的具体实现方法可以参见JAVA、C++等程序开发语言中相关描述。 S12、在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定该地点信息为有效的地点信息。 上述提取出地点信息的方法可以为:将独立句子进行分词处理后,提取句子中的地点信息。提取地点信息的方法还可以为:枚举所有可能的地点信息,与句子中的词进行逐个匹配,该所有的地点信息可以为全国所有的城市名称。 上述趋向描述词集合可以为:{"在","于","抵达","抵","来到","前往","飞往","飞抵","返回","赶回","回","莅临","赴","去","到","去往","访问","考察","登陆","离开","赶往","重返","去","来","至IJ达","飞离","行至","来回","往返","奔赴","开赴","留在","进入","登录","赶到","来到了","抵达了","返回了","赶回了","赶到了","进入了","到达了","离开了","到了","去了","来了","飞离了" }S13、在包含有效地点信息的独立句子中提取人员信息,如提取的人员信息为唯一的人员,则将该独立句子中的人员、时间、地点作为该人员的一条影踪,并存储该人员影踪。 本专利技术提供的人员影踪的查找方法能自动查找人员的影踪,具有效率高,不会发生人为错误的优点,且在新闻数量巨大的情况下,也能对任务影踪进行准确的统计。 一实施例,本实施例提供一种查找人员影踪的方法,本实施例的技术场景为,本实施例在数据库存储的新闻数据中查找人员的影踪,该数据库的新闻数据可以由系统定期在网上抓取,然后存储于数据库内,该方法如图2所示,包括如下步骤: S21、将新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息;实现S21的具体方法可以为,对上述独立的句子使用正则表达式来实现对时间信息提取,其中上述正则表达式中的日期规则可以为模糊日期规则,如昨天、今天、去年、明年等,也可以为精准日期规则,如2009-10-17等;当然在实际情况中,用户也可以根据自己的需要对日期规则进行修改,例如增加或减少日期规则的数量。 S22、在包含有时间信息的独立句子中进行分词处理,并提取地点信息,在检测出该地点信息的前一个相邻的词存在于趋向描述词集合时,则确定该地点信息为有效的地点信息;S22中的地点信息可以为全国区级以上的地点名称,该趋向描述词集合可以为上述47个趋向描述词,当然在实际情况中,用户也可以根据自己的需要对趋向描述词集合进行修改,例如增加或减少趋向描述词集合的数量。 上述相邻的词为紧跟地点信息的词,即该地点信息和趋向描述词中间不能存在任何的词以及标点符号。 S23、在包含有效地点信息的独立句子中提取人物信息,如提取的人物信息为唯一的人员,则将该独立句子中的人员、时间、地点作为该人员的一条踪迹。 实现S23的方法可以为,采用分词系统的人名识别从独立的句子中提取人员信息,当然在实际情况中也可以采用其他的人名识别方法来提取人员信息,本专利技术并不局限实现该方法的具体方式。 可选的,上述方法还可以包括下述步骤之一,如单独包括S24、S25或S26 ;当然也可以包括S24、S25和S26 ;还可以包括S24和S25。 S24、统计相同的人员影踪出现的次数,并将该增加到存储的人员影踪中。 S25、在具有人员影踪的独立句子中采用获取事件描述词,并对该事件描述词赋予权重值;并将该事件描述词和事件描述词的权重值增加到存储的人员影踪中。 上述获取事件描述词的方法可以为下述方式中的任意一种:方式A、搜索独立句子中与预先存储的事件描述词列表匹配的事件描述词,并将该匹配的事件描述词作为获取的事件描述词。 其实现方法具体为,搜索独立句子中的词,将搜索到的词与预先存储的事件描述词列表中的事件描述词一一对比本文档来自技高网...

【技术保护点】
一种查找人员影踪的方法,其特征在于,所述方法包括 :将存储的新闻数据中的每个独立的句子通过模式匹配提取每个独立句子中的时间信息 ;在包含有时间信息的独立句子中提取地点信息,在检测出该地点信息的前一个相邻的词存在于存储的趋向描述词集合时,则确定所述地点信息为有效的地点信息 ;在包含有效地点信息的独立句子中提取人员信息,如提取的人员信息为唯一的人员,则将所述独立句子中的人员、时间、地点作为该人员的一条影踪,并存储该人员影踪;在具有人员影踪的独立句子中获取事件描述词,并对该事件描述词赋予权重值 ;并将该事件描述词和事件描述词的权重值增加到存储的人员影踪中。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘健萍
申请(专利权)人:刘健萍
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1