一种基于文本的关键人名的提取方法及系统技术方案

技术编号:15437216 阅读:136 留言:0更新日期:2017-05-25 19:23
本发明专利技术公开了一种基于文本的关键人名的提取方法及系统,该方法包括:步骤1,对目标文本执行一分词操作,提取出其中词性为人名的目标词语;步骤2,统计每个目标词语在该目标文本中的出现频率,根据该出现频率设置该目标词语的权重;步骤3,根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率,调整该目标词语的权重;步骤4,选取权重大的目标词语作为关键人名。通过本发明专利技术的上述方法,可实现与特定事件相关的人物提取,还可实现对文本中的关键人名提取,以及重要传播用户、事件发展节点用户、公众指向用户、信息源头用户的提取,且能够提高人物提取的准确性和有效性。

Method and system for extracting key person name based on text

The invention discloses a method and a system for extracting key names based on the text, the method includes: Step 1, to execute a target text segmentation operation, extracted the speech as target words names; step 2, the statistics of each target word in the target text in the frequency, according to the weight of the frequency set the target words; step 3, according to the target word ambiguity dictionary records names prior probability as names the probability weight adjustment, the goal of words; step 4, select the target words right as major key names. By using the method of the invention, can be associated with a specific event character extraction, can also extract the key names in the text, and extract the important communication users, users and public events node pointing to the user, the user information source, and can improve the accuracy and effectiveness of character extraction.

【技术实现步骤摘要】
一种基于文本的关键人名的提取方法及系统
本专利技术属于信息抽取
,特别是涉及一种基于文本的关键人名的提取方法及系统。
技术介绍
随着WEB2.0技术的快速发展,普通用户已经成为互联网上内容的主要生产者,UGC(UserGeneratedContent)具有反应及时,传播快的特点,作为UGC的典型代表,微博平台凭借进入门槛低、数据量大、分享自由及时,形式多元化等优势,已成为重要的事件来源和网络舆论场所,每天生成大量的微博消息。基于微博平台进行事件分析的相关条件已经具备,而人物作为事件的重要主体,其提取的准确和全面与否在很大程度上影响了事件分析的准确性和全面性,本专利技术基于微博平台,提出一种事件关键人物的提取技术,相关
技术介绍
如下:人民搜索网络股份公司的易卉芹专利技术了一种微博用户挖掘方法及装置(201310321021.9),该方法通过按照预设规则从微博网页爬取用户数据,将未挖掘的用户或下级用户作为未处理用户进行挖掘。一方面降低了挖掘结果对种子用户选取的依赖性,另一方面可提高用户覆盖面。湖南识微科技有限公司的李景泽专利技术了一种挖掘目标微博用户的方法(201510047759.本文档来自技高网...
一种基于文本的关键人名的提取方法及系统

【技术保护点】
一种基于文本的关键人名的提取方法,其特征在于,包括:步骤1,对目标文本执行一分词操作,提取出其中词性为人名的目标词语;步骤2,统计每个目标词语在该目标文本中的出现频率,根据该出现频率设置该目标词语的权重;步骤3,根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率,调整该目标词语的权重;步骤4,选取权重大的目标词语作为关键人名。

【技术特征摘要】
1.一种基于文本的关键人名的提取方法,其特征在于,包括:步骤1,对目标文本执行一分词操作,提取出其中词性为人名的目标词语;步骤2,统计每个目标词语在该目标文本中的出现频率,根据该出现频率设置该目标词语的权重;步骤3,根据一歧义人名先验概率辞典所记载的该目标词语作为人名的出现概率,调整该目标词语的权重;步骤4,选取权重大的目标词语作为关键人名。2.如权利要求1所述的方法,其特征在于,该步骤1之前还包括:对多个采样文本分别执行分词操作,对每个分词进行词性标注,提取出其中词性存在歧义的歧义词语;统计该歧义词语在该多个采样文本中的总出现次数以及被最终标注为人名的次数;根据该被标注为人名的次数以及该总出现次数,设定该歧义词语的该出现概率;利用该歧义词语以及该出现概率生成该歧义人名先验概率辞典。3.如权利要求2所述的方法,其特征在于,该出现概率为该被标注为人名的次数除以该总出现次数。4.如权利要求1所述的方法,其特征在于,该步骤4进一步包括:对该权重进行由大到小的排序,选取超过一阈值且排名在前K个的权重所对应的目标词语作为该关键人名,K为正整数。5.如权利要求2所述的方法,其特征在于,该目标文本或该采样文本为微博消息。6.如权利要求1所述的方法,其特征在于,该目标文本包括多个微博消息wi,该步骤1之前或该步骤4之后还包括:统计微博消息wi的转发量For(wi)和评论量Com(wi),统计发出该微博消息wi的用户ui的订阅者数量Fan(ui),该微博消息的传播热度hot(wi)为:

【专利技术属性】
技术研发人员:曹娟张勇东张俊强李锦涛
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1