一种基于词典和语义消歧的人名识别方法和装置制造方法及图纸

技术编号:19177209 阅读:18 留言:0更新日期:2018-10-17 00:20
本发明专利技术公开了一种基于词典和语义消歧的人名识别方法和装置,所述方法包括姓名抽取和姓名消歧;所述装置包括姓名抽取模块和姓名消岐模块;本发明专利技术所要解决的主要问题是提供人名识别的方法,根据姓名字典找出所有可能的姓名,进而通过最小间隙和最短分词长度来进行姓名的消歧,最终得到准确的人名信息,避免了分词不准确导致姓名分不出来以及过度识别姓名的问题,提高中文语义识别的准确率,也可以提高相关应用人员的工作效率。

A method and device for identifying names based on dictionary and semantic disambiguation

The invention discloses a method and device for name recognition based on dictionary and semantic disambiguation, which includes name extraction and name disambiguation; the device comprises a name extraction module and a name disambiguation module; the main problem to be solved by the invention is to provide a method for name recognition, and to find all possibilities according to the name catalogue. Then, the name is disambiguated by the minimum gap and the shortest word segmentation length, and the accurate information of the name is finally obtained. The problem of inaccurate word segmentation can be avoided, which leads to the inaccuracy of name recognition and over-recognition of the name. The accuracy of Chinese semantic recognition can be improved, and the work efficiency of the relevant application personnel can also be improved.

【技术实现步骤摘要】
一种基于词典和语义消歧的人名识别方法和装置
本专利技术涉及自然语言处理应用
,具体的说是一种基于词典和语义消歧的人名识别方法和装置。
技术介绍
随着互联网和大数据技术的高速发展,中文信息处理技术已渗透到各行各业的相关应用中。中文姓名在未登录词中占有较高比例,所以导致分词分不出来,进而会导致未登录词识别准确率偏低。另一方面,中文姓名的识别在中文文本挖掘和语义理解过程中扮演非常重要的角色,因为人物是很多语义事实或者关系的基础。基于此,提出一种可以提高中文语义识别的准确率,也可以提高相关应用人员的工作效率的基于词典和语义消歧的人名识别方法和装置。
技术实现思路
为了解决上述现有技术的问题,本专利技术提供一种可以提高中文语义识别的准确率,也可以提高相关应用人员的工作效率的基于词典和语义消歧的人名识别方法和装置。本专利技术解决其技术问题所采用的技术方案是:一种基于词典和语义消歧的人名识别方法,包括姓名抽取和姓名消歧,其中,所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。进一步地,所述最小间隙根据从开始到当前位置所遗漏字的个数来判断。进一步地,所述姓名字典包括姓氏词典,单字和双字词典。进一步地,所述姓名抽取步骤包括:a、利用结巴分词对输入的文本进行精确模式分词,并取出词性为nr的词作为候选姓名集,记为list1;b、根据定义的姓氏和姓名中单字与双字的组合得到所有可能的候选姓名集,记为list2;c、利用结巴分词对文本进行搜索引擎模式分词,得到分词集合,记为list3;d、将list1~list3组合成一个list,并按list中词语的位置及词语长度进行排序。更进一步地,所述步骤d中的排序规则为,按位置升序,按长度降序。更进一步地,姓名消岐步骤包括:e、将步骤d得到的所有list按最小间隙建立邻接矩阵;f、根据邻接矩阵,利用Floyd算法计算从文本起点单词到末尾单词所在位置的最小距离,达到姓名消歧的效果,同时抽取出最准确的姓名。一种基于词典和语义消歧的人名识别装置,包括:姓名抽取模块,用于找出文本中所有可能的姓名并对姓名进行分词以得到姓名与分词的集合;姓名消岐模块,用于获取姓名抽取模块得到的姓名与分词的集合,并通过最小间隙和最短分词长度对姓名与分词的集合进行过滤,筛选出最准确的姓名。进一步地,所述姓名抽取模块内包括分词模块、抽取模块和搜索模块;分词模块,用于利用结巴分词对输入的文本进行精确模式分词;抽取模块,用于根据定义的姓氏和姓名中单字与双字的组合得到所有可能的候选姓名集;搜索模块,用于根据结巴分词对文本进行搜索引擎模式分词,得到分词集合。进一步地,所述姓名消岐模块中进行过滤的算法为Floyd算法。与现有技术相比,本专利技术的有益效果是:本专利技术所要解决的主要问题是提供人名识别的方法,根据姓名字典找出所有可能的姓名,进而通过最小间隙和最短分词长度来进行姓名的消歧,最终得到准确的人名信息,避免了分词不准确导致姓名分不出来以及过度识别姓名的问题,提高中文语义识别的准确率,也可以提高相关应用人员的工作效率。附图说明图1为本专利技术中人名识别方法的流程图;图2为本专利技术中人名识别装置的示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例及附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1,本专利技术提供了一种基于词典和语义消歧的人名识别方法,包括姓名抽取和姓名消歧,其中,所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。具体实施时,所述最小间隙根据从开始到当前位置所遗漏字的个数来判断。具体实施时,所述姓名字典包括姓氏词典,单字和双字词典。具体实施时,所述姓名抽取步骤包括:a、利用结巴分词对输入的文本进行精确模式分词,并取出词性为nr的词作为候选姓名集,记为list1;b、根据定义的姓氏和姓名中单字与双字的组合得到所有可能的候选姓名集,记为list2;c、利用结巴分词对文本进行搜索引擎模式分词,得到分词集合,记为list3;d、将list1~list3组合成一个list,并按list中词语的位置及词语长度进行排序。具体实施时,所述步骤d中的排序规则为,按位置升序,按长度降序。具体实施时,姓名消岐步骤包括:e、将步骤d得到的所有list按最小间隙建立邻接矩阵;f、根据邻接矩阵,利用Floyd算法计算从文本起点单词到末尾单词所在位置的最小距离,达到姓名消歧的效果,同时抽取出最准确的姓名。请参阅图2,一种基于词典和语义消歧的人名识别装置,包括:姓名抽取模块,用于找出文本中所有可能的姓名并对姓名进行分词以得到姓名与分词的集合;姓名消岐模块,用于获取姓名抽取模块得到的姓名与分词的集合,并通过最小间隙和最短分词长度对姓名与分词的集合进行过滤,筛选出最准确的姓名。具体实施时,所述姓名抽取模块内包括分词模块、抽取模块和搜索模块;分词模块,用于利用结巴分词对输入的文本进行精确模式分词;抽取模块,用于根据定义的姓氏和姓名中单字与双字的组合得到所有可能的候选姓名集;搜索模块,用于根据结巴分词对文本进行搜索引擎模式分词,得到分词集合。具体实施时,所述姓名消岐模块中进行过滤的算法为Floyd算法。作为本专利技术一个较佳的实施例,对于输入文本“欧阳春艳是新闻网的记者”,利用本专利技术中的人名识别过程进行说明如下:(1)、首先利用结巴分词对文本进行分词,取得词性为“nr”的词语作为候选人名(结巴分词结果出现多个词性,是加入用户词典所致,不影响结果);分词结果为:[pair('欧阳春','nr'),pair('艳','a'),pair('是','v'),pair('新闻网','n\n'),pair('的','uj'),pair('记者','n\n')],取出人名:list1=[(0,'欧阳春')];(2)、利用姓氏及姓名字典得到所有姓名候选集:list2=[(0,'欧阳春艳'),(0,'欧阳春')];(3)、利用结巴搜索引擎模式分词得到分词集合:list3=[(0,'欧阳春'),(0,'欧阳'),(1,'阳春'),(3,'艳'),(4,'是'),(5,'新闻网'),(5,'新闻'),(8,'的'),(9,'记者')];(4)、对list1~list3组合排序(去重):list=[(0,'欧阳春艳'),(0,'欧阳春'),(0,'欧阳'),(1,'阳春'),(3,'艳'),(4,'是'),(5,'新闻网'),(5,'新闻'),(8,'的'),(9,'记者')];(5)、根据最小间隙对list建立邻接矩阵,如表1所示:表1其中,表中数值表示词i到词j的间隔,999表示不可到达。(6)、利用Floyd算法计算最小距离为0,其对应的最佳路径为本文档来自技高网...

【技术保护点】
1.一种基于词典和语义消歧的人名识别方法,其特征在于,包括姓名抽取和姓名消歧,其中,所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。

【技术特征摘要】
1.一种基于词典和语义消歧的人名识别方法,其特征在于,包括姓名抽取和姓名消歧,其中,所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。2.根据权利要求1所述的一种基于词典和语义消歧的人名识别方法,其特征在于:所述最小间隙根据从开始到当前位置所遗漏字的个数来判断。3.根据权利要求1所述的一种基于词典和语义消歧的人名识别方法,其特征在于:所述姓名字典包括姓氏词典,单字和双字词典。4.根据权利要求1所述的一种基于词典和语义消歧的人名识别方法,其特征在于,所述姓名抽取步骤包括:a、利用结巴分词对输入的文本进行精确模式分词,并取出词性为nr的词作为候选姓名集,记为list1;b、根据定义的姓氏和姓名中单字与双字的组合得到所有可能的候选姓名集,记为list2;c、利用结巴分词对文本进行搜索引擎模式分词,得到分词集合,记为list3;d、将list1~list3组合成一个list,并按list中词语的位置及词语长度进行排序。5.根据权利要求4所述的一种基于词典和...

【专利技术属性】
技术研发人员:金勇朱其斯
申请(专利权)人:武汉烽火普天信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1