The invention discloses a method and device for name recognition based on dictionary and semantic disambiguation, which includes name extraction and name disambiguation; the device comprises a name extraction module and a name disambiguation module; the main problem to be solved by the invention is to provide a method for name recognition, and to find all possibilities according to the name catalogue. Then, the name is disambiguated by the minimum gap and the shortest word segmentation length, and the accurate information of the name is finally obtained. The problem of inaccurate word segmentation can be avoided, which leads to the inaccuracy of name recognition and over-recognition of the name. The accuracy of Chinese semantic recognition can be improved, and the work efficiency of the relevant application personnel can also be improved.
【技术实现步骤摘要】
一种基于词典和语义消歧的人名识别方法和装置
本专利技术涉及自然语言处理应用
,具体的说是一种基于词典和语义消歧的人名识别方法和装置。
技术介绍
随着互联网和大数据技术的高速发展,中文信息处理技术已渗透到各行各业的相关应用中。中文姓名在未登录词中占有较高比例,所以导致分词分不出来,进而会导致未登录词识别准确率偏低。另一方面,中文姓名的识别在中文文本挖掘和语义理解过程中扮演非常重要的角色,因为人物是很多语义事实或者关系的基础。基于此,提出一种可以提高中文语义识别的准确率,也可以提高相关应用人员的工作效率的基于词典和语义消歧的人名识别方法和装置。
技术实现思路
为了解决上述现有技术的问题,本专利技术提供一种可以提高中文语义识别的准确率,也可以提高相关应用人员的工作效率的基于词典和语义消歧的人名识别方法和装置。本专利技术解决其技术问题所采用的技术方案是:一种基于词典和语义消歧的人名识别方法,包括姓名抽取和姓名消歧,其中,所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。进一步地,所述最小间隙根据从开始到当前位置所遗漏字的个数来判断。进一步地,所述姓名字典包括姓氏词典,单字和双字词典。进一步地,所述姓名抽取步骤包括:a、利用结巴分词对输入的文本进行精确模式分词,并取出词性为nr的词作为候选姓名集,记为list1;b、根据定义的姓氏和姓名中单字 ...
【技术保护点】
1.一种基于词典和语义消歧的人名识别方法,其特征在于,包括姓名抽取和姓名消歧,其中,所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。
【技术特征摘要】
1.一种基于词典和语义消歧的人名识别方法,其特征在于,包括姓名抽取和姓名消歧,其中,所述姓名抽取步骤为:利用姓名字典和分词词典,对输入的文本进行分词及姓名的抽取以得到初始姓名及分词的集合;所述姓名消歧步骤为:针对初始姓名及分词的集合,按最小间隙建立邻接矩阵,利用Floyd算法计算从开始到末尾的最短路径,判断集合中的词语是否为无歧义的词语以得到消歧的姓名集合。2.根据权利要求1所述的一种基于词典和语义消歧的人名识别方法,其特征在于:所述最小间隙根据从开始到当前位置所遗漏字的个数来判断。3.根据权利要求1所述的一种基于词典和语义消歧的人名识别方法,其特征在于:所述姓名字典包括姓氏词典,单字和双字词典。4.根据权利要求1所述的一种基于词典和语义消歧的人名识别方法,其特征在于,所述姓名抽取步骤包括:a、利用结巴分词对输入的文本进行精确模式分词,并取出词性为nr的词作为候选姓名集,记为list1;b、根据定义的姓氏和姓名中单字与双字的组合得到所有可能的候选姓名集,记为list2;c、利用结巴分词对文本进行搜索引擎模式分词,得到分词集合,记为list3;d、将list1~list3组合成一个list,并按list中词语的位置及词语长度进行排序。5.根据权利要求4所述的一种基于词典和...
【专利技术属性】
技术研发人员:金勇,朱其斯,
申请(专利权)人:武汉烽火普天信息技术有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。