【技术实现步骤摘要】
一种基于层叠隐马尔科夫的人名识别方法及系统
[0001]本专利技术涉及人名识别
,特别是涉及一种基于层叠隐马尔科夫的人名识别方法及系统。
技术介绍
[0002]人名属于未登录词的重点组成部分,也是主要难点,准确识别未登录词能为自然语言处理系统的性能带来极大提升。单纯基于机器学习的方法需要一个标注了词性的语料库去训练模型,而再庞大的语料库也无法覆盖所有的姓名,人名成员时常与周围其他字词组成新词而被错误切分,或与上下文连接在一起,识别精度不尽人意。
[0003]因此,亟需提出一种能够准确识别人名的方法及系统。
技术实现思路
[0004]本专利技术的目的是提供一种基于层叠隐马尔科夫的人名识别方法及系统,以提高对人名识别的准确性。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种基于层叠隐马尔科夫的人名识别方法,所述人名识别方法包括:
[0007]输入包含人名的待识别句子;
[0008]对所述待识别句子进行分词,得到分词后句子;
[0009]利用训练好的隐马尔科夫标注模型对所述分词后句子标注人名角色标签,得到所有标注形式下所述分词后句子对应的角色标签序列;其中所述人名角色标签根据不同类型的姓名结构、人名中的字与人名相邻上下文的成词关系、相邻人名间的内容以及与人名无关的句子进行设计;
[0010]采用维特比算法从所述角色标签序列中寻找最优人名角色标签序列;
[0011]基于人名识别模式集,采用模式串的最大匹配算法对所述 ...
【技术保护点】
【技术特征摘要】
1.一种基于层叠隐马尔科夫的人名识别方法,其特征在于,所述人名识别方法包括:输入包含人名的待识别句子;对所述待识别句子进行分词,得到分词后句子;利用训练好的隐马尔科夫标注模型对所述分词后句子标注人名角色标签,得到所有标注形式下所述分词后句子对应的角色标签序列;其中所述人名角色标签根据不同类型的姓名结构、人名中的字与人名相邻上下文的成词关系、相邻人名间的内容以及与人名无关的句子进行设计;采用维特比算法从所述角色标签序列中寻找最优人名角色标签序列;基于人名识别模式集,采用模式串的最大匹配算法对所述最优人名角色标签序列进行人名识别,得到人名识别结果;其中所述人名识别模式集包括人名标签序列。2.根据权利要求1所述的人名识别方法,其特征在于,所述对所述待识别句子进行分词,得到分词后句子,具体包括:利用jieba分词工具对所述待识别句子进行分词,得到分词后句子;其中所述jieba分词工具将隐马尔科夫分词模型作为内核程序。3.根据权利要求1所述的人名识别方法,其特征在于,在所述对所述待识别句子进行分词,得到分词后句子之后,所述人名识别方法还包括:对隐马尔科夫标注模型进行训练;其中对所述隐马尔科夫标注模型的训练过程,具体包括:将熟语料库中的词性标签转化为所述人名角色标签,得到人名角色标签语料库;所述人名角色标包括人名首字标签、人名中字标签、人名末字标签、单名标签、名后缀标签、人名上文标签、人名下文标签、相邻人名间内容标签、人名相邻上文与人名首字成词标签、人名相邻下文与人名末字成词标签、人名首字与人名中字成词标签、人名中字与人名末字成词标签以及与人名无关标签;剔除所述人名角色标签语料库中标注所述与人名无关标签的单词,得到处理后人名角色标签语料库;统计所述处理后人名角色标签语料库中每一个单词、每一个单词对应的所述人名角色标签以及每一所述人名角色标签出现的频次,得到人名识别词典;统计每一个所述人名角色标签的转移频次,得到转移频次矩阵;其中所述转移频次是指任意一个所述人名角色标签的下一个所述人名角色标签是指定所述人名角色标签的次数;根据所述人名识别词典和所述转移频次矩阵计算所述隐马尔科夫标注模型的三元组参数;所述三元组参数包括转移概率矩阵、发射概率矩阵和初始状态概率向量;根据所述三元组参数得到所述训练好的隐马尔科夫标注模型。4.根据权利要求1所述的人名识别方法,其特征在于,所述采用维特比算法从所述角色标签序列中寻找最优人名角色标签序列,具体包括:利用所述训练好的隐马尔科夫标注模型计算所述角色标签序列与所述分词后句子的联合概率;利用维特比算法寻找所述联合概率最大的所述角色标签序列;将所述联合概率最大的所述角色标签序列作为所述最优人名角色标签序列。5.根据权利要求1所述的人名识别方法,其特征在于,所述最优人名角色标签序列表示
为:其中,W
*
表示所述最优人名角色标签序列;W表示所述角色标签序列;W1表示第一种角色标签序列;W
i
表示第i种角色标签序列;W
i
‑1表示第i
‑
1种角色标签序列;m表示所述角色标签序列的个数;S
...
【专利技术属性】
技术研发人员:陈占芳,廖晨伶,姜晓明,任园,
申请(专利权)人:长春理工大学重庆研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。