一种基于层叠隐马尔科夫的人名识别方法及系统技术方案

技术编号:35222896 阅读:17 留言:0更新日期:2022-10-15 10:40
本发明专利技术涉及一种基于层叠隐马尔科夫的人名识别方法及系统,属于人名识别技术领域,通过对包含人名的待识别句子进行分词处理,得到分词后句子;利用训练好的隐马尔科夫标注模型对分词后句子标注人名角色标签,得到不同标注形式下分词后句子对应的角色标签序列;采用维特比算法从所有角色标签序列中寻找最优人名角色标签序列;基于人名识别模式集,采用模式串的最大匹配算法对最优人名角色标签序列进行人名识别,得到人名识别结果,提高了对人名识别的准确性。识别的准确性。识别的准确性。

【技术实现步骤摘要】
一种基于层叠隐马尔科夫的人名识别方法及系统


[0001]本专利技术涉及人名识别
,特别是涉及一种基于层叠隐马尔科夫的人名识别方法及系统。

技术介绍

[0002]人名属于未登录词的重点组成部分,也是主要难点,准确识别未登录词能为自然语言处理系统的性能带来极大提升。单纯基于机器学习的方法需要一个标注了词性的语料库去训练模型,而再庞大的语料库也无法覆盖所有的姓名,人名成员时常与周围其他字词组成新词而被错误切分,或与上下文连接在一起,识别精度不尽人意。
[0003]因此,亟需提出一种能够准确识别人名的方法及系统。

技术实现思路

[0004]本专利技术的目的是提供一种基于层叠隐马尔科夫的人名识别方法及系统,以提高对人名识别的准确性。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种基于层叠隐马尔科夫的人名识别方法,所述人名识别方法包括:
[0007]输入包含人名的待识别句子;
[0008]对所述待识别句子进行分词,得到分词后句子;
[0009]利用训练好的隐马尔科夫标注模型对所述分词后句子标注人名角色标签,得到所有标注形式下所述分词后句子对应的角色标签序列;其中所述人名角色标签根据不同类型的姓名结构、人名中的字与人名相邻上下文的成词关系、相邻人名间的内容以及与人名无关的句子进行设计;
[0010]采用维特比算法从所述角色标签序列中寻找最优人名角色标签序列;
[0011]基于人名识别模式集,采用模式串的最大匹配算法对所述最优人名角色标签序列进行人名识别,得到人名识别结果;其中所述人名识别模式集包括人名标签序列。
[0012]一种基于层叠隐马尔科夫的人名识别系统,所述人名识别系统包括:
[0013]输入模块,用于输入包含人名的待识别句子;
[0014]分词模块,用于对所述待识别句子进行分词,得到分词后句子;
[0015]人名角色标注模块,用于利用训练好的隐马尔科夫标注模型对所述分词后句子标注人名角色标签,得到不同标注形式下分词后句子对应的角色标签序列;其中所述人名角色标签根据不同类型的姓名结构、人名中的字与人名相邻上下文成词关系、相邻人名间的内容以及与人名无关的句子内容进行设计;
[0016]寻优模块,用于采用维特比算法从所述角色标签序列中寻找最优人名角色标签序列;
[0017]识别模块,用于基于人名识别模式集,采用模式串的最大匹配算法对所述最优人名角色标签序列进行人名识别,得到人名识别结果,其中所述人名识别模式集包括人名标
进行粗分,得到的粗分结果为“百合/n子
ども
/n

/c一緒/vn(百合小孩在一起)”,该粗分过程并未识别出百合子这个人名,因此需要对粗分结果进一步识别,即:
[0031]S3:利用训练好的隐马尔科夫标注模型对所述分词后句子标注人名角色标签,得到所有标注形式下所述分词后句子对应的角色标签序列;由于不同类型的姓名结构不同,因而识别不同语言的人名需针对不同的姓名结构设计不同的人名角色标签,优选地所述人名角色标签可以根据不同类型的姓名结构、人名中的字与人名相邻上下文的成词关系、相邻人名间的内容以及与人名无关的句子进行设计。
[0032]以识别日文人名为例,设计的角色标签如表1所示,所述人名角色标包括人名首字标签A、人名中字标签B、人名末字标签C、单名标签D、名后缀标签E、人名上文标签F、人名下文标签G、相邻人名间内容标签H、人名相邻上文与人名首字成词标签I、人名相邻下文与人名末字成词标签J、人名首字与人名中字成词标签K、人名中字与人名末字成词标签L以及与人名无关标签O。
[0033]表1日本人名的角色标签构成表
[0034][0035]其中S3具体包括:
[0036](1)利用所述训练好的隐马尔科夫标注模型计算所述角色标签序列与所述分词后句子的联合概率;
[0037](2)利用维特比算法寻找所述联合概率最大的所述角色标签序列;
[0038](3)将所述联合概率最大的所述角色标签序列作为所述最优人名角色标签序列。
[0039]S4:采用维特比算法从所述角色标签序列中寻找最优人名角色标签序列。
[0040]为了本领域技术人员更清楚地了解S3和S4的具体过程,下述进行阐释。
[0041]设S是利用jieba分词工具粗分后的日语Token序列,即分词后句子,W是S所有可能
的人名角色标签标注情况,即所有所有标注形式下所述分词后句子对应的角色标签序列,W
*
为最优人名角色标签序列,只要能求出条件概率p(W|S)的最大值,就能获得想要的最优人名角色标签序列W
*
。S、W、W
*
分别表示为:
[0042]S=(s1,s2,...,s
m
),m>0,
[0043]W=(w1,w2,...,w
m
),m>>0,
[0044][0045]其中,s1表示所述分词句子中被粗分开的第一个字词;s
m
表示所述分词句子中被粗分开的第m个字词;w1表示第一个人名角色标签;w
m
表示第m个人名角色标签;表示第一个字词最正确的人名角色标签;表示第m个字词最正确的人名角色标签。
[0046]根据贝叶斯公式,W
*
式中的条件概率p(W|S)有:
[0047]p(W|S)=p(W,S)/p(S)=p(W)
×
p(S|W)/p(S)
[0048]对于一个特定的句子S来说,概率p(S)是一个常数,因此根据上式可得最优角色标签序列W
*

[0049][0050]此时利用上文中训练好的隐马尔科夫标注模型来计算上式中的p(W)p(S|W),即Token序列S和角色标签序列W的联合概率,为
[0051][0052]所以可得最优角色标签序列W
*

[0053][0054]使用经典的维特比算法进行动态规划,求解出上式最优解的角色标签序列,即W
*

[0055]S5:基于人名识别模式集,采用模式串的最大匹配算法对所述最优人名角色标签序列进行人名识别,得到人名识别结果;其中所述人名识别模式集包括人名标签序列。
[0056]例如句子“百合子
どもと
一緒(与百合子等人一起)”,标注后的最优人名角色标签序列为ABCGOO(百/A合/B子/C
ども
/G

/O一緒/O),此时通过模式串的最大匹配算法,识别出人名角色标签ABC为人名,即百合子。
[0057]作为一种可选的实施方式,在S2之后,所述人名识别方法还包括:对隐马尔科夫标注模型进行训练;其中对所述隐马尔科夫标注模型的训练过程,具体包括:
[0058](1)将熟语料库中的词性标签转化为所述人名角色标签,得到人名角色本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层叠隐马尔科夫的人名识别方法,其特征在于,所述人名识别方法包括:输入包含人名的待识别句子;对所述待识别句子进行分词,得到分词后句子;利用训练好的隐马尔科夫标注模型对所述分词后句子标注人名角色标签,得到所有标注形式下所述分词后句子对应的角色标签序列;其中所述人名角色标签根据不同类型的姓名结构、人名中的字与人名相邻上下文的成词关系、相邻人名间的内容以及与人名无关的句子进行设计;采用维特比算法从所述角色标签序列中寻找最优人名角色标签序列;基于人名识别模式集,采用模式串的最大匹配算法对所述最优人名角色标签序列进行人名识别,得到人名识别结果;其中所述人名识别模式集包括人名标签序列。2.根据权利要求1所述的人名识别方法,其特征在于,所述对所述待识别句子进行分词,得到分词后句子,具体包括:利用jieba分词工具对所述待识别句子进行分词,得到分词后句子;其中所述jieba分词工具将隐马尔科夫分词模型作为内核程序。3.根据权利要求1所述的人名识别方法,其特征在于,在所述对所述待识别句子进行分词,得到分词后句子之后,所述人名识别方法还包括:对隐马尔科夫标注模型进行训练;其中对所述隐马尔科夫标注模型的训练过程,具体包括:将熟语料库中的词性标签转化为所述人名角色标签,得到人名角色标签语料库;所述人名角色标包括人名首字标签、人名中字标签、人名末字标签、单名标签、名后缀标签、人名上文标签、人名下文标签、相邻人名间内容标签、人名相邻上文与人名首字成词标签、人名相邻下文与人名末字成词标签、人名首字与人名中字成词标签、人名中字与人名末字成词标签以及与人名无关标签;剔除所述人名角色标签语料库中标注所述与人名无关标签的单词,得到处理后人名角色标签语料库;统计所述处理后人名角色标签语料库中每一个单词、每一个单词对应的所述人名角色标签以及每一所述人名角色标签出现的频次,得到人名识别词典;统计每一个所述人名角色标签的转移频次,得到转移频次矩阵;其中所述转移频次是指任意一个所述人名角色标签的下一个所述人名角色标签是指定所述人名角色标签的次数;根据所述人名识别词典和所述转移频次矩阵计算所述隐马尔科夫标注模型的三元组参数;所述三元组参数包括转移概率矩阵、发射概率矩阵和初始状态概率向量;根据所述三元组参数得到所述训练好的隐马尔科夫标注模型。4.根据权利要求1所述的人名识别方法,其特征在于,所述采用维特比算法从所述角色标签序列中寻找最优人名角色标签序列,具体包括:利用所述训练好的隐马尔科夫标注模型计算所述角色标签序列与所述分词后句子的联合概率;利用维特比算法寻找所述联合概率最大的所述角色标签序列;将所述联合概率最大的所述角色标签序列作为所述最优人名角色标签序列。5.根据权利要求1所述的人名识别方法,其特征在于,所述最优人名角色标签序列表示
为:其中,W
*
表示所述最优人名角色标签序列;W表示所述角色标签序列;W1表示第一种角色标签序列;W
i
表示第i种角色标签序列;W
i
‑1表示第i

1种角色标签序列;m表示所述角色标签序列的个数;S
...

【专利技术属性】
技术研发人员:陈占芳廖晨伶姜晓明任园
申请(专利权)人:长春理工大学重庆研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1