System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及汉字拼音标注,尤其涉及一种含多音字的姓名拼音标注方法及系统。
技术介绍
1、企业人力资源管理系统中需要准确识别员工姓名的拼音,用于申请邮箱、企业内账号、身份标识等用途,拼音的准确识别对于企业员工数据的管理具有重要意义。
2、一般的多音字识别方法是预设多音字在不同词组中的读音,通过识别文本中的词组确定多音字的读音,这种方法需要大量的存储空间,且准确度较低。随着大数据、人工智能的发展,决策树、最大熵算法、专家知识、文本分析、语义分析也逐渐应用到多音拼音的识别和消歧中,在准确率和识别速度上都有了提升。
3、姓名类文本,由于具有文本短、上下文关联性不强等特点,使用上述方法都存在识别准确度低的问题。目前企业内员工姓名多音字识别方法,一般通过人工识别修改拼音,工作效率低下。亟需准确度较高的姓名中多音字标注方法。
4、目前已有的姓名拼音(含多音字)标注的技术方案存在如下问题:
5、相关技术中,均为针对普通文本的多音字拼音标注、消歧技术,没有涉及专门针对姓名的多音字识别。
6、对普通文本的多音字识别技术有基于决策树、基于最大熵算法、基于专家知识(大量规则),且经过对比,均具有存在多音字消歧效果差的问题。
7、通过大数据训练、神经网络及相关预测方法获取的多音字标注,是基于文本语义和上下文进行预测,此类方法并不适用于姓名的多音字识别。由于姓名中的字数较少,一般是3-5个字,大多没有上下文关系,会导致识别准确率较低。
技术实现思路
1、为解决现有技术的不足,本专利技术提出一种含多音字的姓名拼音标注方法及系统,实现在录入员工信息时,自动准确识别姓名拼音,避免人工核验,提高企业人力资源管理效率。
2、为实现以上目的,本专利技术所采用的技术方案包括:
3、一种含多音字的姓名拼音标注方法,其特征在于,包括:
4、s1、获取姓名文本;将姓名文本拆分为姓文本与名文本;将名文本拆分为若干个汉字,一个汉字建立一个二级名文本;
5、s2、基于姓氏拼音库识别姓文本,获取姓文本的汉字拼音,为姓氏拼音文本;
6、s3、基于普通汉字多音字库识别名文本,获取名文本的汉字拼音,为名拼音文本;
7、s4、将获取的姓氏拼音文本与名拼音文本进行整合,获得姓名拼音文本。
8、进一步地,所述步骤s1之前还包括:
9、sa、构建姓氏拼音库;
10、sb、构建普通汉字多音字库;
11、sc、构建拼音识别算法,用于对通用汉字进行拼音标注。
12、进一步地,所述姓氏拼音库包括:编码、姓氏、拼音、是否为多音字、姓氏字数。
13、进一步地,所述普通汉字多音字库为每个多音字的每个发音建立一条记录,记录信息包括:汉字、汉字拼音、汉字常用词组、汉字使用概率、汉字是否为姓名多用。
14、进一步地,所述步骤s3包括分步骤:
15、s31、将若干个二级名文本输入至普通汉字多音字库进行匹配;
16、s32、若普通汉字多音字库不包括二级名文本,则通过拼音识别算法识别二级名文本,获得名拼音文本;
17、s33、若普通汉字多音字库包括二级名文本,则获取二级名文本在普通汉字多音字库中作为多音字的若干条记录信息,为汇总记录信息;判断二级名文本记录信息中是否为姓名多用;
18、s34、若二级名文本为姓名多用,则此条记录信息对应的汉字拼音为名拼音文本;
19、s35、若二级名文本不是姓名多用,则获取此二级名本的名文本,判断名文本与记录信息的汉字常用词组是否匹配;
20、s36、若名文本与记录信息的汉字常用词组匹配,则此条记录信息对应的汉字拼音为名拼音文本;
21、s37、若名文本与记录信息的汉字常用词组不匹配,则基于记录信息查找汉字使用概率最高的汉字拼音,为名拼音文本。
22、本专利技术还涉及一种含多音字的姓名拼音标注系统,其特征在于,包括:
23、获取模块,用于获取姓名文本;将姓名文本拆分为姓文本与名文本;将名文本拆分为若干个汉字,一个汉字建立一个二级名文本;
24、姓氏拼音获取模块,用于基于姓氏拼音库识别姓文本,获取姓文本的汉字拼音,为姓氏拼音文本;
25、名拼音获取模块,用于基于普通汉字多音字库识别名文本,获取名文本的汉字拼音,为名拼音文本;
26、整合模块,用于将获取的姓氏拼音文本与名拼音文本进行整合,获得姓名拼音文本。
27、进一步地,还包括:
28、姓氏拼音库构建模块,用于构建姓氏拼音库;
29、普通汉字多音字库构建模块,用于构建普通汉字多音字库;
30、拼音识别算法构建模块,用于构建拼音识别算法,用于对通用汉字进行拼音标注。
31、本专利技术还涉及一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的含多音字的姓名拼音标注方法。
32、本专利技术还涉及一种电子设备,其特征在于,包括处理器和存储器;
33、所述存储器,用于存储姓氏拼音库以及普通汉字多音字库;
34、所述处理器,用于通过调用姓氏拼音库以及普通汉字多音字库,执行上述的含多音字的姓名拼音标注方法。
35、本专利技术还涉及一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现上述含多音字的姓名拼音标注方法的步骤。
36、本专利技术的有益效果为:
37、采用本专利技术所述一种含多音字的姓名拼音标注方法及系统,通过构建姓氏拼音库以及普通汉字多音字库,引入了拼音识别算法,提供了完整的姓名拼音识别技术,可实现员工姓、名的多音字识别,提高姓名多音字识别的效率。可实现自动将识别的多音字录入系统,减少人工核验,提升企业员工工作效率。实现在录入员工信息时,自动准确识别姓名拼音,避免人工核验,提高企业人力资源管理效率。
本文档来自技高网...【技术保护点】
1.一种含多音字的姓名拼音标注方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述步骤S1之前还包括:
3.如权利要求2所述的方法,其特征在于,所述姓氏拼音库包括:编码、姓氏、拼音、是否为多音字、姓氏字数。
4.如权利要求2所述的方法,其特征在于,所述普通汉字多音字库为每个多音字的每个发音建立一条记录,记录信息包括:汉字、汉字拼音、汉字常用词组、汉字使用概率、汉字是否为姓名多用。
5.如权利要求1所述的方法,其特征在于,所述步骤S3包括分步骤:
6.一种含多音字的姓名拼音标注系统,其特征在于,包括:
7.如权利要求6所述的系统,其特征在于,还包括:
8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的含多音字的姓名拼音标注方法。
9.一种电子设备,其特征在于,包括处理器和存储器;
10.一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行
...【技术特征摘要】
1.一种含多音字的姓名拼音标注方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述步骤s1之前还包括:
3.如权利要求2所述的方法,其特征在于,所述姓氏拼音库包括:编码、姓氏、拼音、是否为多音字、姓氏字数。
4.如权利要求2所述的方法,其特征在于,所述普通汉字多音字库为每个多音字的每个发音建立一条记录,记录信息包括:汉字、汉字拼音、汉字常用词组、汉字使用概率、汉字是否为姓名多用。
5.如权利要求1所述的方法,其特征在于,所述步骤s3包括分步骤:
6...
【专利技术属性】
技术研发人员:周丽娟,王晓旭,
申请(专利权)人:中信银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。