一种汉语姓氏的识别方法、装置及服务器制造方法及图纸

技术编号：13794163 阅读：113 留言：0更新日期：2016-10-06 08:52

本申请公开了汉语姓氏的识别方法及装置。所述方法包括：待识别姓氏的字符串长度小于等于预设长度时，对其扩展后进行语种识别；否则直接进行语种识别；该语种识别包括：对该姓氏按照预设方式进行划分；根据每个语种对应的识别模型，得到该姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率、以及中间部分相邻字母之间的转移概率；利用上述概率计算得到该姓氏对应各语种的生成概率，比较得到最大值，当该最大值对应语种为汉语时，确定该姓氏属于汉语姓氏。采用本申请实施例，能够对用户提供的以字符串形式表示的姓氏是否属于汉语进行识别，解决现有技术的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及模式识别
，尤其涉及一种汉语姓氏的识别方法、装置及服务器。
技术介绍
随着电子商务的日益发展，网上交易成为很多用户喜欢的购物方式之一。但是，网络交易存在着一定的风险。目前，在中国国内进行网络交易的参与者大多是来自中国大陆、港澳台以及新加坡等华语区的用户。该部分用户在注册信息的姓氏栏中，一般均以英文字符串的形式填写本人的姓名拼音。在实际应用中，当具有不良企图的用户参与网上交易时，该用户往往会注册一个虚假的姓名，例如该用户的注册名为典型的其他语种的姓名或为错误的汉语拼音，但是该用户使用的银行卡或收货地址却是与中国相关的信息。对于该类用户，有理由怀疑该用户的信息存在一定的虚假性，需要提醒其他用户与该用户之间的交易存在一定的风险。但是，如何实现对网络交易中某些用户提供的虚假身份信息进行识别，是本领域技术人员急需解决的技术问题。
技术实现思路
本申请提供一种汉语姓氏的识别方法、装置及服务器，以解决现有技术中的问题。根据本申请实施例的第一方面，提供一种汉语姓氏的识别方法，所述方
法包括：如果待识别姓氏的字符串长度小于等于预设长度，则对所述姓氏的字符串长度进行扩展，并对扩展后的姓氏进行语种识别；如果待识别姓氏的字符串长度大于预设长度，则对所述姓氏进行语种识别；通过下述步骤进行语种识别：对所述姓氏按照预设的划分方式进行划分；所述划分方式为将所述姓氏的前n1个字母划分为首部分，将所述姓氏的倒数n2个字母划分为尾部分，将所述姓氏的首部分和尾部分之间的字母划分为中间部分；其中，所述n1和n2为正整数；根据每个语种对应的识别模型，分别得到所述姓氏对应...

【技术保护点】
一种汉语姓氏的识别方法，其特征在于，所述方法包括：如果待识别姓氏的字符串长度小于等于预设长度，则对所述姓氏的字符串长度进行扩展，并对扩展后的姓氏进行语种识别；如果待识别姓氏的字符串长度大于预设长度，则对所述姓氏进行语种识别；通过下述步骤进行语种识别：对所述姓氏按照预设的划分方式进行划分；所述划分方式为将所述姓氏的前n1个字母划分为首部分，将所述姓氏的倒数n2个字母划分为尾部分，将所述姓氏的首部分和尾部分之间的字母划分为中间部分；其中，所述n1和n2为正整数；根据每个语种对应的识别模型，分别得到所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率、以及中间部分相邻字母之间的转移概率；分别计算所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率和中间部分相邻字母之间的转移概率的乘积，得到所述姓氏对应各语种的生成概率；比较得到所述姓氏对应各语种的生成概率的最大值，当所述最大值对应的语种为汉语时，确定所述姓氏属于汉语姓氏。

【技术特征摘要】
1.一种汉语姓氏的识别方法，其特征在于，所述方法包括：如果待识别姓氏的字符串长度小于等于预设长度，则对所述姓氏的字符串长度进行扩展，并对扩展后的姓氏进行语种识别；如果待识别姓氏的字符串长度大于预设长度，则对所述姓氏进行语种识别；通过下述步骤进行语种识别：对所述姓氏按照预设的划分方式进行划分；所述划分方式为将所述姓氏的前n1个字母划分为首部分，将所述姓氏的倒数n2个字母划分为尾部分，将所述姓氏的首部分和尾部分之间的字母划分为中间部分；其中，所述n1和n2为正整数；根据每个语种对应的识别模型，分别得到所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率、以及中间部分相邻字母之间的转移概率；分别计算所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率和中间部分相邻字母之间的转移概率的乘积，得到所述姓氏对应各语种的生成概率；比较得到所述姓氏对应各语种的生成概率的最大值，当所述最大值对应的语种为汉语时，确定所述姓氏属于汉语姓氏。2.根据权利要求1所述的方法，其特征在于，通过下述步骤建立所述每个语种对应的识别模型：建立每个语种分别对应的字符串形式的姓氏样本库；设定所述预设的字符串划分方式；按照所述划分方式，结合每个语种分别对应的姓氏样本库，对每个语种分别建立识别模型；所述识别模型包括首部分生成概率矩阵、尾部分生成概率矩阵、首部分到中间部分的首字母的转移概率矩阵、中间部分尾字母到尾部分的转移概率矩阵以及中间部分相邻字母之间的转移概率矩阵。3.根据权利要求2所述的方法，其特征在于，所述建立每个语种分别对应的字符串形式的姓氏样本库时，所述方法还包括：当姓氏样本库中的姓氏的字符串长度小于等于预设长度时，对所述姓氏的字符串长度进行扩展。4.根据权利要求1或3所述的方法，其特征在于，所述对所述姓氏的字符串长度进行扩展包括：当所述姓氏的字符串长度等于第一长度时，将所述姓氏的字符串复制两遍并接续在所述姓氏末尾的字母后；当所述姓氏的字符串长度大于所述第一长度小于所述预设长度时，将所述姓氏的字符串复制一遍并接续在所述姓氏末尾的字母后；其中，所述第一长度小于所述预设长度。5.根据权利要求2所述的方法，其特征在于，对每个语种分别建立所述首部分生成概率矩阵包括：穷举从26个字母中任选n1个字母构成的字符串；分别计算每个字符串作为所述语种的姓氏的首部分的概率；将所有字符串分别对应的概率构成所述语种对应的首部分生成概率矩阵。6.根据权利要求2所述的方法，其特征在于，建立所述尾部分生成概率矩阵包括：穷举从26个字母中任选n2个字母构成的字符串；分别计算每个字符串作为所述语种的姓氏的尾部分的概率；将所有字符串分别对应的概率构成所述语种对应的尾部分生成概率矩阵。7.根据权利要求2所述的方法，其特征在于，建立所述首部分到中间部分的首字母的转移概率矩阵包括：从26个字母中任选n1个字母构成的字符串作为姓氏的首部分且从26个字母中任选1个字母作为姓氏的中间部分的首字母；对上述情况进行穷举；计算得到每种情况在所述语种的姓氏中出现的概率；将所有情况分别对应的概率构成所述语种对应的首部分到中间部分的首字母的转移概率矩阵。8.根据权利要求2所述的方法，其特征在于，建立所述中间部分尾字母到尾部分的转移概率矩阵包括：从26个字母中任选1个字母作为姓氏的中间部分的尾字母且从26个字母中任选n2个字母构成的字符串作为姓氏的尾部分；对上述情况进行穷举；计算得到每种情况在所述语种的姓氏中出现的概率；将所有情况分别对应的概率构成所述语种的中间部分尾字母到尾部分的转移概率矩阵。9.根据权利要求2所述的方法，其特征在于，建立所述中间部分相邻字母之间的转移概率矩阵包括：穷举从26个字母中任选2个字母构成的相邻字母；分别计算每对相邻字母出现在所述语种的姓氏的中间部分的概率；将所有相邻字母分别对应的概率构成所述语种对应的中间部分相邻字母之间的转移概率矩阵。10.根据权利要求1所述的方法，其特征在于，在所述对待识别的字符串形式的姓氏按照预设的划分方式进行划分之前，所述方法还包括：去除所述待识别姓氏中包括的非英文字母的字符；将去除非英文字母的字符后的所述姓氏中的所有字母变为小写形式。11.一种汉语姓氏的识别装置，其特征在于，所述装置包括：识别触发单元，用于如果待识别姓氏的字符串长度小于等于预设长度，则对所述姓氏的字符串长度进行扩展后，触发语种识别单元；如果待识别姓氏的字符串长度大于预设长度，则直接触发所述语种识别单元；所述语种识别单元包括：第一划分子单元、第一概率计算子单元、第二概率计算子单元和语种确定子单元；其中，所述第一划分子单元，用于对所述姓氏按照预设的划分方式进行划分；
\t所述划分方式为将所述姓氏的前n1个字母划分为首部分，将所述姓氏的倒数n2个字母划分为尾部分，将所述姓氏的首部分和尾部分之间的字母划分为中间部分；其中，所述n1和n2为正整数；所述第一概率计算子单元，用于根据每个语种对应的识别模型，分别得到所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部...

【专利技术属性】
技术研发人员：顾思源，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人