一种汉语姓氏的识别方法、装置及服务器制造方法及图纸

技术编号:13794163 阅读:113 留言:0更新日期:2016-10-06 08:52
本申请公开了汉语姓氏的识别方法及装置。所述方法包括:待识别姓氏的字符串长度小于等于预设长度时,对其扩展后进行语种识别;否则直接进行语种识别;该语种识别包括:对该姓氏按照预设方式进行划分;根据每个语种对应的识别模型,得到该姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率、以及中间部分相邻字母之间的转移概率;利用上述概率计算得到该姓氏对应各语种的生成概率,比较得到最大值,当该最大值对应语种为汉语时,确定该姓氏属于汉语姓氏。采用本申请实施例,能够对用户提供的以字符串形式表示的姓氏是否属于汉语进行识别,解决现有技术的问题。

【技术实现步骤摘要】

本申请涉及模式识别
,尤其涉及一种汉语姓氏的识别方法、装置及服务器
技术介绍
随着电子商务的日益发展,网上交易成为很多用户喜欢的购物方式之一。但是,网络交易存在着一定的风险。目前,在中国国内进行网络交易的参与者大多是来自中国大陆、港澳台以及新加坡等华语区的用户。该部分用户在注册信息的姓氏栏中,一般均以英文字符串的形式填写本人的姓名拼音。在实际应用中,当具有不良企图的用户参与网上交易时,该用户往往会注册一个虚假的姓名,例如该用户的注册名为典型的其他语种的姓名或为错误的汉语拼音,但是该用户使用的银行卡或收货地址却是与中国相关的信息。对于该类用户,有理由怀疑该用户的信息存在一定的虚假性,需要提醒其他用户与该用户之间的交易存在一定的风险。但是,如何实现对网络交易中某些用户提供的虚假身份信息进行识别,是本领域技术人员急需解决的技术问题。
技术实现思路
本申请提供一种汉语姓氏的识别方法、装置及服务器,以解决现有技术中的问题。根据本申请实施例的第一方面,提供一种汉语姓氏的识别方法,所述方
法包括:如果待识别姓氏的字符串长度小于等于预设长度,则对所述姓氏的字符串长度进行扩展,并对扩展后的姓氏进行语种识别;如果待识别姓氏的字符串长度大于预设长度,则对所述姓氏进行语种识别;通过下述步骤进行语种识别:对所述姓氏按照预设的划分方式进行划分;所述划分方式为将所述姓氏的前n1个字母划分为首部分,将所述姓氏的倒数n2个字母划分为尾部分,将所述姓氏的首部分和尾部分之间的字母划分为中间部分;其中,所述n1和n2为正整数;根据每个语种对应的识别模型,分别得到所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率、以及中间部分相邻字母之间的转移概率;分别计算所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率和中间部分相邻字母之间的转移概率的乘积,得到所述姓氏对应各语种的生成概率;比较得到所述姓氏对应各语种的生成概率的最大值,当所述最大值对应的语种为汉语时,确定所述姓氏属于汉语姓氏。根据本申请实施例的第二方面,提供一种汉语姓氏的识别装置,所述装置包括:识别触发单元,用于如果待识别姓氏的字符串长度小于等于预设长度,则对所述姓氏的字符串长度进行扩展后,触发语种识别单元;如果待识别姓氏的字符串长度大于预设长度,则直接触发所述语种识别单元;所述语种识别单元包括:第一划分子单元、概率获取子单元、生成概率计算子单元和语种确定子单元;其中,所述第一划分子单元,用于对所述姓氏按照预设的划分方式进行划分;所述划分方式为将所述姓氏的前n1个字母划分为首部分,将所述姓氏的倒数n2个字母划分为尾部分,将所述姓氏的首部分和尾部分之间的字母划分为中
间部分;其中,所述n1和n2为正整数;概率获取子单元,用于根据每个语种对应的识别模型,分别得到所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率、以及中间部分相邻字母之间的转移概率;生成概率计算子单元,分别计算所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率和中间部分相邻字母之间的转移概率的乘积,得到所述姓氏对应各语种的生成概率;语种确定子单元,用于比较得到所述姓氏对应各语种的生成概率的最大值,当所述最大值对应的语种为汉语时,确定所述姓氏属于汉语姓氏。根据本申请实施例的第三方面,提供一种服务器,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:如果待识别姓氏的字符串长度小于等于预设长度,则对所述姓氏的字符串长度进行扩展,并对扩展后的姓氏进行语种识别;如果待识别姓氏的字符串长度大于预设长度,则对所述姓氏进行语种识别;通过下述步骤进行语种识别:对所述姓氏按照预设的划分方式进行划分;所述划分方式为将所述姓氏的前n1个字母划分为首部分,将所述姓氏的倒数n2个字母划分为尾部分,将所述姓氏的首部分和尾部分之间的字母划分为中间部分;其中,所述n1和n2为正整数;根据每个语种对应的识别模型,分别得到所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率、以及中间部分相邻字母之间的转移概率;分别计算所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率和中间
部分相邻字母之间的转移概率的乘积,得到所述姓氏对应各语种的生成概率;比较得到所述姓氏对应各语种的生成概率的最大值,当所述最大值对应的语种为汉语时,确定所述姓氏属于汉语姓氏。应用本申请实施例,能够依据每个语种分别对应的识别模型,对用户提供的以字符串形式表示的姓氏是否属于汉语进行识别。该方法应用在网络交易领域时,可以对用户提供的注册名中的姓氏是否属于汉语姓氏进行识别,并将识别结果与该用户注册的其他信息进行比对;如果识别得到该用户的注册名不属于汉语姓氏,但是该用户的其他信息均与中国相关,则有理由怀疑该用户提供的身份信息是虚假的,从而可以提醒与之交易的其他用户提高警惕,避免上当受骗。由此可以很好的保护使用网络交易的用户的财产安全,提高网络交易的安全性和可靠性。附图说明图1为本申请的姓氏所属语种的识别模型建立方法的实施例的流程图;图2为本申请的汉语姓氏的识别方法的一个实施例的流程图;图3为本申请的汉语姓氏的识别装置所在设备的一种硬件结构图;图4为本申请的汉语姓氏的识别装置的一个实施例框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应
当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。在网络交易中,具有不良企图的用户往往会注册一个虚假的姓名,例如该用户的注册名为典型的其他语种的姓名或为错误的汉语拼音,但是该用户使用的银行卡或收货地址却是与中国相关的信息。对于该类用户,有理由怀疑该用户的信息存在一定的虚假性,需要提醒其他用户与该用户之间的交易存在一定的风险。因此,如果我们可以对该用户提供的注册名是否属于汉语姓氏进行识别,就能够发本文档来自技高网
...

【技术保护点】
一种汉语姓氏的识别方法,其特征在于,所述方法包括:如果待识别姓氏的字符串长度小于等于预设长度,则对所述姓氏的字符串长度进行扩展,并对扩展后的姓氏进行语种识别;如果待识别姓氏的字符串长度大于预设长度,则对所述姓氏进行语种识别;通过下述步骤进行语种识别:对所述姓氏按照预设的划分方式进行划分;所述划分方式为将所述姓氏的前n1个字母划分为首部分,将所述姓氏的倒数n2个字母划分为尾部分,将所述姓氏的首部分和尾部分之间的字母划分为中间部分;其中,所述n1和n2为正整数;根据每个语种对应的识别模型,分别得到所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率、以及中间部分相邻字母之间的转移概率;分别计算所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率和中间部分相邻字母之间的转移概率的乘积,得到所述姓氏对应各语种的生成概率;比较得到所述姓氏对应各语种的生成概率的最大值,当所述最大值对应的语种为汉语时,确定所述姓氏属于汉语姓氏。

【技术特征摘要】
1.一种汉语姓氏的识别方法,其特征在于,所述方法包括:如果待识别姓氏的字符串长度小于等于预设长度,则对所述姓氏的字符串长度进行扩展,并对扩展后的姓氏进行语种识别;如果待识别姓氏的字符串长度大于预设长度,则对所述姓氏进行语种识别;通过下述步骤进行语种识别:对所述姓氏按照预设的划分方式进行划分;所述划分方式为将所述姓氏的前n1个字母划分为首部分,将所述姓氏的倒数n2个字母划分为尾部分,将所述姓氏的首部分和尾部分之间的字母划分为中间部分;其中,所述n1和n2为正整数;根据每个语种对应的识别模型,分别得到所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率、以及中间部分相邻字母之间的转移概率;分别计算所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部分的转移概率和中间部分相邻字母之间的转移概率的乘积,得到所述姓氏对应各语种的生成概率;比较得到所述姓氏对应各语种的生成概率的最大值,当所述最大值对应的语种为汉语时,确定所述姓氏属于汉语姓氏。2.根据权利要求1所述的方法,其特征在于,通过下述步骤建立所述每个语种对应的识别模型:建立每个语种分别对应的字符串形式的姓氏样本库;设定所述预设的字符串划分方式;按照所述划分方式,结合每个语种分别对应的姓氏样本库,对每个语种分别建立识别模型;所述识别模型包括首部分生成概率矩阵、尾部分生成概率矩阵、首部分到中间部分的首字母的转移概率矩阵、中间部分尾字母到尾部分的转移概率矩阵以及中间部分相邻字母之间的转移概率矩阵。3.根据权利要求2所述的方法,其特征在于,所述建立每个语种分别对应的字符串形式的姓氏样本库时,所述方法还包括:当姓氏样本库中的姓氏的字符串长度小于等于预设长度时,对所述姓氏的字符串长度进行扩展。4.根据权利要求1或3所述的方法,其特征在于,所述对所述姓氏的字符串长度进行扩展包括:当所述姓氏的字符串长度等于第一长度时,将所述姓氏的字符串复制两遍并接续在所述姓氏末尾的字母后;当所述姓氏的字符串长度大于所述第一长度小于所述预设长度时,将所述姓氏的字符串复制一遍并接续在所述姓氏末尾的字母后;其中,所述第一长度小于所述预设长度。5.根据权利要求2所述的方法,其特征在于,对每个语种分别建立所述首部分生成概率矩阵包括:穷举从26个字母中任选n1个字母构成的字符串;分别计算每个字符串作为所述语种的姓氏的首部分的概率;将所有字符串分别对应的概率构成所述语种对应的首部分生成概率矩阵。6.根据权利要求2所述的方法,其特征在于,建立所述尾部分生成概率矩阵包括:穷举从26个字母中任选n2个字母构成的字符串;分别计算每个字符串作为所述语种的姓氏的尾部分的概率;将所有字符串分别对应的概率构成所述语种对应的尾部分生成概率矩阵。7.根据权利要求2所述的方法,其特征在于,建立所述首部分到中间部分的首字母的转移概率矩阵包括:从26个字母中任选n1个字母构成的字符串作为姓氏的首部分且从26个字母中任选1个字母作为姓氏的中间部分的首字母;对上述情况进行穷举;计算得到每种情况在所述语种的姓氏中出现的概率;将所有情况分别对应的概率构成所述语种对应的首部分到中间部分的首字母的转移概率矩阵。8.根据权利要求2所述的方法,其特征在于,建立所述中间部分尾字母到尾部分的转移概率矩阵包括:从26个字母中任选1个字母作为姓氏的中间部分的尾字母且从26个字母中任选n2个字母构成的字符串作为姓氏的尾部分;对上述情况进行穷举;计算得到每种情况在所述语种的姓氏中出现的概率;将所有情况分别对应的概率构成所述语种的中间部分尾字母到尾部分的转移概率矩阵。9.根据权利要求2所述的方法,其特征在于,建立所述中间部分相邻字母之间的转移概率矩阵包括:穷举从26个字母中任选2个字母构成的相邻字母;分别计算每对相邻字母出现在所述语种的姓氏的中间部分的概率;将所有相邻字母分别对应的概率构成所述语种对应的中间部分相邻字母之间的转移概率矩阵。10.根据权利要求1所述的方法,其特征在于,在所述对待识别的字符串形式的姓氏按照预设的划分方式进行划分之前,所述方法还包括:去除所述待识别姓氏中包括的非英文字母的字符;将去除非英文字母的字符后的所述姓氏中的所有字母变为小写形式。11.一种汉语姓氏的识别装置,其特征在于,所述装置包括:识别触发单元,用于如果待识别姓氏的字符串长度小于等于预设长度,则对所述姓氏的字符串长度进行扩展后,触发语种识别单元;如果待识别姓氏的字符串长度大于预设长度,则直接触发所述语种识别单元;所述语种识别单元包括:第一划分子单元、第一概率计算子单元、第二概率计算子单元和语种确定子单元;其中,所述第一划分子单元,用于对所述姓氏按照预设的划分方式进行划分;
\t所述划分方式为将所述姓氏的前n1个字母划分为首部分,将所述姓氏的倒数n2个字母划分为尾部分,将所述姓氏的首部分和尾部分之间的字母划分为中间部分;其中,所述n1和n2为正整数;所述第一概率计算子单元,用于根据每个语种对应的识别模型,分别得到所述姓氏对应各语种的首部分概率、尾部分概率、首部分到中间部分的首字母的转移概率、中间部分的尾字母到尾部...

【专利技术属性】
技术研发人员:顾思源
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1