一种基于互联网昵称提取称呼方法及系统技术方案

技术编号:26032793 阅读:27 留言:0更新日期:2020-10-23 21:10
本发明专利技术提出了一种基于互联网昵称提取称呼方法及系统,涉及深度学习领域。一种基于互联网昵称提取称呼方法包括:获取已存储的用户昵称;用户昵称分别通过jieba和LTP进行分词和中文人名识别;获取两个中文人名识别结果;判断两个中文人名识别结果是否相同;若相同,则将该结果作为用户称呼;若不相同,则判断其中任意一个结果是否与清洗后的用户昵称相同;若相同,则将与清洗后的用户昵称相同的识别结果作为用户称呼;若不相同,则判定为用户称呼识别失败。此外本发明专利技术还提出了一种基于互联网昵称提取称呼系统,包括:第一获取模块,第一识别模块,第二获取模块,第一判定模块,第一输出模块,第二判定模块,第二输出模块,第三输出模块。

【技术实现步骤摘要】
一种基于互联网昵称提取称呼方法及系统
本专利技术涉及深度学习领域,具体而言,涉及一种基于互联网昵称提取称呼方法及系统。
技术介绍
命名实体识别研究的命名实体一般分为3大类(实体类、时间类、数字类)和7小类(人名、地名、组织机构名、时间、日期、货币和百分比)。由于时间、日期、货币等实体构成的规律比较明显,其实体类型识别通常可以采用模式匹配的方式获得比较好的识别效果,所以,相较而言,人名、地名、机构名较复杂,目前的研究主要以这几种实体为主。目前对人名识别通常采用命名实体识别算法,但该算法需要依赖完整句子的上下文语法信息,来识别实体边界和实体类别,但用户昵称通常是短语且不包含完整的语法结构。直接用在从昵称中识别姓名误检率和漏检率都很高,并且互联网昵称中经常包含一些特殊字符、仅有姓氏或名字,使用非正常名字等问题,需要在识别后再进行调整。
技术实现思路
本专利技术的目的在于提供一种基于互联网昵称提取称呼方法,其能够针对用户昵称的特性进行优化,相对原始算法可以生成更合适的称呼,可以从不包含完整句子的昵称短语中提取姓名,对含有特殊字符的昵称进行识别,还可以处理仅含有姓氏的昵称。本专利技术的另一目的在于提供一种基于互联网昵称提取称呼系统,其能够运行上述方法。本专利技术的实施例是这样实现的:第一方面,本申请实施例提供一种基于互联网昵称提取称呼方法,其包括如下步骤:获取已存储的用户昵称;用户昵称分别通过jieba和LTP进行分词和中文人名识别;获取两个中文人名识别结果;判断两个中文人名识别结果是否相同;若相同,则将该结果作为用户称呼;若不相同,则判断其中任意一个结果是否与清洗后的用户昵称相同;若相同,则将与清洗后的用户昵称相同的识别结果作为用户称呼;若不相同,则判定为用户称呼识别失败。在本专利技术的一些实施例中,上述获取两个中文人名识别结果之后还包括如下步骤,若只成功获取一个中文人名识别结果,则以识别到的中文人名识别结果作为用户称呼。在本专利技术的一些实施例中,上述若未成功获取中文人名识别结果,则将“同学”作为用户称呼。在本专利技术的一些实施例中,上述获取两个中文人名识别结果之后还包括如下步骤:判断识别结果是否为一位中文;若是,则判定该一位中文为中文姓氏,并在该一位中文后增加同学二字作为用户称呼。在本专利技术的一些实施例中,上述获取已存储的用户昵称之后还包括如下步骤:获取用户昵称中的英文字符;判断英文字符数量是否大于等于预设数值;若英文字符数量大于等于预设数值,则输出英文字符为英文姓名,将英文姓名作为用户称呼;若英文字符数量小于预设数值,则判定为用户称呼识别失败。第二方面,本申请实施例提供一种基于互联网昵称提取称呼系统,其包括第一获取模块,用于获取已存储的用户昵称;第一识别模块,用户昵称分别通过jieba和LTP进行分词和中文人名识别;第二获取模块,用于获取两个中文人名识别结果;第一判定模块,判断两个中文人名识别结果是否相同;第一输出模块,用于若相同,则将该结果作为用户称呼;第二判定模块,用于若不相同,则判断其中任意一个结果是否与清洗后的用户昵称相同;第二输出模块,用于若相同,则将与清洗后的用户昵称相同的识别结果作为用户称呼;第三输出模块,用于若不相同,则判定为用户称呼识别失败。在本专利技术的一些实施例中,上述还包括:第四输出模块,用于若只成功获取一个中文人名识别结果,则以识别到的中文人名识别结果作为用户称呼。在本专利技术的一些实施例中,上述还包括:第五输出模块,用于若未成功获取中文人名识别结果,则将“同学”作为用户称呼。在本专利技术的一些实施例中,上述还包括:第三判定模块,用于判断识别结果是否为一位中文;第六输出模块,用于若是,则判定该一位中文为中文姓氏,并在该一位中文后增加“同学”二字作为用户称呼。在本专利技术的一些实施例中,上述包括:用于存储计算机指令的至少一个存储器;与存储器通讯的至少一个处理器,其中当至少一个处理器执行计算机指令时,至少一个处理器使系统执行:多个获取模块、多个判断模块以及多个输出模块。相对于现有技术,本专利技术的实施例至少具有如下优点或有益效果:通过原始算法综合jieba和LTP两种开源软件包的命名实体识别结果,使得误检率和漏检率都大大降低,同时针对用户昵称的特性进行优化,相对原始算法可以生成更合适的称呼,可以从不包含完整句子的昵称短语中提取姓名,对含有特殊字符的昵称进行识别,还可以处理仅含有姓氏的昵称。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的一种基于互联网昵称提取称呼方法的流程示意图;图2为本专利技术实施例提供的一种基于互联网昵称提取称呼方法示意图;图3为本专利技术实施例提供的一种基于互联网昵称提取称呼系统模块图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。实施例1请参阅图1,图1所示为本申请实施例提供的一种基于互联网昵称提取称呼方法的流程示意图,包括如下步骤:步骤S100,获取用户昵称;具体的,获取用户在系统中注册使用的昵称。在一些实施方式本文档来自技高网...

【技术保护点】
1.一种基于互联网昵称提取称呼方法,其特征在于,包括如下步骤:/n获取已存储的用户昵称;/n所述用户昵称分别通过jieba和LTP进行分词和中文人名识别;/n获取两个中文人名识别结果;/n判断两个中文人名识别结果是否相同;/n若相同,则将该结果作为用户称呼;/n若不相同,则判断其中任意一个结果是否与清洗后的用户昵称相同;/n若相同,则将与清洗后的用户昵称相同的识别结果作为用户称呼;/n若不相同,则判定为用户称呼识别失败。/n

【技术特征摘要】
1.一种基于互联网昵称提取称呼方法,其特征在于,包括如下步骤:
获取已存储的用户昵称;
所述用户昵称分别通过jieba和LTP进行分词和中文人名识别;
获取两个中文人名识别结果;
判断两个中文人名识别结果是否相同;
若相同,则将该结果作为用户称呼;
若不相同,则判断其中任意一个结果是否与清洗后的用户昵称相同;
若相同,则将与清洗后的用户昵称相同的识别结果作为用户称呼;
若不相同,则判定为用户称呼识别失败。


2.如权利要求1所述的一种基于互联网昵称提取称呼方法,其特征在于,所述获取两个中文人名识别结果之后还包括如下步骤:
若只成功获取一个中文人名识别结果,则以识别到的中文人名识别结果作为用户称呼。


3.如权利要求2所述的一种基于互联网昵称提取称呼方法,其特征在于,还包括如下步骤:
若未成功获取中文人名识别结果,则将同学作为用户称呼。


4.如权利要求1所述的一种基于互联网昵称提取称呼方法,其特征在于,所述获取两个中文人名识别结果之后还包括如下步骤:
判断识别结果是否为一位中文;
若是,则判定该一位中文为中文姓氏,并在该一位中文后增加同学二字作为用户称呼。


5.如权利要求1所述的一种基于互联网昵称提取称呼方法,其特征在于,在所述获取已存储的用户昵称之后还包括如下步骤:
获取用户昵称中的英文字符;
判断英文字符数量是否大于等于预设数值;
若英文字符数量大于等于预设数值,则输出英文字符为英文姓名,将英文姓名作为用户称呼;
若英文字符数量小于预设数值,则判定为用户称呼识别失败。


6.一种基于互联网昵称提取称呼系统,其特征在于,包括:

【专利技术属性】
技术研发人员:阚野蔡博克张云张京鹏贲忠奇冷若冰
申请(专利权)人:混沌时代北京教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1