【技术实现步骤摘要】
分词器获得方法、装置及电子设备
本公开涉及自然语言处理
,更具体地,涉及一种分词器获得方法、装置及电子设备,本公开同时还涉及一种分词方法。
技术介绍
目前的分词器一般是对主流语种中的文本进行分词处理,例如,针对简体国语、繁体国语、日语、韩语等使用人群较多的语种中的文本进行分词处理,而在处理小众语种或非官方语种,例如,粤语时,现有的分词器一方面需要耗费大量人力物力提供训练语料,因此,现有方法在获得分词器时,存在资源浪费的问题;另一方面,由于人工在整理训练语料时,存在出错的可能性,因此,人工整理训练语料获得的分词器往往并不能可靠、准确的对该类语种中的文本进行分词处理。
技术实现思路
本公开的第一方面,提供了一种分词器获得方法,包括:获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;根据所述至少一个第二词汇,获得所述第一词汇的目标词性;根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。可选地,所述获取原始文本语料,包括:从不同的数据源中,获得与所述目标语种对应的、既有字典中的文本数据;对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料。可选地,所述对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料,包 ...
【技术保护点】
1.一种分词器获得方法,其特征在于,包括:/n获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;/n根据所述至少一个第二词汇,获得所述第一词汇的目标词性;/n根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;/n根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。/n
【技术特征摘要】
1.一种分词器获得方法,其特征在于,包括:
获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;
根据所述至少一个第二词汇,获得所述第一词汇的目标词性;
根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;
根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。
2.根据权利要求1所述的方法,其特征在于,所述获取原始文本语料,包括:
从不同的数据源中,获得与所述目标语种对应的、既有字典中的文本数据;
对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料。
3.根据权利要求2所述的方法,其特征在于,所述对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料,包括:
通过第一正则匹配规则,从所述既有字典中的文本数据中,获得第一文本数据,其中,所述第一文本数据包括所述第一词汇和所述至少一个第二词汇;
通过第二正则匹配规则,对所述第一文本数据进行拆分处理,获得所述第一词汇,以及与所述第一词汇对应的、包括所述至少一个第二词汇的第二文本数据;
对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇;
根据所述第一词汇和所述至少一个第二词汇,获得所述原始文本语料。
4.根据权利要求3所述的方法,其特征在于,所述对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇,包括:
通过第三正则匹配规则,过滤所述第二文本数据中的预设文本符号,获得第三文本数据;
使用预设分词符号,拆分所述第三文本数据,获得至少一个拆分文本;
根据预设的词汇长度阈值,从所述至少一个拆分文本中,获得所述至少一个第二词汇。
5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个第二词汇,获得所述第一词汇的目标词性,包括:
根据所述至少一个第二词汇中词汇的词性,获得所述第一词汇的至少一个初始词性;
对所述至少一个初始词性进行词性修正处理,获得所述目标词性。
6.根据权利要求5所述的方法,其特征在于,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:
获取所述第一词汇的第一长度;
在所述第一长度大于预设长度阈值的情况下,确定所述目标词性为第一预设词性。
7.根据权利要求6所述的方法,其特征在于,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:
通过获取所述至少一个第二词汇中词汇的长度,获得第二长度集合;
在所述第一长度等于所述预设长度阈值,并且,所述第二长度集合中的任一长度等于所述预设长度阈值的情况下,确定所述目标词性为第二预设词性。
8.根据权利要求5所述的方法,其特征在于,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:
获取所述至少一个初始词性的类别数量;
在所述类别数量等于第一预设类别数量,并且,所述至少一个初始词性中包括第三预设词性的情况下,确定所述目标词性为所述第三预设词性。
9.根据权利要求8所述的方法,其特征在于,所述对所述至少一个初始词性进行词性修正处理,获得...
【专利技术属性】
技术研发人员:黄诗雅,罗睦军,朱栩,
申请(专利权)人:广州云趣信息科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。