分词器获得方法、装置及电子设备制造方法及图纸

技术编号:26763912 阅读:17 留言:0更新日期:2020-12-18 23:31
本申请公开了一种分词器获得方法,包括:获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;根据所述至少一个第二词汇,获得所述第一词汇的目标词性;根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。该方法可以提升目标分词器进行分词处理时的可靠性以及准确性。

【技术实现步骤摘要】
分词器获得方法、装置及电子设备
本公开涉及自然语言处理
,更具体地,涉及一种分词器获得方法、装置及电子设备,本公开同时还涉及一种分词方法。
技术介绍
目前的分词器一般是对主流语种中的文本进行分词处理,例如,针对简体国语、繁体国语、日语、韩语等使用人群较多的语种中的文本进行分词处理,而在处理小众语种或非官方语种,例如,粤语时,现有的分词器一方面需要耗费大量人力物力提供训练语料,因此,现有方法在获得分词器时,存在资源浪费的问题;另一方面,由于人工在整理训练语料时,存在出错的可能性,因此,人工整理训练语料获得的分词器往往并不能可靠、准确的对该类语种中的文本进行分词处理。
技术实现思路
本公开的第一方面,提供了一种分词器获得方法,包括:获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;根据所述至少一个第二词汇,获得所述第一词汇的目标词性;根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。可选地,所述获取原始文本语料,包括:从不同的数据源中,获得与所述目标语种对应的、既有字典中的文本数据;对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料。可选地,所述对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料,包括:通过第一正则匹配规则,从所述既有字典中的文本数据中,获得第一文本数据,其中,所述第一文本数据包括所述第一词汇和所述至少一个第二词汇;通过第二正则匹配规则,对所述第一文本数据进行拆分处理,获得所述第一词汇,以及与所述第一词汇对应的、包括所述至少一个第二词汇的第二文本数据;对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇;根据所述第一词汇和所述至少一个第二词汇,获得所述原始文本语料。可选地,所述对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇,包括:通过第三正则匹配规则,过滤所述第二文本数据中的预设文本符号,获得第三文本数据;使用预设分词符号,拆分所述第三文本数据,获得至少一个拆分文本;根据预设的词汇长度阈值,从所述至少一个拆分文本中,获得所述至少一个第二词汇。可选地,所述根据所述至少一个第二词汇,获得所述第一词汇的目标词性,包括:根据所述至少一个第二词汇中词汇的词性,获得所述第一词汇的至少一个初始词性;对所述至少一个初始词性进行词性修正处理,获得所述目标词性。可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述第一词性,包括:获取所述第一词汇的第一长度;在所述第一长度大于预设长度阈值的情况下,确定所述目标词性为第一预设词性。可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:通过获取所述至少一个第二词汇中词汇的长度,获得第二长度集合;在所述第一长度等于所述预设长度阈值,并且,所述第二长度集合中的任一长度等于所述预设长度阈值的情况下,确定所述目标词性为第二预设词性。可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:获取所述至少一个初始词性的类别数量;在所述类别数量等于第一预设类别数量,并且,所述至少一个初始词性中包括第三预设词性的情况下,确定所述目标词性为所述第三预设词性。可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中包括第四预设词性的情况下,确定所述目标词性为所述第四预设词性。可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:在所述类别数量等于所述第一预设类别数量,并且,所述至少一个初始词性中不包括所述第三预设词性或者所述第四预设词性的情况下,确定所述目标词性为第五预设词性。可选地,所述方法还包括:在所述类别数量大于或等于第二预设类别数量的情况下,清除所述第一词汇。可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:获取所述至少一个初始词性中的词性数量;在所述词性数量大于或等于第一预设词性数量的情况下,统计所述至少一个初始词性中每一词性的出现次数;将所述至少一个初始词性中出现次数最多的词性,作为所述目标词性。可选地,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:在所述至少一个初始词性中每一词性的出现次数相同的情况下,将位于所述至少一个初始词性的第一预设位置处的词性,作为所述目标词性。可选地,在获得所述第一词汇的目标词性之后,所述方法还包括:展示所述第一词汇和所述目标词性;接收用户对所述第一词汇和所述目标词性的修正结果;根据所述修正结果,修正所述第一词汇和所述目标词性。可选地,所述根据所述目标文本语料,获得目标分词器,包括:将所述目标文本语料配置到预设的分词处理器中,获得所述目标分词器。可选地,所述目标语种包括粤语,所述释义语种包括简体国语。本公开的第二方面,还提供了一种分词方法,包括:获取待进行分词处理的原始文本所属的语种;获取与所述语种对应的目标分词器,其中,所述目标分词器通过本公开第一方面所述的方法获得;将所述原始文本输入到所述目标分词器中,获得分词结果。本公开的第三方面,还提供一种分词器获得装置,包括:原始文本语料获取模块,用于获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;目标词性获得模块,用于根据所述至少一个第二词汇,获得所述第一词汇的目标词性;目标文本语料获得模块,用于根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;目标分词器获得模块,用于根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。本公开的第四方面,还提供了一种电子设备,其包括本公开第三方面所述的装置;或者,所述电子设备包括:存储器,用于存储可执行的指令;处理器,用于根据所述指令的控制运行所述电子设备执行本公开第一方面或第二方面所述的方法。本公开的一个有益效果在于,根据本公开的实施例,电子设备通过获取到包含第一词汇和至少一个第二词汇的原始文本语料,其中第二词汇用于解释所述第一词汇,第一词汇属于目标语种,第二词汇属于释义语种;之后,根据该至少一个第二词汇,自动获得第一词汇的目标词性,进而根据该第一词汇和目标词性,获得用来作为训练语料的、与该目标语种对应的目标文本语料;之后,根据该目标文本语料,即可方便的获得用于对使用该目标语种的文本进行分词处理的目标分词器。本公开实施例中,目标分词器的获得过程可以不依赖于人工,而是由电子设备从多渠道获取大量本文档来自技高网...

【技术保护点】
1.一种分词器获得方法,其特征在于,包括:/n获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;/n根据所述至少一个第二词汇,获得所述第一词汇的目标词性;/n根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;/n根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。/n

【技术特征摘要】
1.一种分词器获得方法,其特征在于,包括:
获取原始文本语料,其中,所述原始文本语料包括第一词汇和至少一个第二词汇,其中,所述第二词汇用于解释所述第一词汇,所述第一词汇属于目标语种,所述第二词汇属于释义语种;
根据所述至少一个第二词汇,获得所述第一词汇的目标词性;
根据所述第一词汇和所述目标词性,获得与所述目标语种对应的目标文本语料;
根据所述目标文本语料,获得目标分词器,其中,所述目标分词器用于对使用所述目标语种的文本进行分词处理。


2.根据权利要求1所述的方法,其特征在于,所述获取原始文本语料,包括:
从不同的数据源中,获得与所述目标语种对应的、既有字典中的文本数据;
对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料。


3.根据权利要求2所述的方法,其特征在于,所述对所述既有字典中的文本数据进行数据清洗,获得所述原始文本语料,包括:
通过第一正则匹配规则,从所述既有字典中的文本数据中,获得第一文本数据,其中,所述第一文本数据包括所述第一词汇和所述至少一个第二词汇;
通过第二正则匹配规则,对所述第一文本数据进行拆分处理,获得所述第一词汇,以及与所述第一词汇对应的、包括所述至少一个第二词汇的第二文本数据;
对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇;
根据所述第一词汇和所述至少一个第二词汇,获得所述原始文本语料。


4.根据权利要求3所述的方法,其特征在于,所述对所述第二文本数据进行过滤处理,获得所述至少一个第二词汇,包括:
通过第三正则匹配规则,过滤所述第二文本数据中的预设文本符号,获得第三文本数据;
使用预设分词符号,拆分所述第三文本数据,获得至少一个拆分文本;
根据预设的词汇长度阈值,从所述至少一个拆分文本中,获得所述至少一个第二词汇。


5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个第二词汇,获得所述第一词汇的目标词性,包括:
根据所述至少一个第二词汇中词汇的词性,获得所述第一词汇的至少一个初始词性;
对所述至少一个初始词性进行词性修正处理,获得所述目标词性。


6.根据权利要求5所述的方法,其特征在于,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:
获取所述第一词汇的第一长度;
在所述第一长度大于预设长度阈值的情况下,确定所述目标词性为第一预设词性。


7.根据权利要求6所述的方法,其特征在于,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,还包括:
通过获取所述至少一个第二词汇中词汇的长度,获得第二长度集合;
在所述第一长度等于所述预设长度阈值,并且,所述第二长度集合中的任一长度等于所述预设长度阈值的情况下,确定所述目标词性为第二预设词性。


8.根据权利要求5所述的方法,其特征在于,所述对所述至少一个初始词性进行词性修正处理,获得所述目标词性,包括:
获取所述至少一个初始词性的类别数量;
在所述类别数量等于第一预设类别数量,并且,所述至少一个初始词性中包括第三预设词性的情况下,确定所述目标词性为所述第三预设词性。


9.根据权利要求8所述的方法,其特征在于,所述对所述至少一个初始词性进行词性修正处理,获得...

【专利技术属性】
技术研发人员:黄诗雅罗睦军朱栩
申请(专利权)人:广州云趣信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1