分词器获得方法、装置及电子设备制造方法及图纸

技术编号：26763912 阅读：29 留言：0更新日期：2020-12-18 23:31

本申请公开了一种分词器获得方法，包括：获取原始文本语料，其中，所述原始文本语料包括第一词汇和至少一个第二词汇，其中，所述第二词汇用于解释所述第一词汇，所述第一词汇属于目标语种，所述第二词汇属于释义语种；根据所述至少一个第二词汇，获得所述第一词汇的目标词性；根据所述第一词汇和所述目标词性，获得与所述目标语种对应的目标文本语料；根据所述目标文本语料，获得目标分词器，其中，所述目标分词器用于对使用所述目标语种的文本进行分词处理。该方法可以提升目标分词器进行分词处理时的可靠性以及准确性。

全部详细技术资料下载

【技术实现步骤摘要】
分词器获得方法、装置及电子设备
本公开涉及自然语言处理
，更具体地，涉及一种分词器获得方法、装置及电子设备，本公开同时还涉及一种分词方法。
技术介绍
目前的分词器一般是对主流语种中的文本进行分词处理，例如，针对简体国语、繁体国语、日语、韩语等使用人群较多的语种中的文本进行分词处理，而在处理小众语种或非官方语种，例如，粤语时，现有的分词器一方面需要耗费大量人力物力提供训练语料，因此，现有方法在获得分词器时，存在资源浪费的问题；另一方面，由于人工在整理训练语料时，存在出错的可能性，因此，人工整理训练语料获得的分词器往往并不能可靠、准确的对该类语种中的文本进行分词处理。
技术实现思路
本公开的第一方面，提供了一种分词器获得方法，包括：获取原始文本语料，其中，所述原始文本语料包括第一词汇和至少一个第二词汇，其中，所述第二词汇用于解释所述第一词汇，所述第一词汇属于目标语种，所述第二词汇属于释义语种；根据所述至少一个第二词汇，获得所述第一词汇的目标词性；根据所述第一词汇和所述目标词性，获...

【技术保护点】
1.一种分词器获得方法，其特征在于，包括：/n获取原始文本语料，其中，所述原始文本语料包括第一词汇和至少一个第二词汇，其中，所述第二词汇用于解释所述第一词汇，所述第一词汇属于目标语种，所述第二词汇属于释义语种；/n根据所述至少一个第二词汇，获得所述第一词汇的目标词性；/n根据所述第一词汇和所述目标词性，获得与所述目标语种对应的目标文本语料；/n根据所述目标文本语料，获得目标分词器，其中，所述目标分词器用于对使用所述目标语种的文本进行分词处理。/n

【技术特征摘要】
1.一种分词器获得方法，其特征在于，包括：
获取原始文本语料，其中，所述原始文本语料包括第一词汇和至少一个第二词汇，其中，所述第二词汇用于解释所述第一词汇，所述第一词汇属于目标语种，所述第二词汇属于释义语种；
根据所述至少一个第二词汇，获得所述第一词汇的目标词性；
根据所述第一词汇和所述目标词性，获得与所述目标语种对应的目标文本语料；
根据所述目标文本语料，获得目标分词器，其中，所述目标分词器用于对使用所述目标语种的文本进行分词处理。

2.根据权利要求1所述的方法，其特征在于，所述获取原始文本语料，包括：
从不同的数据源中，获得与所述目标语种对应的、既有字典中的文本数据；
对所述既有字典中的文本数据进行数据清洗，获得所述原始文本语料。

3.根据权利要求2所述的方法，其特征在于，所述对所述既有字典中的文本数据进行数据清洗，获得所述原始文本语料，包括：
通过第一正则匹配规则，从所述既有字典中的文本数据中，获得第一文本数据，其中，所述第一文本数据包括所述第一词汇和所述至少一个第二词汇；
通过第二正则匹配规则，对所述第一文本数据进行拆分处理，获得所述第一词汇，以及与所述第一词汇对应的、包括所述至少一个第二词汇的第二文本数据；
对所述第二文本数据进行过滤处理，获得所述至少一个第二词汇；
根据所述第一词汇和所述至少一个第二词汇，获得所述原始文本语料。

4.根据权利要求3所述的方法，其特征在于，所述对所述第二文本数据进行过滤处理，获得所述至少一个第二词汇，包括：
通过第三正则匹配规则，过滤所述第二文本数据中的预设文本符号，获得第三文本数据；
使用预设分词符号，拆分所述第三文本数据，获得至少一个拆分文本；
根据预设的词汇长度阈值，从所述至少一个拆分文本中，获得所述至少一个第二词汇。

5.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个第二词汇，获得所述第一词汇的目标词性，包括：
根据所述至少一个第二词汇中词汇的词性，获得所述第一词汇的至少一个初始词性；
对所述至少一个初始词性进行词性修正处理，获得所述目标词性。

6.根据权利要求5所述的方法，其特征在于，所述对所述至少一个初始词性进行词性修正处理，获得所述目标词性，包括：
获取所述第一词汇的第一长度；
在所述第一长度大于预设长度阈值的情况下，确定所述目标词性为第一预设词性。

7.根据权利要求6所述的方法，其特征在于，所述对所述至少一个初始词性进行词性修正处理，获得所述目标词性，还包括：
通过获取所述至少一个第二词汇中词汇的长度，获得第二长度集合；
在所述第一长度等于所述预设长度阈值，并且，所述第二长度集合中的任一长度等于所述预设长度阈值的情况下，确定所述目标词性为第二预设词性。

8.根据权利要求5所述的方法，其特征在于，所述对所述至少一个初始词性进行词性修正处理，获得所述目标词性，包括：
获取所述至少一个初始词性的类别数量；
在所述类别数量等于第一预设类别数量，并且，所述至少一个初始词性中包括第三预设词性的情况下，确定所述目标词性为所述第三预设词性。

9.根据权利要求8所述的方法，其特征在于，所述对所述至少一个初始词性进行词性修正处理，获得...

【专利技术属性】
技术研发人员：黄诗雅，罗睦军，朱栩，
申请(专利权)人：广州云趣信息科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人