一种分词方法及其相关设备技术

技术编号:36609252 阅读:13 留言:0更新日期:2023-02-08 09:56
本申请实施例公开了一种分词方法及其相关设备,涉及自然语言处理领域。该方法包括获取分词策略,分词策略包括构词方式信息。根据构词方式信息,对已标注语料进行筛选,获得目标已标注语料。其中,每个目标已标注语料均携带有对应的标注信息。根据目标已标注语料对目标分词模型进行训练。利用训练后的目标分词模型对语言文本数据进行分词处理。利用上述方法,可以根据用户偏好的分词策略来获取目标分词模型,一方面可以减少标注语料资源的浪费,另一方面可以获得满足用户个性化需求的自定义分词模型,提高了分词效率。提高了分词效率。提高了分词效率。

【技术实现步骤摘要】
一种分词方法及其相关设备


[0001]本申请实施例涉及自然语言处理领域,尤其涉及一种分词方法及其相关设备。

技术介绍

[0002]随着信息技术的飞速发展,用户与互联网的交互将越来越频繁,互联网中也将充斥着大量的自然语言文本数据。若机器能够更好的理解自然语言,就可以提高自然语言文本数据的处理效率,进而帮助用户提供工作效率。而提高机器对自然语言的理解能力的关键就是挖掘自然语言文本数据中的有效信息。
[0003]分词技术是对自然语言进行处理的重要原子能力,是对自然语言文本数据中的信息进行有效建模的重要手段。分词旨在通过有监督学习的方式,将文本切分成最细粒度的语义单元——词汇,通过词汇组合的形式来表征文本的语义,帮助机器更好的发掘文本中蕴含的有效信息。现有的,业内一般是通过基于固定分词标准的分词模型来对自然语言文本数据进行分词,然后再利用分词后的自然语言文本数据完成具体的自然语言任务。
[0004]基于固定分词标准形成的固定分词模型,难以适配所有的自然语言处理场景,用户无法获得满足自身需求的分词模型,因此,如何获取基于用户自定义标准的分词模型,并利用该模型对自然语言文本进行分词处理成为亟需解决的问题。

技术实现思路

[0005]本申请实施例提供了一种分词方法,可以基于用户需求来自定义的分词模型,并根据该自定义分词模型来对自然语言文本进行分词处理。
[0006]本申请实施例的第一方面提供一种分词方法,包括:
[0007]首先获取用户输入的分词策略,该分词策略包括多种信息以反映用户的分词偏好。其中,构词方式信息用来表述用户所需求的构词方式,可以根据该构词方式信息,对标注语料库中海量的已标注语料进行筛选,获得符合用户所需构词方式的目标已标注语料。其中,每个目标已标注语料均携带有对应的标注信息。然后利用目标已标注语料对目标分词模型进行训练,得到满足用户需求的分词模型。最后,再利用训练后的目标分词模型对语言文本数据进行分词处理,以完成相应的自然语言分词任务。
[0008]上述分词方法,利用用户输入的分词策略来筛选已标注语料,得到符合用户需求的目标已标注语料,这样就可以减少标注语料的浪费。同时,利用目标已标注语料来训练目标分词模型,可以获得符合用户构词方式偏好的分词器,满足用户个性化需求,提高分词模型的灵活性,通过提高分词器性能来提高最终的分词效率。
[0009]在一种可选的实施方式中,分词策略中的构词方式信息包括分词粒度信息或者复合词拆分信息。其中,分词粒度信息用来指示分词后,得到的词汇中包含的字数。而复合词拆分信息用来形容复合词的拆分规则。通过上述两种信息的规定,能够更加精确的要求分词模型的性能,使得最终训练得到的目标分词模型能够更精准的对语言文本数据进行分词。
[0010]在一种可选的实施方式中,还可以根据用户输入的分词策略,选择理想的目标分词模型。具体的,通过对分词策略进行分析,获取分词模型的性能需求,然后才多个预置的分词模型中来选择理想的目标分词模型。其中,每个预置的分词模型,其模型复杂度不同。一般的,复杂度高的分词模型分词准确性高,但是训练难度大,运算速度慢。复杂度低的分词模型运行速度快,训练难度低,但是分词的准确性却不高。通过分词策略在多个预置分词模型中选择目标分词模型,可以满足用户的不同分词需求,以获得个性化分词方案。
[0011]在一种可选的实施方式中,分词策略还包括分词模式信息以及分词器性能信息。在对海量已标注语料筛选后,需要先确定筛选得到的目标已标注语料的数量,然后通过对目标已标注语料的数量,分词模式信息以及分词器性能信息的综合评估,来确定所需要的分词模型的模型复杂度信息,再根据该模型复杂度信息,在多个预置分词模型中选择一个分词模型来作为最后的目标分词模型。
[0012]通过对获取到的目标已标注语料的数量,分词模式信息以及分词器性能信息的综合评估,可以从不同方面来确定所选的目标分词模型的复杂程度。例如,目标已标注语料越多,所选的目标分词模型就可以更复杂一些,以提高最终获得的分词模型的分词准确性。而分词模式信息则会影响分词模型对应的分词算法。分词器性能更是可以确定所选目标分词模型的参数量、模型层数等。从三个方面考量所选的目标分词模型,可以获得更符合用户需求的分词模型,提高分词模型的性能。
[0013]在一种可选的实施方式中,分词模式信息包括单模式信息或者全模式信息。单模式信息要求将语言文本数据进行切分,即对字序列的基本切割,不允许字序列中包括的字重复造词。而全模式信息则是要求获取语言文本数据中所出现的所有词汇,字序列中包括的字可以重复造词。可以理解的,单模式信息对应的分词模型的模型复杂度信息小于全模式信息对应的分词模型的模型复杂度信息。
[0014]在一种可选的实施方式中,分词器性能信息包括处理速度要求以及准确度要求,它直接反映所需要的目标分词模型的性能。其中,处理速度要求越高,模型复杂度信息越低。而准确度要求越高,模型复杂度信息越高。
[0015]在一种可选的实施方式中,当选择好目标分词模型,利用目标已标注语料对其进行训练之前,可以根据分词粒度信息和构词方式信息,对目标分词模型进行初始化,调整目标分词模型的模型参数。这样,可以加快训练速度,使得目标分词模型迅速收敛,提高目标分词模型的训练效率。
[0016]在一种可选的实施方式中,获取分词策略的方式可以采用调查问卷的方式,具体的,可以先向用户发送调查问卷,该调查问卷可以包括多个问题,例如构词方式信息调查问题、分词粒度调查问题、分词模式调查问题和分词器性能调查问题等。用户通过填写调查文件的方式输入分词策略,传递自身的分词需求。
[0017]本申请实施例的第二方面提供一种分词装置,包括:
[0018]获取单元,用于获取分词策略,分词策略包括构词方式信息。
[0019]获取单元,还用于根据构词方式信息,对已标注语料进行筛选,获得目标已标注语料,其中,每个目标已标注语料均携带有对应的标注信息。
[0020]训练单元,用于根据目标已标注语料对目标分词模型进行训练。
[0021]处理单元,用于利用训练后的目标分词模型对语言文本数据进行分词处理。
[0022]在一种可选的实施方式中,构词方式信息包括分词粒度信息或复合词拆分信息,其中,分词粒度信息指示词汇的字数,复合词拆分信息指示复合词汇的拆分规则。
[0023]在一种可选的实施方式中,该装置还包括确定单元。确定单元,用于根据分词策略,从多个预置分词模型中确定目标分词模型,其中,每个预置分词模型的模型复杂度不同。
[0024]在一种可选的实施方式中,分词策略还包括分词模式信息和分词器性能信息。
[0025]确定单元,还用于确定目标已标注语料的数量。
[0026]确定单元,具体用于根据目标已标注语料的数量、分词模式信息和分词器性能信息,确定模型复杂度信息。根据模型复杂度信息,在多个预置分词模型中确定目标分词模型。
[0027]在一种可选的实施方式中,分词模式信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分词方法,其特征在于,所述分词方法包括:获取分词策略,所述分词策略包括构词方式信息;根据所述构词方式信息,对已标注语料进行筛选,获得目标已标注语料,其中,每个目标已标注语料均携带有对应的标注信息;根据所述目标已标注语料对目标分词模型进行训练;利用训练后的所述目标分词模型对语言文本数据进行分词处理。2.根据权利要求1所述的方法,其特征在于,所述构词方式信息包括分词粒度信息或复合词拆分信息,其中,所述分词粒度信息指示词汇的字数,所述复合词拆分信息指示复合词汇的拆分规则。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:根据所述分词策略,从多个预置分词模型中确定所述目标分词模型,其中,每个预置分词模型的模型复杂度不同。4.根据权利要求3所述的方法,其特征在于,所述分词策略还包括分词模式信息和分词器性能信息;在根据所述构词方式信息,对已标注语料进行筛选,获得目标已标注语料之后,所述方法还包括:确定所述目标已标注语料的数量;所述根据所述分词策略,从多个预置分词模型中确定所述目标分词模型,包括:根据所述目标已标注语料的数量、所述分词模式信息和所述分词器性能信息,确定模型复杂度信息;根据所述模型复杂度信息,在所述多个预置分词模型中确定所述目标分词模型。5.根据权利要求4所述的方法,其特征在于,所述分词模式信息包括单模式信息或全模式信息;所述单模式信息用于对所述语言文本数据进行词语切分操作;所述全模式信息用于确定所述语言文本数据中包括的所有词汇;其中,所述单模式信息对应的分词模型的模型复杂度信息小于所述全模式信息对应的分词模型的模型复杂度信息。6.根据权利要求4所述的方法,其特征在于,所述分词器性能信息包括处理速度要求和/或准确度要求;其中,所述处理速度要求越高,所述模型复杂度信息越低;所述准确度要求越高,所述模型复杂度信息越高。7.根据权利要求2至6任一项所述的方法,其特征在于,所述根据所述目标已标注语料对目标分词模型进行训练前,所述方法还包括:根据所述分词粒度信息和所述构词方式信息,调整所述目标分词模型的模型参数。8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:向用户发送调查问卷,所述调查问卷包括构词方式信息调查问题、分词粒度调查问题、分词模式调查问题和分词器性能调查问题中的至少一个;接收所述用户根据调查问卷输入的所述分词策略。9.一种分词装置,其特征在于,所述分词装置包括:获取单元,用于获取分词策略,所述分词策略包括构词方式信息;所述获取单元,还用于根据所述构词方式信息,对已标注语料进行筛选,获得目标已标...

【专利技术属性】
技术研发人员:陈珊珊王喆锋段新宇怀宝兴袁晶
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1