一种语料意图预测方法、语料标注方法及电子设备技术

技术编号:22565706 阅读:61 留言:0更新日期:2019-11-16 12:17
本发明专利技术涉及自然语言处理技术,提供了一种语料意图预测方法,所述方法包含步骤:基于预处理后的样本,训练得到N个预测模型;分别基于各所述预测模型对待预测语料进行预测,得到N个预测结果;基于所述N个预测结果匹配预设规则,确定所述待预测语料对应的意图信息;其中,所述N为大于等于3的奇数;所述预设规则包含:若所述N个预测结果中存在相同预测结果,且相同的个数大于N/2,那么确定所述相同预测结果为所述待预测语料对应的意图信息。基于本实施例所提供的方法,实现对语料的意图预测,并提升了预测准确度,从而可大幅度的减少重复的人工处理工作。此外,本发明专利技术还提供了一种语料标注方法和电子设备。

A prediction method of corpus intention, corpus annotation method and electronic equipment

The invention relates to natural language processing technology, and provides a corpus intention prediction method. The method comprises the following steps: Based on the preprocessed samples, n prediction models are trained; based on each prediction model, n prediction results are obtained; based on the N prediction results matching preset rules, the corresponding prediction results are determined Intention information; wherein, the n is an odd number greater than or equal to 3; the preset rule includes: if there are the same prediction results among the N prediction results, and the same number is greater than N / 2, then it is determined that the same prediction result is the intention information corresponding to the corpus to be predicted. Based on the method provided in this embodiment, the intention prediction of the corpus is realized, and the prediction accuracy is improved, thus the repeated manual processing can be greatly reduced. In addition, the invention also provides a corpus annotation method and an electronic device.

【技术实现步骤摘要】
一种语料意图预测方法、语料标注方法及电子设备
本专利技术涉及自然语言处理技术,尤其涉及一种语料意图预测方法、语料标注方法及电子设备。
技术介绍
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展,语料库也被广泛的应用。语料库有三点特征,语料库中存放的是在语言的实际使用中真实出现过的语言材料,例如直接从网页上获取的用户留言、客服对话等;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工,才能成为有用的资源,对真实语料的加工可包含除脏数据、语义标注、词性标记等,而在对语料进行标注时,往往需要主要靠人工对各个语料数据进行标注,由于语料数据中往往会包含大量的重复的语料数据,导致需要耗费大量人工在重复的语料标注上。以意图识别分类器的训练语料为例,通常在使用监督学习算法训练一个医美行业意图识别分类器时,需要大量标注好的语料。其中标注工作多数以人工标记为主,大多数情况下,语料事先没有做一些处理,会存在大量的重复数据,如果没有对这些重复数据进行过滤,一是影响标注效率,二是浪费人力。
技术实现思路
为了解决上述问题,本专利技术的实施例提供了一种语料意图预测方法,所述方法包含步骤:基于预处理后的样本,训练得到N个预测模型;分别基于各所述预测模型对待预测语料进行预测,得到N个预测结果;基于所述N个预测结果匹配预设规则,确定所述待预测语料对应的意图信息;其中,所述N为大于等于3的奇数;所述预设规则包含:若所述N个预测结果中存在相同预测结果,且相同的个数大于N/2,那么确定所述相同预测结果为所述待预测语料对应的意图信息。在一实施中,所述样本的预处理方法包含:收集初始语料数据;基于正则表达式对所述初始语料数据进行意图识别;选择N等份包含目标意图的所述初始语料数据;对所述N等份初始语料数据进行分词,并文本向量化,得到N等份所述样本。在一实施中,所述基于正则表达式对所述初始语料数据进行意图识别的方法,包括:收集意图信息及对应的关键词;基于所述目标意图和所述对应的关键词构建所述正则表达式。在一实施中,所述选择N等份包含目标意图的所述初始语料数据的方法包含:确定所有所述初始语料数据中包含的所述目标意图;分别将包含相同目标意图的所述初始语料数据均分为N等份,分别从包含不同目标意图的所述初始语料数据中选择一份进行合并,得到所述N等份包含目标意图的所述初始语料数据。在一实施中,所述基于预处理后的样本,训练得到N个预测模型进行训练的方法包含:基于不同的算法构建N个初始预测模型;分别基于所述预处理后的样本对各个所述初始预测模型进行训练,得到所述N个预测模型。在一实施中,所述方法更包含步骤:周期性的对各所述预测模型进行迭代训练;当各所述预测模型的准确率超过预设阈值时,可退出迭代训练;其中,若所述相同的个数小于N/2,则记录所述样本及所述样本对应的进行人工识别结果,作为各所述预测模型的迭代样本;若所述相同的个数大于N/2,则记录所述样本及所述相同的预测结果,作为所述预测结果不同的所述预测模型的迭代样本。由此可见,通过本专利技术提供的语料意图预测方法可实现对语料数据的自动预测,已获得对应的意图信息,从而节省人工成本,提升数据处理效率。本专利技术所提供的语料意图预测方法可基于N个预测模型对待预测语料进行预测,并基于预测结果通过投票制来确定待预测语料的意图信息,以提升预测结果的准确性。更进一步的,在构建N个预测模型的过程中,不仅选用了不同的算法来进行初始预测模型的构建,更是对训练样本也进行了预处理,以保证了样本的均衡性,从而提升预测结果的准确性。同时,通过周期性的迭代,可不断提升预测模型的预测精度,不仅可保证预测结果的准确性,还可适应预测语料的扩展需求。此外,本专利技术还提供一种语料标注方法,所述方法包含步骤:基于上述语料意图预测方法,对所述原始语料进行意图预测,获得所述意图信息;基于所述意图信息对所述待处理语料进行标注。从而为人工标注提供辅助参考。本专利技术另提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述语料意图预测方法。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1绘示本专利技术第一实施例所提供的语料意图预测方法流程图;图2绘示本专利技术第一实施例中的样本预处理方法流程图。具体实施方式为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。本专利技术所提供的第一实施例为一种语料意图预测方法,以下将结合图示对所述方法进行详细说明。请参照图1,图1绘示本专利技术第一实施例所提供的语料意图预测方法流程图。如图1所示,本专利技术所提供的语料预处理的方法包含以下步骤:步骤101,基于预处理后的样本,训练得到N个预测模型。本专利技术实施例主要是依赖于多个预测模型来实现意图识别,其中N为大于等于3的奇数,在预测模型的构建过程中,训练样本的获取可基于图2所示的方法,图2绘示本专利技术第一实施例中的样本预处理方法流程图。如图2所示,所述样本的预处理方法可包含以下步骤:步骤201,收集初始语料数据。其中,语料数据可从网络、业务数据库等途径获得,优选的,可基于实际应用的需求,选则应用场景相关的语料数据作为初始语料数据,在获得初始语料数据后,可先对其进行筛选、清洗等操作,以过滤无效的数据,本专利技术的实施例并不对数据清洗的具体的处理方式任何限定,故不再赘述。步骤202,基于正则表达式对所述初始语料数据进行意图识别。由于初始语料数据中,可能包含非目的数据,即不包含目标意图信息的数据。具体而言,在实际的应用场景中,有效的意图信息是有限的,所谓有效是指机器可对其进行处理的,故在对初始语料数据进行意图识别时,可基于正则表达式来实现。其中,所述正则表达式的构建方法可包括:收集意图信息及对应的关键词,基于目标意图和所述对应的关键词构建所述正则表达式。举例而言,本文档来自技高网...

【技术保护点】
1.一种语料意图预测方法,其特征在于,所述方法包含步骤:/n基于预处理后的样本,训练得到N个预测模型;/n分别基于各所述预测模型对待预测语料进行预测,得到N个预测结果;/n基于所述N个预测结果匹配预设规则,确定所述待预测语料对应的意图信息;/n其中,所述N为大于等于3的奇数;/n所述预设规则包含:/n若所述N个预测结果中存在相同预测结果,且相同的个数大于N/2,那么确定所述相同预测结果为所述待预测语料对应的意图信息。/n

【技术特征摘要】
1.一种语料意图预测方法,其特征在于,所述方法包含步骤:
基于预处理后的样本,训练得到N个预测模型;
分别基于各所述预测模型对待预测语料进行预测,得到N个预测结果;
基于所述N个预测结果匹配预设规则,确定所述待预测语料对应的意图信息;
其中,所述N为大于等于3的奇数;
所述预设规则包含:
若所述N个预测结果中存在相同预测结果,且相同的个数大于N/2,那么确定所述相同预测结果为所述待预测语料对应的意图信息。


2.如权利要求1所述的方法,其特征在于,所述样本的预处理方法包含:
收集初始语料数据;
基于正则表达式对所述初始语料数据进行意图识别;
选择N等份包含目标意图的所述初始语料数据;
对所述N等份初始语料数据进行分词,并文本向量化,得到N等份所述样本。


3.如权利要求2所述的方法,其特征在于,所述基于正则表达式对所述初始语料数据进行意图识别的方法,包括:
收集意图信息及对应的关键词;
基于所述目标意图和所述对应的关键词构建所述正则表达式。


4.如权利要求2所述的方法,其特征在于,所述选择N等份包含目标意图的所述初始语料数据的方法包含:
确定所有所述初始语料数据中包含的所述目标意图;
分别将包含相同目标意图的所述初始语料数据均分为N等份,分别从包含不同目标意图的所述初始语料数据中选择一份进行合并,得到所述...

【专利技术属性】
技术研发人员:陈鑫肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1