The invention relates to natural language processing technology, and provides a corpus intention prediction method. The method comprises the following steps: Based on the preprocessed samples, n prediction models are trained; based on each prediction model, n prediction results are obtained; based on the N prediction results matching preset rules, the corresponding prediction results are determined Intention information; wherein, the n is an odd number greater than or equal to 3; the preset rule includes: if there are the same prediction results among the N prediction results, and the same number is greater than N / 2, then it is determined that the same prediction result is the intention information corresponding to the corpus to be predicted. Based on the method provided in this embodiment, the intention prediction of the corpus is realized, and the prediction accuracy is improved, thus the repeated manual processing can be greatly reduced. In addition, the invention also provides a corpus annotation method and an electronic device.
【技术实现步骤摘要】
一种语料意图预测方法、语料标注方法及电子设备
本专利技术涉及自然语言处理技术,尤其涉及一种语料意图预测方法、语料标注方法及电子设备。
技术介绍
语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展,语料库也被广泛的应用。语料库有三点特征,语料库中存放的是在语言的实际使用中真实出现过的语言材料,例如直接从网页上获取的用户留言、客服对话等;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工,才能成为有用的资源,对真实语料的加工可包含除脏数据、语义标注、词性标记等,而在对语料进行标注时,往往需要主要靠人工对各个语料数据进行标注,由于语料数据中往往会包含大量的重复的语料数据,导致需要耗费大量人工在重复的语料标注上。以意图识别分类器的训练语料为例,通常在使用监督学习算法训练一个医美行业意图识别分类器时,需要大量标注好的语料。其中标注工作多数以人工标记为主,大多数情况下,语料事先没有做一些处理,会存在大量的重复数据,如果没有对这些重复数据进行过滤,一是影响标注效率,二是浪费人力。
技术实现思路
为了解决上述问题,本专利技术的实施例提供了一种语料意图预测方法,所述方法包含步骤:基于预处理后的样本,训练得到N个预测模型;分别基于各所述预测模型对待预测语料进行预测,得到N个预测结果;基于所述N个预测结果匹配预设规则,确定所述待 ...
【技术保护点】
1.一种语料意图预测方法,其特征在于,所述方法包含步骤:/n基于预处理后的样本,训练得到N个预测模型;/n分别基于各所述预测模型对待预测语料进行预测,得到N个预测结果;/n基于所述N个预测结果匹配预设规则,确定所述待预测语料对应的意图信息;/n其中,所述N为大于等于3的奇数;/n所述预设规则包含:/n若所述N个预测结果中存在相同预测结果,且相同的个数大于N/2,那么确定所述相同预测结果为所述待预测语料对应的意图信息。/n
【技术特征摘要】
1.一种语料意图预测方法,其特征在于,所述方法包含步骤:
基于预处理后的样本,训练得到N个预测模型;
分别基于各所述预测模型对待预测语料进行预测,得到N个预测结果;
基于所述N个预测结果匹配预设规则,确定所述待预测语料对应的意图信息;
其中,所述N为大于等于3的奇数;
所述预设规则包含:
若所述N个预测结果中存在相同预测结果,且相同的个数大于N/2,那么确定所述相同预测结果为所述待预测语料对应的意图信息。
2.如权利要求1所述的方法,其特征在于,所述样本的预处理方法包含:
收集初始语料数据;
基于正则表达式对所述初始语料数据进行意图识别;
选择N等份包含目标意图的所述初始语料数据;
对所述N等份初始语料数据进行分词,并文本向量化,得到N等份所述样本。
3.如权利要求2所述的方法,其特征在于,所述基于正则表达式对所述初始语料数据进行意图识别的方法,包括:
收集意图信息及对应的关键词;
基于所述目标意图和所述对应的关键词构建所述正则表达式。
4.如权利要求2所述的方法,其特征在于,所述选择N等份包含目标意图的所述初始语料数据的方法包含:
确定所有所述初始语料数据中包含的所述目标意图;
分别将包含相同目标意图的所述初始语料数据均分为N等份,分别从包含不同目标意图的所述初始语料数据中选择一份进行合并,得到所述...
【专利技术属性】
技术研发人员:陈鑫,肖龙源,蔡振华,李稀敏,刘晓葳,谭玉坤,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。