一种数据处理方法、装置、服务器及存储介质制造方法及图纸

技术编号：20363516 阅读：20 留言：0更新日期：2019-02-16 16:48

本发明专利技术公开了一种数据处理方法、装置、服务器及存储介质，所述方法包括：获取待识别语句数据；将所述待识别语句数据输入预设领域的意图识别模型进行意图识别，得到所述待识别语句数据具有所述预设领域的意图的概率；判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值；当判断的结果为是时，将所述待识别语句数据作为所述预设领域的待标注语句数据；其中，所述召回阈值为数据被召回的下限值，所述可出阈值为数据被召回的上限值。利用本发明专利技术实施例提供的技术方案可以减少对待识别语句数据进行人工标注识别的人力成本，有效提高处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置、服务器及存储介质
本专利技术涉及互联网通信
，尤其涉及一种数据处理方法、装置、服务器及存储介质。
技术介绍
智能问答系统是一种新型的信息服务系统，在知识处理、语义识别等功能的基础上能够分析用户意图，为用户解答问题。目前，智能问答系统在智能客服、智能家电等领域得到了广泛的应用，也受到了广大用户的喜爱。现有的智能问答系统进行问答处理过程中由于终端用户的表达千差万别，常常遇到系统不支持的语句。现有技术中往往导出所有不支持的语句进行人工标注，确定用户需要查询的语句的意图，进而确定相应的应答结果。但对大量的不支持的语句进行人工，需要大量的人力成本，处理效率低。因此，需要提供更高效的方案。
技术实现思路
本专利技术提供了一种数据处理方法、装置、服务器及存储介质，可以减少对待识别语句数据进行人工标注识别的人力成本，有效提高处理效率。第一方面，本专利技术提供了一种数据处理方法，所述方法包括：获取待识别语句数据；将所述待识别语句数据输入预设领域的意图识别模型进行意图识别，得到所述待识别语句数据具有所述预设领域的意图的概率；判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值；当判断的结果为是时，将所述待识别语句数据作为所述预设领域的待标注语句数据；其中，所述召回阈值为数据被召回的下限值，所述可出阈值为数据被召回的上限值。第二方面提供了一种数据处理装置，所述装置包括：语句数据模块，用于获取待识别语句数据；意图识别模块，用于将所述待识别语句数据输入预设领域的意图识别模型进行意图识别，得到所述待...

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：获取待识别语句数据；将所述待识别语句数据输入预设领域的意图识别模型进行意图识别，得到所述待识别语句数据具有所述预设领域的意图的概率；判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值；当判断的结果为是时，将所述待识别语句数据作为所述预设领域的待标注语句数据；其中，所述召回阈值为数据被召回的下限值，所述可出阈值为数据被召回的上限值。

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：获取待识别语句数据；将所述待识别语句数据输入预设领域的意图识别模型进行意图识别，得到所述待识别语句数据具有所述预设领域的意图的概率；判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值；当判断的结果为是时，将所述待识别语句数据作为所述预设领域的待标注语句数据；其中，所述召回阈值为数据被召回的下限值，所述可出阈值为数据被召回的上限值。2.根据权利要求1所述的方法，其特征在于，所述预设领域的可出阈值包括采用下述方式确定包括：获取预设领域的正例语料数据和反例语料数据；将所述正例语料数据和反例语料数据输入预设意图训练模型进行意图训练；在训练过程中调整所述预设意图训练模型中的阈值，记录每一阈值所对应的准确率和召回率数据；基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第一阈值，且准确率和召回率的调和平均最大的阈值；将所述准确率大于第一阈值，且准确率和召回率的调和平均最大的阈值作为所述预设领域的可出阈值。3.根据权利要求1所述的方法，其特征在于，所述预设领域的召回阈值包括采用下述方式确定包括：获取预设领域的正例语料数据和反例语料数据；将所述正例语料数据和反例语料数据输入预设意图训练模型进行意图训练；在训练过程中调整所述预设意图训练模型中的阈值，记录每一阈值所对应的准确率和召回率数据；基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第二阈值，且召回率最大的阈值；将所述准确率大于第二阈值，且召回率最大的阈值作为所述预设领域的召回阈值。4.根据权利要求1所述的方法，其特征在于，所述预设领域的意图识别模型包括采用下述方式确定：获取所述预设领域的语料数据；基于预设机器学习算法对所述预设领域的语料数据进行意图识别训练，得到所述预设领域的意图识别模型。5.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：当判断的结果为否时，判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的可出阈值；当判断出所述待识别语句数据具有所述预设领域的意图的概率大于等于预设领域的可出阈值时，将所述待识别语句数据标注为所述预设领域的正例语料数据。6.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：确定所述待标注语句数据的领域信息；对所述待标注语句数据进行所述领域信息所对应领域的意图识别处理，得到所述待标注语句数据在所述所对应领域的意图信息。7.一种数据处理装置，其特征在于，所述装置包括：语句数据模块，用于获取待识别语句数据；意图识别模块，用于将所述待识别语句数据输入预设领域的意图识别模型进行意图识别，得到所述待识别语句数据具有所述预设领域的意图的概率；第一判断模块，用于判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值；待标注语句数据确定模块，用于当所述第一判断模块判断的结果为是时，将所述待识别语句数据作为所述预设领域的待标注语句数...

【专利技术属性】
技术研发人员：王文斌，赵学敏，苏可，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人