语料识别方法、装置、终端设备和介质制造方法及图纸

技术编号：24207906 阅读：37 留言：0更新日期：2020-05-20 15:29

本申请实施例适用于信息技术领域，提供了一种语料识别方法、装置、终端设备和介质，所述方法包括：获取待识别的原始语料；采用多个自然语言理解NLU引擎对所述原始语料进行识别，分别获得与每个NLU引擎相对应的意图类别；根据所述每个NLU引擎的意图类别，确定所述原始语料的意图可信度；根据所述意图可信度对所述原始语料进行识别。本实施例可以按照领域或意图对外部NLU服务进行细粒度的可信度处理，实现对海量语料的识别，从而生成语料库。终端在基于上述语料库进行语料识别时，可以在有效提高服务召回率的同时，提高语料识别的准确率。上述方法可以广泛应用于人工智能等领域，特别是需要基于自然语言理解实现服务召回率的各种应用场景中。

Corpus recognition methods, devices, terminal devices and media

全部详细技术资料下载

【技术实现步骤摘要】
语料识别方法、装置、终端设备和介质
本申请属于信息
，尤其涉及一种语料识别方法、装置、终端设备和介质。
技术介绍
召回率(RecallRatio)又被称作查全率，是指从数据库中检出的相关的信息量与总量的比率。在人工智能(ArtificialIntelligence，AI)等领域中，提升服务召回率有助于增强用户的服务体验。例如，用户在手机等终端上使用语音助手服务时，语音助手能否准确地理解用户所说的话，并完成相应的任务或返回相应的信息，极大地影响着用户的正常使用。目前，为了提升服务召回率，终端厂商选择在终端中同时接入多家具备自然语言理解(NaturalLanguageUnderstanding，NLU)能力的第三方内容提供商(ContentProvider，CP)，由各家CP的NLU系统分别对用户输入的语料进行识别，然后再从中选择出一个结果返回给用户。但是，终端同时接入的多家CP的NLU系统的能力各有强弱，且每家CP对于不同领域或意图的定义并没有完全统一的标准，彼此之间很难准确地比较。另一方面，多个NLU系统的引入...

【技术保护点】
1.一种语料识别方法，其特征在于，包括：/n获取待识别的原始语料；/n采用多个自然语言理解NLU引擎对所述原始语料进行识别，分别获得与每个NLU引擎相对应的意图类别；/n根据所述每个NLU引擎的意图类别，确定所述原始语料的意图可信度；/n根据所述意图可信度对所述原始语料进行识别。/n

【技术特征摘要】
1.一种语料识别方法，其特征在于，包括：
获取待识别的原始语料；
采用多个自然语言理解NLU引擎对所述原始语料进行识别，分别获得与每个NLU引擎相对应的意图类别；
根据所述每个NLU引擎的意图类别，确定所述原始语料的意图可信度；
根据所述意图可信度对所述原始语料进行识别。

2.根据权利要求1所述的方法，其特征在于，所述采用多个自然语言理解NLU引擎对所述原始语料进行识别，分别获得与每个NLU引擎相对应的意图类别，包括：
调用多个NLU引擎的处理接口；
分别将所述原始语料输入每个NLU引擎的处理接口，以指示所述每个NLU引擎对所述原始语料进行识别；
接收所述每个NLU引擎输出的意图类别。

3.根据权利要求1所述的方法，其特征在于，所述根据所述每个NLU引擎的意图类别，确定所述原始语料的意图可信度，包括：
确定所述每个NLU引擎的意图类别对应的意图评分，所述每个意图类别对应的意图评分通过采用所述每个NLU引擎对样本语料进行测试获得；
根据所述每个意图类别及其对应的意图评分，计算所述原始语料的意图可信度。

4.根据权利要求3所述的方法，其特征在于，所述根据所述每个意图类别及其对应的意图评分，计算所述原始语料的意图可信度，包括：
确定所述每个意图类别的权重值；
采用所述权重值，对所述每个意图类别对应的意图评分进行加权求和，获得所述原始语料的意图可信度。

5.根据权利要求1所述的方法，其特征在于，所述根据所述意图可信度对所述原始语料进行识别，包括：
若所述意图可信度大于或等于预设的可信度阈值，则将所述原始语料识别为有效语料；
若所述意图可信度小于所述可信度阈值，则将所述原始语料识别为无效语料。

6.根据权利要求5所述的方法，其特征在于，在将所述原始语料识别为无效语料之后，还包括：
判断所述无效语料对应的多个意图类别是否均为空；
若所述无效语料对应的多个意图类别均为空，则删除所述无效语料；
若所述无效语料对应的多个意图类别至少一个不为空，则根据所述意图类别将所述无效语料划分为多个语料类，并再次采用所述多个NLU引擎对每个语料类中的无效语料进行识别，若所述每个NLU引擎识别出的意图类别保持不变，则将所述语料类中的无效语料识别为有效语料。

7.根据权利要求5或6所述的方法，其特征在于，在将所述原始语料识别为有效语料之后，还包括：
获取所述有效语料的初始类别；
将所述有效语料、所述有效语料的初始类别以及所述每个NLU引擎识别出的意图类别关联存储至语料库。

8.根据权利要求7所述的方法，其特征在于，还包括：
根据已存储的多个有效语料的初始类别和意图类别，将所述多个有效语料划分为多个识别类；
统计每个识别类包含的有效语料的数量；
根据所述每个识别类包含的有效语料的数量，生成所述语料库的白名单。

9.根据权利要求8所述的方法，其特征在于，所述根据已存储的多个有效语料的初始类别和意图类别，将所述多个有效语料划分为多个识别类，包括：
将对应的初始类别和意图类别均相同的有效语料划分为同一识别类。

10.根据权利要求8所述的方法，其特征在于，所述根据所述每个识别类包含的有效语料的数量，生成所述语料库的白名单，包括：
根据所述每个识别类包含的有效语料的数量，对所述每个识别类进行排序；

【专利技术属性】
技术研发人员：刘志强，李前国，叶筠，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人