【技术实现步骤摘要】
语料识别方法、装置、终端设备和介质
本申请属于信息
,尤其涉及一种语料识别方法、装置、终端设备和介质。
技术介绍
召回率(RecallRatio)又被称作查全率,是指从数据库中检出的相关的信息量与总量的比率。在人工智能(ArtificialIntelligence,AI)等领域中,提升服务召回率有助于增强用户的服务体验。例如,用户在手机等终端上使用语音助手服务时,语音助手能否准确地理解用户所说的话,并完成相应的任务或返回相应的信息,极大地影响着用户的正常使用。目前,为了提升服务召回率,终端厂商选择在终端中同时接入多家具备自然语言理解(NaturalLanguageUnderstanding,NLU)能力的第三方内容提供商(ContentProvider,CP),由各家CP的NLU系统分别对用户输入的语料进行识别,然后再从中选择出一个结果返回给用户。但是,终端同时接入的多家CP的NLU系统的能力各有强弱,且每家CP对于不同领域或意图的定义并没有完全统一的标准,彼此之间很难准确地比较。另一方面,多个NLU系统的引入 ...
【技术保护点】
1.一种语料识别方法,其特征在于,包括:/n获取待识别的原始语料;/n采用多个自然语言理解NLU引擎对所述原始语料进行识别,分别获得与每个NLU引擎相对应的意图类别;/n根据所述每个NLU引擎的意图类别,确定所述原始语料的意图可信度;/n根据所述意图可信度对所述原始语料进行识别。/n
【技术特征摘要】 【专利技术属性】
1.一种语料识别方法,其特征在于,包括:
获取待识别的原始语料;
采用多个自然语言理解NLU引擎对所述原始语料进行识别,分别获得与每个NLU引擎相对应的意图类别;
根据所述每个NLU引擎的意图类别,确定所述原始语料的意图可信度;
根据所述意图可信度对所述原始语料进行识别。
2.根据权利要求1所述的方法,其特征在于,所述采用多个自然语言理解NLU引擎对所述原始语料进行识别,分别获得与每个NLU引擎相对应的意图类别,包括:
调用多个NLU引擎的处理接口;
分别将所述原始语料输入每个NLU引擎的处理接口,以指示所述每个NLU引擎对所述原始语料进行识别;
接收所述每个NLU引擎输出的意图类别。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个NLU引擎的意图类别,确定所述原始语料的意图可信度,包括:
确定所述每个NLU引擎的意图类别对应的意图评分,所述每个意图类别对应的意图评分通过采用所述每个NLU引擎对样本语料进行测试获得;
根据所述每个意图类别及其对应的意图评分,计算所述原始语料的意图可信度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述每个意图类别及其对应的意图评分,计算所述原始语料的意图可信度,包括:
确定所述每个意图类别的权重值;
采用所述权重值,对所述每个意图类别对应的意图评分进行加权求和,获得所述原始语料的意图可信度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述意图可信度对所述原始语料进行识别,包括:
若所述意图可信度大于或等于预设的可信度阈值,则将所述原始语料识别为有效语料;
若所述意图可信度小于所述可信度阈值,则将所述原始语料识别为无效语料。
6.根据权利要求5所述的方法,其特征在于,在将所述原始语料识别为无效语料之后,还包括:
判断所述无效语料对应的多个意图类别是否均为空;
若所述无效语料对应的多个意图类别均为空,则删除所述无效语料;
若所述无效语料对应的多个意图类别至少一个不为空,则根据所述意图类别将所述无效语料划分为多个语料类,并再次采用所述多个NLU引擎对每个语料类中的无效语料进行识别,若所述每个NLU引擎识别出的意图类别保持不变,则将所述语料类中的无效语料识别为有效语料。
7.根据权利要求5或6所述的方法,其特征在于,在将所述原始语料识别为有效语料之后,还包括:
获取所述有效语料的初始类别;
将所述有效语料、所述有效语料的初始类别以及所述每个NLU引擎识别出的意图类别关联存储至语料库。
8.根据权利要求7所述的方法,其特征在于,还包括:
根据已存储的多个有效语料的初始类别和意图类别,将所述多个有效语料划分为多个识别类;
统计每个识别类包含的有效语料的数量;
根据所述每个识别类包含的有效语料的数量,生成所述语料库的白名单。
9.根据权利要求8所述的方法,其特征在于,所述根据已存储的多个有效语料的初始类别和意图类别,将所述多个有效语料划分为多个识别类,包括:
将对应的初始类别和意图类别均相同的有效语料划分为同一识别类。
10.根据权利要求8所述的方法,其特征在于,所述根据所述每个识别类包含的有效语料的数量,生成所述语料库的白名单,包括:
根据所述每个识别类包含的有效语料的数量,对所述每个识别类进行排序;
技术研发人员:刘志强,李前国,叶筠,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。