语料识别方法、装置、终端设备和介质制造方法及图纸

技术编号:24207906 阅读:37 留言:0更新日期:2020-05-20 15:29
本申请实施例适用于信息技术领域,提供了一种语料识别方法、装置、终端设备和介质,所述方法包括:获取待识别的原始语料;采用多个自然语言理解NLU引擎对所述原始语料进行识别,分别获得与每个NLU引擎相对应的意图类别;根据所述每个NLU引擎的意图类别,确定所述原始语料的意图可信度;根据所述意图可信度对所述原始语料进行识别。本实施例可以按照领域或意图对外部NLU服务进行细粒度的可信度处理,实现对海量语料的识别,从而生成语料库。终端在基于上述语料库进行语料识别时,可以在有效提高服务召回率的同时,提高语料识别的准确率。上述方法可以广泛应用于人工智能等领域,特别是需要基于自然语言理解实现服务召回率的各种应用场景中。

Corpus recognition methods, devices, terminal devices and media

【技术实现步骤摘要】
语料识别方法、装置、终端设备和介质
本申请属于信息
,尤其涉及一种语料识别方法、装置、终端设备和介质。
技术介绍
召回率(RecallRatio)又被称作查全率,是指从数据库中检出的相关的信息量与总量的比率。在人工智能(ArtificialIntelligence,AI)等领域中,提升服务召回率有助于增强用户的服务体验。例如,用户在手机等终端上使用语音助手服务时,语音助手能否准确地理解用户所说的话,并完成相应的任务或返回相应的信息,极大地影响着用户的正常使用。目前,为了提升服务召回率,终端厂商选择在终端中同时接入多家具备自然语言理解(NaturalLanguageUnderstanding,NLU)能力的第三方内容提供商(ContentProvider,CP),由各家CP的NLU系统分别对用户输入的语料进行识别,然后再从中选择出一个结果返回给用户。但是,终端同时接入的多家CP的NLU系统的能力各有强弱,且每家CP对于不同领域或意图的定义并没有完全统一的标准,彼此之间很难准确地比较。另一方面,多个NLU系统的引入,虽然提升了召回率,本文档来自技高网...

【技术保护点】
1.一种语料识别方法,其特征在于,包括:/n获取待识别的原始语料;/n采用多个自然语言理解NLU引擎对所述原始语料进行识别,分别获得与每个NLU引擎相对应的意图类别;/n根据所述每个NLU引擎的意图类别,确定所述原始语料的意图可信度;/n根据所述意图可信度对所述原始语料进行识别。/n

【技术特征摘要】
1.一种语料识别方法,其特征在于,包括:
获取待识别的原始语料;
采用多个自然语言理解NLU引擎对所述原始语料进行识别,分别获得与每个NLU引擎相对应的意图类别;
根据所述每个NLU引擎的意图类别,确定所述原始语料的意图可信度;
根据所述意图可信度对所述原始语料进行识别。


2.根据权利要求1所述的方法,其特征在于,所述采用多个自然语言理解NLU引擎对所述原始语料进行识别,分别获得与每个NLU引擎相对应的意图类别,包括:
调用多个NLU引擎的处理接口;
分别将所述原始语料输入每个NLU引擎的处理接口,以指示所述每个NLU引擎对所述原始语料进行识别;
接收所述每个NLU引擎输出的意图类别。


3.根据权利要求1所述的方法,其特征在于,所述根据所述每个NLU引擎的意图类别,确定所述原始语料的意图可信度,包括:
确定所述每个NLU引擎的意图类别对应的意图评分,所述每个意图类别对应的意图评分通过采用所述每个NLU引擎对样本语料进行测试获得;
根据所述每个意图类别及其对应的意图评分,计算所述原始语料的意图可信度。


4.根据权利要求3所述的方法,其特征在于,所述根据所述每个意图类别及其对应的意图评分,计算所述原始语料的意图可信度,包括:
确定所述每个意图类别的权重值;
采用所述权重值,对所述每个意图类别对应的意图评分进行加权求和,获得所述原始语料的意图可信度。


5.根据权利要求1所述的方法,其特征在于,所述根据所述意图可信度对所述原始语料进行识别,包括:
若所述意图可信度大于或等于预设的可信度阈值,则将所述原始语料识别为有效语料;
若所述意图可信度小于所述可信度阈值,则将所述原始语料识别为无效语料。


6.根据权利要求5所述的方法,其特征在于,在将所述原始语料识别为无效语料之后,还包括:
判断所述无效语料对应的多个意图类别是否均为空;
若所述无效语料对应的多个意图类别均为空,则删除所述无效语料;
若所述无效语料对应的多个意图类别至少一个不为空,则根据所述意图类别将所述无效语料划分为多个语料类,并再次采用所述多个NLU引擎对每个语料类中的无效语料进行识别,若所述每个NLU引擎识别出的意图类别保持不变,则将所述语料类中的无效语料识别为有效语料。


7.根据权利要求5或6所述的方法,其特征在于,在将所述原始语料识别为有效语料之后,还包括:
获取所述有效语料的初始类别;
将所述有效语料、所述有效语料的初始类别以及所述每个NLU引擎识别出的意图类别关联存储至语料库。


8.根据权利要求7所述的方法,其特征在于,还包括:
根据已存储的多个有效语料的初始类别和意图类别,将所述多个有效语料划分为多个识别类;
统计每个识别类包含的有效语料的数量;
根据所述每个识别类包含的有效语料的数量,生成所述语料库的白名单。


9.根据权利要求8所述的方法,其特征在于,所述根据已存储的多个有效语料的初始类别和意图类别,将所述多个有效语料划分为多个识别类,包括:
将对应的初始类别和意图类别均相同的有效语料划分为同一识别类。


10.根据权利要求8所述的方法,其特征在于,所述根据所述每个识别类包含的有效语料的数量,生成所述语料库的白名单,包括:
根据所述每个识别类包含的有效语料的数量,对所述每个识别类进行排序;

【专利技术属性】
技术研发人员:刘志强李前国叶筠
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1