【技术实现步骤摘要】
【国外来华专利技术】用于自然语言处理的停用词数据扩充
[0001]优先权要求
[0002]本申请是于2019年9月16日提交的名称为“STOP WORD AUGMENTATION TOOL[停用词扩充工具]”的美国临时申请号62/901,203的非临时申请并且根据35U.S.C.119(e)要求所述美国临时申请的权益和优先权。出于所有目的,前述申请的全部内容通过援引以其全文并入本文。
[0003]本公开总体上涉及聊天机器人系统,并且更具体地涉及用于在自然语言处理中训练聊天机器人系统的停用词(stop word)数据扩充技术。
技术介绍
[0004]为了获得即时反应,世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而,雇用服务人员与客户或最终用户进行实时交流对于组织来说会是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话,尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI) ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在数据处理系统处接收话语训练集,所述话语训练集用于训练意图分类器以识别一个或多个话语的一个或多个意图;由所述数据处理系统用停用词扩充所述话语训练集,以生成针对与未解析意图相对应的未解析意图类别的扩充的域外话语训练集,其中,所述扩充包括:从所述话语训练集中选择一个或多个话语,以及针对每个所选话语,保留所述话语内的现有停用词,并将所述话语内的至少一个非停用词替换为从停用词列表中选择的停用词或停用词短语以生成域外话语;以及由所述数据处理系统使用所述话语训练集和所述扩充的域外话语训练集来训练所述意图分类器。2.如权利要求1所述的方法,其中,针对每个所选话语,保留所述话语内的现有停用词,并将所述话语内的所有非停用词替换为从所述停用词列表中选择的停用词或停用词短语。3.如权利要求1所述的方法,其中,针对每个所选话语,保留所述话语内的现有停用词,并将所述话语内的所述非停用词中的至少一个随机替换为从所述停用词列表中选择的停用词或停用词短语。4.如权利要求1所述的方法,其中,选择所述话语包括:在所述话语训练集内的所述话语的开头处搜索连续停用词,并选择所述话语训练集内的所述话语的开头处具有最长连续停用词的话语。5.如权利要求1所述的方法,其中,选择所述话语包括:在所述话语训练集内的所述话语中的任意位置搜索n个连续停用词,并选择在所述话语中的任意位置具有n个连续停用词的话语。6.如权利要求1所述的方法,其中,用所述停用词扩充所述话语训练集进一步包括:(i)从所述话语训练集中迭代地选择所述一个或多个话语并处理每个话语单次以基于预定义扩充比生成对应的单个域外话语,(ii)从所述话语训练集中选择所述一个或多个话语并处理所述一个或多个话语多次以基于所述预定义扩充比从每个话语生成多个域外话语,或(iii)其任何组合。7.如权利要求6所述的方法,其中,所述预定义扩充比在1:0.05至1:1之间(原始话语:扩充话语)。8.一种系统,包括:一个或多个数据处理器;以及包含指令的非暂态计算机可读存储介质,所述指令当在所述一个或多个数据处理器上执行时,使所述一个或多个数据处理器执行包括以下各项的动作:接收话语训练集,所述话语训练集用于训练意图分类器以识别一个或多个话语的一个或多个意图;用停用词扩充所述话语训练集,以生成针对与未解析意图相对应的未解析意图类别的扩充的域外话语训练集,其中,所述扩充包括:从所述话语训练集中选择一个或多个话语,以及针对每个所选话语,保留所述话语内的现有停用词,并将所述话语内的至少一个非停用词替换为从停用词列表中选择的停用词或停用词短语以生成域外话语;以及
使用所述话语训练集和所述扩充的域外话语训练集来训练所述意图分类器。9.如权利要求8所述的系统,其中,针对每个所选话语,保留所述话语内的现有停用词,并将所述话语内的所有非停用词替换为从所述停用词列表中选择的停用词或停用词短语。10.如权利要求8所述的系统,其中,针对每个所选话语,保留所述话语内的现有停用词,并将所述话语内的所述非停用词中的至少一个随机替换为从所述停用词列表中选择的停用词或停用词短语。11.如权利要求8所述的系统,其中,选择所述话语包括:在所述话语训练集内的所述话语的开头处搜索连续停用词,并选择所述话语训练集内的所述话语的开头处具有最长连续停用词的话语。12.如权利要求8所述的系统,其中,选择所述话语包括:在所述话语训练集内的所述话语中的任意位置搜索n个连续停用词,并选择在所述话语中的任意位置具有n个连续停用词的话语。13.如...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。