意图识别方法、系统、装置及存储介质制造方法及图纸

技术编号：34725081 阅读：15 留言：0更新日期：2022-08-31 18:11

本公开涉及智能语义技术领域，提供了一种意图识别方法、系统、装置及存储介质。该方法包括：将意图模板中的实体的类型定义为与具体业务场景相应的实体类型名称；将意图模板中实体对应的位置用实体类型名称进行占位替代，占位替代后生成的意图模板为占位替代文本，将全部占位替代文本经过模型训练并进行编码，将全部占位替代文本经过编码后的向量存入到向量索引库中；接收到用户输入的文本后，通过命名实体的识别将文本中的相关实体替换为实体类型名称，并与用户输入文本同时在向量索引库中进行语义检索，将搜索到的经过排序后的用户意图结果返回给用户。本公开能够实现对通用意图的识别，提高了识别广度和精准度，架构简单，资源利用率高。利用率高。利用率高。

全部详细技术资料下载

【技术实现步骤摘要】
意图识别方法、系统、装置及存储介质

[0001]本公开涉及智能语义
，尤其涉及一种意图识别方法、系统、装置及存储介质。

技术介绍

[0002]在对话机器人(智能客服)的意图识别中，一些复杂的业务场景需要支持通用意图，即形如「XXX订单查询」这样的意图，其中「XXX」可替换为任意一种实体(比如京东、天猫、喜茶、沃尔玛等)，所有替换后的意图最终指向的都是同一个意图「订单查询」。
[0003]业界常见方案：1.对于一种通用意图，将其想要支持的实体都搭配以不同的话术，生成大量相似句，并配置在意图的同义句中；在进行意图识别时，将输入的意图与所有的意图及其同义句进行比对。这样做的缺点是：a)当一种意图对应的话术很多，实体也很多时，其同义句的组成会是前两者的笛卡尔积，如5种话术以及100种实体(比如商品名称)，总共会生成5*100＝500个同义句。这会带来非常大的存储资源消耗，并在进行意图识别时，巨幅增加检索和匹配的计算资源需求，降低系统性能；b)对于同一种实体类型，每一个相关的通用意图都需要把带实体的相似句配置一次，造成了极大的人力浪费；c)真实业务场景中，并不是每一个意图都是通用意图，如上所述的方案在模型训练时，会认为所有的实体都是同一含义，或者认为实体的真实含义不重要，导致丧失了对实体本身含义的捕捉能力，当不同实体对应不同意图，比如「京东客服电话是多少」和「天猫客服电话是多少」时，会认为两者的语义相同，导致识别错误。2.另一种常见做法是引入事先配置的意图模板，当用户输入和模板完全匹配时，直接给出模板对应的意图，...

【技术保护点】

【技术特征摘要】
1.一种意图识别方法，其特征在于，包括：在具体业务场景中，将意图模板中的实体的类型定义为与具体业务场景相应的实体类型名称，所述实体类型名称为实体的对象名称；将意图模板中实体对应的位置用所述与具体业务场景相应的实体类型名称进行占位替代，占位替代后生成占位替代文本，形成占位替代后的意图模板，将全部占位替代文本经过模型训练并进行编码，将全部占位替代文本经过编码后的向量存入到向量索引库中；接收到用户输入的文本后，通过命名实体的识别将文本中的相关实体替换为与具体业务场景相应的实体类型名称，将替换后的用户输入文本和替换前的用户输入文本同时在所述向量索引库中进行语义搜索，将搜索到的用户意图结果进行排序，将搜索到的经过排序后的用户意图结果返回给用户。2.根据权利要求1所述的意图识别方法，其特征在于，所述向量索引库包括elasticsearch，或者faiss。3.根据权利要求2所述的意图识别方法，其特征在于，将所述替换前的用户输入文本和所述替换后的用户输入文本同时在所述向量索引库中进行语义检索，分别计算所述替换前的用户输入文本和所述替换后的用户输入文本与向量索引库中所有的文本向量的余弦距离，该余弦距离用于表征意图识别的相似度，将搜索到的用户意图结果按照得分大小进行排序，将搜索到的经过排序后的用户意图结果结果返回给用户。4.根据权利要求2所述的意图识别方法，其特征在于，其特征在于，将所述替换前的用户输入文本和所述替换后的用户输入文本同时在所述向量索引库中进行语义检索，分别计算所述替换前的用户输入文本和所述替换后的用户输入文本与向量索引库中所有的文本向量的欧氏距离或者曼哈顿距离，该欧氏距离或者曼哈顿距离用于表征意图识别的相似度，将搜索到的用户意图结果按照得分大小进行排序，将搜索到的经过排...

【专利技术属性】
技术研发人员：武文杰，袁子涵，
申请(专利权)人：深圳集智数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人