【技术实现步骤摘要】
意图挖掘方法、装置、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种意图挖掘方法、装置、设备及存储介质。
技术介绍
当前,问答引擎机器人已经在国内运用于保险等多个金融领域。然而,搭建这样一个成熟覆盖面广的机器人系统却往往需要耗费很长时间。其中很重要的一个部分是对话系统中的问句语义理解或者说语义分类,而语义分类的前提就是意图挖掘。保险领域的意图挖掘耗费时间过长,主要是因为保险等金融领域有着较多的专业术语和专业领域的实体名词(例如保险名称,保险种类等)。这些专业词汇往往还有多种不同的缩写、常用表述、网络表述等等。可见,在如此数量庞大而不同于日常用语的词汇库,以及保险业务的多样化的现状下,单独搭建的意图挖掘方法已经不能直接使用其他开源的工具库和语料库来实现了。针对于上述问题,目前常用的意图挖掘方法是通过构建知识图谱,在知识图谱某些关键特征和节点上预先假定用户有这方面的疑问,而人为设定出用户意图。由于构建在知识图谱基础上,这种意图挖掘出来本身分类很清晰,但是这种方式与用户语境有一定的背离,往往截取片面信息来进 ...
【技术保护点】
1.一种意图挖掘方法,其特征在于,所述意图挖掘方法包括:/n从用户语料库中获取原始语料文本;/n通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合,其中,所述标注语段包括字序列和角色类型的标注;/n将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;/n对所述语段组进行概念的推导,得到所述语段组对应的概念;/n根据预设的意图构建规则,对所述语段组群的所有概念相互组合,获得与所述原始语料文本对应的概念组合,所述 ...
【技术特征摘要】
1.一种意图挖掘方法,其特征在于,所述意图挖掘方法包括:
从用户语料库中获取原始语料文本;
通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合,其中,所述标注语段包括字序列和角色类型的标注;
将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群;
对所述语段组进行概念的推导,得到所述语段组对应的概念;
根据预设的意图构建规则,对所述语段组群的所有概念相互组合,获得与所述原始语料文本对应的概念组合,所述意图构建规则为包括若干种意图对应的意图角色标注的组成结构的规则;
基于所述概念组合确定所述原始语料文本对应的用户意图。
2.根据权利要求1所述的意图挖掘方法,其特征在于,所述通过预设的意图角色标注模型对所述原始语料文本进行意图角色标注,并从标注后的原始语料文本中提取标注语段,得到标注语段集合包括:
利用分词算法对所述原始文本语料进行分词处理,得到字序列;
通过所述意图角色标注模型对所述字序列中的每个字进行意图角色的标注,得到标注后的原始语料文本;
筛选所述标注后的原始语料文本中具有相同的意图角色标注且字序为连续的字,组成标注语段,并将得到的多组标注语段作为标注语段集合。
3.根据权利要求1所述的意图挖掘方法,其特征在于,所述将所述标注语段集合中的各标注语段转化为标注词向量,并基于所述标注词向量将所述标注语段集合中语义相似的标注语段归为一类,得到包含至少两个语段组的语段组群包括:
将所述标注语段集合中的标注语段转化为词向量形式,获得对应的标注词向量;
计算标注语段对应的标注词向量之间的余弦距离,并根据所述余弦距离对每个所述角色类型下的标注语段进行聚类,得到聚类结果;
根据所述聚类结果,对各角色类型下的标注语段进行分组,得到包含至少两个语段组的语段组群,其中,所述语段组中包含多个含义类似的标注语段。
4.根据权利要求3所述的意图挖掘方法,其特征在于,所述计算标注语段对应的标注词向量之间的余弦距离,并根据所述余弦距离对每个所述角色类型下的标注语段进行聚类,得到聚类结果包括:
设定聚类个数为k个,在每个角色类型下随机选取k个标注语段作为初始聚类中心,其中,k为大于2的整数;
分别计算所述每个角色类型下的标注语段到每一个初始聚类中心的余弦距离;
将与初始聚类中心的余弦距离在预设阈值的误差范围内的标注语段划分为同一组群,得到第一聚类结果;
计算所述组群中标注词向量的均值向量,并根据所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;
若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则将所述...
【专利技术属性】
技术研发人员:马丹,勾震,曾增烽,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。