一种基于制造技术

技术编号:39502899 阅读:9 留言:0更新日期:2023-11-24 11:34
本发明专利技术涉及一种基于

【技术实现步骤摘要】
一种基于rasa框架的实体校正方法及存储介质


[0001]本申请涉及自然语言处理
,具体涉及一种基于
rasa
框架的实体校正方法及存储介质


技术介绍

[0002]随着人工智能的发展,智能问答机器人已经成为诸多领域的研究热点,利用自然语言处理技术理解用户问题,协助用户进行信息查询

数据分析

目前的问答系统可以分为面向任务

面向知识和面向聊天三类,其中面向任务和面向知识的问答系统都会涉及到实体提取,根据提取出的实体进行信息检索和数据分析,但在实际的使用场景中,因为各种原因用户可能会输入错误,包括错别字

个别字缺失

简称等,导致在知识库中无法准确检索相关信息,从而无法正确回答用户的问题

比如台风“莫兰蒂”,用户可能输成“莫兰迪”、“莫迪兰”、“莫兰帝”等等

[0003]Rasa
是一个开源的自然语言处理框架,用于构建聊天机器人和语音助手

它提供了一系列工具和库,可以帮助开发者构建自然语言处理模型,包括意图识别

实体提取

对话管理等功能
。Rasa
自带
EntitySynonymMapper
模块,可以通过设置同义词匹配,在一定程度上解决上述问题,但实际情况五花八门,难以穷举出所有情况

[0004]现有的实体校正技术主要包括以下几类
[0005](1)
基于规则的方法:通过制定一系列规则来校正实体,比如建立错字清单,但是这种方法需要大量的人工制定规则,且无法处理复杂的实体

[0006](2)
基于统计的方法:通过统计文本中实体的出现频率和上下文信息来识别和校正实体,但是这种方法对于低频实体和长尾实体效果不佳

[0007](3)
基于深度学习的方法:通过使用语言表示模型来自动学习实体的特征和上下文信息,通过查找最相似的词向量进行实体校正,这种方法可以处理较为复杂的实体,但是需要大量的训练数据和计算资源,实现起来成本较高,同时,因为主要依据是实体的语义特征,对错别字的校正可能存在偏差


技术实现思路

[0008]鉴于上述问题,本申请提供了一种基于
rasa
框架的实体校正方法及存储介质,解决现有的智能机器人中对于用户的输入进行实体校正中存在的基于规则的方法需要依赖于人工制定规则以及基于深度学习的方法的实现成本较高的问题

[0009]为实现上述目的,专利技术人提供了一种基于
rasa
框架的实体校正方法,包括以下步骤:
[0010]基于
rasa
框架,对用户的输入进行实体抽取,得到目标实体;
[0011]根据目标实体从知识库中搜索出所有相同类型的实体作为候选实体;
[0012]计算目标实体与候选实体之间的相似度;
[0013]将相似度超过预设值的候选实体中相似度最大的候选实体作为校正值

[0014]在一些实施例中,所述“计算目标实体与候选实体之间的相似度”具体包括以下步骤:
[0015]分别构建目标实体的特征向量和候选实体的特征向量;
[0016]通过余弦相似度衡量目标实体和候选实体的第一相似度

[0017]在一些实施例中,所述“分别构建目标实体的特征向量和候选实体的特征向量”具体包括以下步骤:
[0018]通过
TF

IDF
算法分别构建目标实体的特征向量和候选实体的特征向量

[0019]在一些实施例中,所述“计算目标实体与候选实体之间的相似度”还包括以下步骤:
[0020]计算目标实体和候选实体之间的编辑距离,得到目标实体和候选实体的第二相似度;
[0021]对目标实体和候选实体的第一相似度和第二相似度进行加权求和,得到目标实体和候选实体最终的相似度

[0022]在一些实施例中,所述“计算目标实体与候选实体之间的相似度”还包括以下步骤:
[0023]将目标实体及候选实体由中文字符串转换成拼音字符串,计算目标实体的拼音字符串与候选实体的拼音字符串之间的逻辑距离,得到目标实体和候选实体的第三相似度;
[0024]所述“对目标实体和候选实体的第一相似度和第二相似度进行加权求和,得到目标实体和候选实体最终的相似度”具体包括:
[0025]对目标实体和候选实体的第一相似度

第二相似度及第三相似度进行加权求和,得到目标实体和候选实体最终的相似度

[0026]在一些实施例中,所述编辑距离为
Levenshtein
距离

[0027]在一些实施例中,所述“计算目标实体与候选实体之间的相似度”之后包括以下步骤:
[0028]当目标实体与所有的候选实体之间的相似度均低于预设值时,则引导用户重新输入正确的实体名称

[0029]在一些实施例中,所述“引导用户重新输入正确的实体名称”具体包括以下步骤:
[0030]通过
Rasa core
的对话管理机制对用户进行确认或追问,引导用户重新输入正确的实体名称

[0031]在一些实施例中,所述“计算目标实体与候选实体之间的相似度”之前还包括以下步骤:
[0032]对目标实体及候选字体通过字符串进行按字分隔

[0033]还提供了另一个技术方案,一种存储介质,存储介质存储有计算机程序,所述计算机程序被处理器运行时执行如上述所述的基于
rasa
框架的实体校正方法中的步骤

[0034]区别于现有技术,上述技术方案,当用户输入文本信息时,通过基于
rasa
框架,对用户的输入进行实体抽取,得到目标实体,并根据目标实体从知识库中搜索出所有的相同类型的实体作为候选实体,然后计算目标实体与候选实体之间的相似度,将与目标实体的相似度超过预设值的候选实体中相似度最大的候选实体作为校正值,进行后续的查询和分析;无需手工设置错误清单,就可以处理未知的字词或者短语,不需要标注数据及进行复杂
的预训练过程,实现起来简单,能够更准确地识别和匹配用户的查询需求,减少人工干预的成本和工作量,从而提高了信息处理的效率和准确性

[0035]上述
技术实现思路
相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的

特征和优点能够更易于理解,以下结合本申请的具体实施方式及附图进行说明

附图说明
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
rasa
框架的实体校正方法,其特征在于,包括以下步骤:基于
rasa
框架,对用户的输入进行实体抽取,得到目标实体;根据目标实体从知识库中搜索出所有相同类型的实体作为候选实体;计算目标实体与候选实体之间的相似度;将相似度超过预设值的候选实体中相似度最大的候选实体作为校正值
。2.
根据权利要求1所述的基于
rasa
框架的实体校正方法,其特征在于,所述“计算目标实体与候选实体之间的相似度”具体包括以下步骤:分别构建目标实体的特征向量和候选实体的特征向量;通过余弦相似度衡量目标实体和候选实体的第一相似度
。3.
根据权利要求2所述的基于
rasa
框架的实体校正方法,其特征在于,所述“分别构建目标实体的特征向量和候选实体的特征向量”具体包括以下步骤:通过
TF

IDF
算法分别构建目标实体的特征向量和候选实体的特征向量
。4.
根据权利要求2所述的基于
rasa
框架的实体校正方法,其特征在于,所述“计算目标实体与候选实体之间的相似度”还包括以下步骤:计算目标实体和候选实体之间的编辑距离,得到目标实体和候选实体的第二相似度;对目标实体和候选实体的第一相似度和第二相似度进行加权求和,得到目标实体和候选实体最终的相似度
。5.
根据权利要求4所述的基于
rasa
框架的实体校正方法,其特征在于,所述“计算目标实体与候选实体之间的相似度”还包括以下步骤:将目标实体及候选实体由中文字符串转换成拼音字符串,计算目标实体的拼音字符串与候选实体...

【专利技术属性】
技术研发人员:戴诗琪林永清吴闽帆吴弘毅刘添强
申请(专利权)人:四创科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1