信息查找方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:25479642 阅读:25 留言:0更新日期:2020-09-01 23:00
本申请实施例提供一种信息查找方法、装置、电子设备及可读存储介质,属于信息查找技术领域。该方法通过将业务咨询信息中对应的M个词组与预先建立的关键词索引表进行匹配,从而可以快速找到N个目标关键词对应的答复文档,在根据每个关键词与每个答复文档的匹配率从答复文档集中筛选获得与业务咨询信息匹配的至少一个目标答复文档,从而可以基于用户输入的业务咨询信息快速查找到对应的答复文档反馈给用户,以此提高了信息查找的效率。

【技术实现步骤摘要】
信息查找方法、装置、电子设备及可读存储介质
本申请涉及信息搜索
,具体而言,涉及一种信息查找方法、装置、电子设备及可读存储介质。
技术介绍
在智能客服系统中,一般是通过智能客服根据用户输入的咨询信息在数据库中查找相关的答复信息,然后将答复信息返回给用户。其中,目前进行相关答复信息查找的方式是将用户输入的咨询信息与数据库中的每个文本信息进行相关度匹配,最后获取相关度较大的一些文本信息作为答复信息反馈给用户,但是这种方式由于数据库中的数据量可能很大,所以,若要计算每个文本信息与咨询信息的相关度后才能获得最后反馈给用户的答复信息,显然会造成查找过程时间较长,导致反馈的效率较低。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种信息查找方法、装置、电子设备及可读存储介质,以提高信息查找效率。第一方面,本申请实施例提供了一种信息查找方法,所述方法包括:获取用户输入的业务咨询信息;提取所述业务咨询信息中的M个词组,M为大于等于2的整数;将每个词组与预先建立的关键词组索引表进行匹配,确定所述M个词组中有N个目标关键词在所述关键词组索引表中,N为小于等于M的正整数;基于预设关键词组与预设文档之间的对应关系,确定每个目标关键词对应的答复文档,获得包含每个目标关键词对应的答复文档的答复文档集;计算每个目标关键词与所述答复文档集中的每个答复文档之间的匹配率;基于每个目标关键词对应的匹配率,从所述答复文档集中筛选获得与所述业务咨询信息匹配的至少一个目标答复文档。在上述实现过程中,通过将业务咨询信息中对应的M个词组与预先建立的关键词索引表进行匹配,从而可以快速找到N个目标关键词对应的答复文档,在根据每个关键词与每个答复文档的匹配率从答复文档集中筛选获得与业务咨询信息匹配的至少一个目标答复文档,从而可以基于用户输入的业务咨询信息快速查找到对应的答复文档反馈给用户,以此提高了信息查找的效率。可选地,计算每个目标关键词与所述答复文档集中的每个答复文档之间的匹配率,包括:计算每个目标关键词与所述答复文档集中的每个答复文档的词频-逆向文件频率TF-IDF值,获得每个目标关键词对应的TF-IDF值。在上述实现过程中,将计算获得的TF-IDF值作为每个目标关键词与每个答复文档的匹配率,从而可以快速且准确获得对应的匹配率。可选地,基于每个目标关键词对应的匹配率,从所述答复文档集中筛选获得与所述业务咨询信息匹配的至少一个目标答复文档之后,还包括:基于每个目标关键词对应的TF-IDF值对所述至少一个目标答复文档进行排序,获得排序后的至少一个目标答复文档。在上述实现过程中,通过对至少一个目标答复文档进行排序,从而可以将与业务咨询信息匹配率高的目标答复文档排在前面,使得用户可以更加快速找到相要的答复信息。可选地,获得排序后的至少一个目标答复文档之后,还包括:利用学习排序模型LTR对所述至少一个目标答复文档进行再次排序,获得最终排序后的至少一个目标答复文档。可选地,利用学习排序模型LTR对所述至少一个目标答复文档进行再次排序,获得最终排序后的至少一个目标答复文档,包括:利用LTR模型中的评分函数对所述至少一个目标答复文档与所述业务咨询信息的相关度进行打分,获得每个目标答复文档的相关度得分;根据每个目标答复文档的相关度得分获得所述至少一个目标答复文档对应的不同排列组合的概率;基于所述不同排列组合对应的概率获得最终排序后的至少一个目标答复文档。在上述实现过程中,由于LTR模型是一种机器学习模型,其可以获得目标答复文档的不同排序组合,从中可选择与业务咨询信息最相关的排序组合,使得排在越前面的目标答复文档为与业务咨询信息最相关的答复文档,所以,通过LTR模型对至少一个目标答复文档进行再次排序,使得用户可以更加快速找到相要的答复信息。可选地,提取所述业务咨询信息中的M个词组,包括:对所述业务咨询信息进行分词处理,获得多个词组;对所述多个词组根据预设停留词表进行去停留词处理,获得M个词组。在上述实现过程中,通过对业务咨询信息进行分词处理,在进行去停留词处理,从而可以删除一些无用的停留词,使得在后续进行词组匹配时,可以减少数据匹配量。第二方面,本申请实施例提供了一种信息查找装置,所述装置包括:咨询信息获取模块,用于获取用户输入的业务咨询信息;词组提取模块,用于提取所述业务咨询信息中的M个词组,M为大于等于2的整数;匹配模块,用于将每个词组与预先建立的关键词组索引表进行匹配,确定所述M个词组中有N个目标关键词在所述关键词组索引表中,N为小于等于M的正整数;答复文档获取模块,用于基于预设关键词组与预设文档之间的对应关系,确定每个目标关键词对应的答复文档,获得包含每个目标关键词对应的答复文档的答复文档集;匹配率计算模块,用于计算每个目标关键词与所述答复文档集中的每个答复文档之间的匹配率;文档筛选模块,用于基于每个目标关键词对应的匹配率,从所述答复文档集中筛选获得与所述业务咨询信息匹配的至少一个目标答复文档。可选地,所述匹配率计算模块,具体用于计算每个目标关键词与所述答复文档集中的每个答复文档的词频-逆向文件频率TF-IDF值,获得每个目标关键词对应的TF-IDF值。可选地,所述装置还包括:排序模块,用于基于每个目标关键词对应的TF-IDF值对所述至少一个目标答复文档进行排序,获得排序后的至少一个目标答复文档。可选地,所述排序模块,还用于利用学习排序模型LTR对所述至少一个目标答复文档进行再次排序,获得最终排序后的至少一个目标答复文档。可选地,所述排序模块,还用于利用LTR模型中的评分函数对所述至少一个目标答复文档与所述业务咨询信息的相关度进行打分,获得每个目标答复文档的相关度得分;根据每个目标答复文档的相关度得分获得所述至少一个目标答复文档对应的不同排列组合的概率;基于所述不同排列组合对应的概率获得最终排序后的至少一个目标答复文档。可选地,所述词组提取模块,具体用于对所述业务咨询信息进行分词处理,获得多个词组;对所述多个词组根据预设停留词表进行去停留词处理,获得M个词组。第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对本文档来自技高网...

【技术保护点】
1.一种信息查找方法,其特征在于,所述方法包括:/n获取用户输入的业务咨询信息;/n提取所述业务咨询信息中的M个词组,M为大于等于2的整数;/n将每个词组与预先建立的关键词组索引表进行匹配,确定所述M个词组中有N个目标关键词在所述关键词组索引表中,N为小于等于M的正整数;/n基于预设关键词组与预设文档之间的对应关系,确定每个目标关键词对应的答复文档,获得包含每个目标关键词对应的答复文档的答复文档集;/n计算每个目标关键词与所述答复文档集中的每个答复文档之间的匹配率;/n基于每个目标关键词对应的匹配率,从所述答复文档集中筛选获得与所述业务咨询信息匹配的至少一个目标答复文档。/n

【技术特征摘要】
1.一种信息查找方法,其特征在于,所述方法包括:
获取用户输入的业务咨询信息;
提取所述业务咨询信息中的M个词组,M为大于等于2的整数;
将每个词组与预先建立的关键词组索引表进行匹配,确定所述M个词组中有N个目标关键词在所述关键词组索引表中,N为小于等于M的正整数;
基于预设关键词组与预设文档之间的对应关系,确定每个目标关键词对应的答复文档,获得包含每个目标关键词对应的答复文档的答复文档集;
计算每个目标关键词与所述答复文档集中的每个答复文档之间的匹配率;
基于每个目标关键词对应的匹配率,从所述答复文档集中筛选获得与所述业务咨询信息匹配的至少一个目标答复文档。


2.根据权利要求1所述的方法,其特征在于,计算每个目标关键词与所述答复文档集中的每个答复文档之间的匹配率,包括:
计算每个目标关键词与所述答复文档集中的每个答复文档的词频-逆向文件频率TF-IDF值,获得每个目标关键词对应的TF-IDF值。


3.根据权利要求2所述的方法,其特征在于,基于每个目标关键词对应的匹配率,从所述答复文档集中筛选获得与所述业务咨询信息匹配的至少一个目标答复文档之后,还包括:
基于每个目标关键词对应的TF-IDF值对所述至少一个目标答复文档进行排序,获得排序后的至少一个目标答复文档。


4.根据权利要求3所述的方法,其特征在于,获得排序后的至少一个目标答复文档之后,还包括:
利用学习排序模型LTR对所述至少一个目标答复文档进行再次排序,获得最终排序后的至少一个目标答复文档。


5.根据权利要求4所述的方法,其特征在于,利用学习排序模型LTR对所述至少一个目标答复文档进行再次排序,获得最终排序后的至少一个目标答复文档,包括:
利用LTR模型中的评分函数对所述至少一个目标答复文档与所述业务咨询信息的相关度进行打分,获得每个目标答复文档的相关度得分;
根据每个目标答复文档的相关度得分获得所述至少一个目标答复文档对应的不同排列组合的概率;
基于所述不同排列组合对应的概率获得最终排序后的至少一个目标答复文档。


6.根据权利要求1-5任一权项所述的方法,其特征在于,提取所述业务咨询信息中的M个词组,包括:
对所述业务咨询信息进行分词处理,获得多个词组;
对所述多个词组根据预设停留词表进行去停留词处理,获得M个词组。


7.一种信息查找装置,其特征在于,所述装置包括:
咨询信息获取...

【专利技术属性】
技术研发人员:柳俊宏王鹏刘纯一薛艳云李奘
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1