语句处理方法和装置、以及电子设备和可读存储介质制造方法及图纸

技术编号:25271567 阅读:54 留言:0更新日期:2020-08-14 23:04
本公开提供了一种语句处理方法,涉及深度学习和自然语言处理领域。该方法包括:获取请求语句;确定表示请求语句的词序列,词序列包括多个词;利用预定确定模型确定多个词中的每个词在请求语句中的重要度;根据每个词的重要度及所述词序列,生成针对请求语句的检索语句;以及根据检索语句,从信息池中确定针对请求语句的响应信息。本公开还提供了一种语句处理装置、一种电子设备以及一种计算机可读存储介质。

【技术实现步骤摘要】
语句处理方法和装置、以及电子设备和可读存储介质
本公开涉及深度学习和自然语言处理领域,更具体地,涉及一种语句处理方法和装置、以及电子设备和可读存储介质。
技术介绍
随着信息技术的发展,各领域的知识不断积累。当该些知识形成一定规模体系后,用户可以通过检索的方式来获取需求的信息。通过该方式,可以在一定程度上提高用户运用知识的效率,提高知识运用的传递速率。在实现本公开构思的过程中,专利技术人发现相关技术中至少存在以下技术问题:现有的知识搜索技术,往往先对搜索请求语句进行分词处理,然后将分词与通过倒排索引的方式查找的信息进行匹配度计算。该些知识搜索技术在查找信息的过程中,搜索请求语句分词后得到的各个分词的重要度相等,在信息源资源量较少时,会存在查找的信息缺少与重要分词匹配的信息,而存在较多与不重要分词匹配的信息的情况。这在一定程度上会降低查找得到的信息的准确性,从而降低用户体验,降低知识运用传递的效率。
技术实现思路
有鉴于此,本公开提供了一种能够提高信息检索准确性、提高知识运用传递效率的语句处理方法和装置、以及电子设备和可读存储介质。本公开的一个方面提供了一种语句处理方法,该方法包括:获取请求语句;确定表示请求语句的词序列,该词序列包括多个词;利用预定确定模型确定多个词中的每个词在请求语句中的重要度;根据每个词的重要度及词序列,生成针对请求语句的检索语句;以及根据检索语句,从信息池中确定针对请求语句的响应信息。可选地,利用预定确定模型确定每个词的重要度包括:根据每个词与请求语句的语义之间的关联度,向每个词分配用于指示重要度的权重;生成针对请求语句的检索语句包括:将向每个词分配的权重,作为每个词与信息池中的多个信息彼此之间第一相似度的相似度权重;以及将相似度权重添加至词序列中,得到检索语句。可选地,从信息池中确定针对请求语句的响应信息包括:根据相似度权重,确定检索语句与多个信息中每个信息之间的第二相似度;以及获取多个信息中与检索语句之间的第二相似度大于相似度阈值的信息,作为响应信息。可选地,利用预定确定模型确定每个词的重要度包括:根据每个词与请求语句的语义之间的关联度及每个词的属性,将多个词划分为具有不同重要度级别的至少两个词组;生成针对请求语句的检索语句包括:向词序列中的目标词添加标签,得到检索语句,目标词包括多个词中被划分至重要度级别最高的词组的词,其中,标签用于指示响应信息中包括目标词。可选地,从信息池中确定针对请求语句的响应信息包括:获取信息池包括的多个信息中包括目标词的信息,作为响应信息。可选地,上述语句处理方法还包括:获取历史请求语句以及针对历史请求语句的多个历史响应信息;根据预定规则,确定多个历史响应信息中的目标信息;确定表示历史请求语句的词序列,作为包括多个历史词的历史词序列;以及根据多个历史词分别在历史请求语句中的重要度以及多个历史词在目标信息中的重要度,确定是否更新预定确定模型。可选地,上述目标信息包括至少两个目标信息,至少两个目标信息包括与历史请求语句关联性较高的第一目标信息,以及与历史请求语句关联性较低的第二目标信息;确定是否更新所述预定确定模型包括:根据由预定确定模型确定的重要度自高至低,对多个历史词进行排序,得到第一排序结果;根据在第一目标信息中的词频自高至低,对多个历史词进行排序,得到第二排序结果;根据在第二目标信息中的词频自高至低,对多个历史词进行排序,得到第三排序结果;以及根据第一排序结果、第二排序结果以及第三排序结果,确定是否更新预定确定模型。可选地,确定是否更新预定确定模型包括:在第一排序结果与第二排序结果不一致,且第一排序结果与第三排序结果一致的情况下,确定更新预定确定模型,以使得与利用更新前的预定确定模型确定的重要度相比较,利用更新后的预定确定模型确定的第一历史词的重要度提高,且确定的第二历史词的重要度降低,其中,第一历史词为在第二排序结果中的次序比在第一排序结果中的次序靠前的历史词;第二历史词为在第二排序结果中的次序比在第一排序结果中的次序靠后的历史词。可选地,确定多个历史响应信息中的目标信息包括:向多个历史响应信息中的每个历史响应信息分配初始评估值;根据针对多个历史响应信息的操作记录,调整每个历史响应信息的初始评估值,以得到调整后评估值;以及根据每个历史响应信息的调整后评估值,确定多个历史响应信息中的目标信息。可选地,调整每个历史响应信息的评估值包括以下至少之一:根据多个历史响应信息的访问记录,将多个历史响应信息中被访问的时刻较早的历史响应信息的评估值提高第一数值,将多个历史响应信息中被访问的时刻最晚的历史响应信息的评估值提高第二数值,第二数值大于所述第一数值;根据多个历史响应信息的访问记录及多个历史响应信息的展示位置,提高多个历史响应信息中展示位置较后且被访问的历史响应信息的评估值;根据多个历史响应信息的访问记录,提高多个历史响应信息中被访问的时长较长的历史响应信息的评估值。可选地,确定多个历史响应信息中的目标信息还包括:根据多个历史响应信息的属性,调整每个历史响应信息的评估值,包括以下至少之一:根据多个历史响应信息的生成时刻,提高生成时刻较晚的历史响应信息的评估值;根据多个历史响应信息的信息源,提高信息源的置信度较高的历史响应信息的评估值。可选地,根据多个历史响应信息的属性,调整每个历史响应信息的评估值还包括:确定历史请求语句的意图信息;根据意图信息,确定提高生成时刻较晚的历史响应信息的评估值的步长;以及根据意图信息,确定提高信息源的置信度较高的历史响应信息的评估值的步长。可选地,预定确定模型包括字阶子模型和调整子模型;上述语句处理方法还包括:在确定更新预定确定模型的情况下,更新调整子模型。本公开的另一方面提供了一种语句处理装置,该装置包括:获取模块,用于获取请求语句;词序列确定模块,用于确定表示请求语句的词序列,词序列包括多个词;重要度确定模块,用于根据预定确定模型确定多个词中的每个词在请求语句中的重要度;检索语句生成模块,用于根据每个词的重要度及词序列,生成针对请求语句的检索语句;以及信息确定模块,用于根据检索语句,从信息池中确定针对请求语句的响应信息。本公开的另一方面提供了一种计算机系统,该计算机系统包括:一个或多个处理器;以及存储装置,用于存储一个或多个程序。其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行如上所述的语句处理方法。本公开的另一方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的语句处理方法。本公开的另一方面提供了一种计算机程序,该计算机程序包括计算机可执行指令,该指令在被执行时用于实现如上所述的语句处理方法。根据本公开的实施例,可以至少部分地避免相关技术中信息查找准确性低,存在匹配到与不重要的词相关的信息的技术缺陷。并因此通过确定表示请求语句的词序列中的每个词的重要度,可以使得从信息池中确定的响应信息与请求信息更匹配。提高查找得到的信息的准确性,提高本文档来自技高网...

【技术保护点】
1.一种语句处理方法,包括:/n获取请求语句;/n确定表示所述请求语句的词序列,所述词序列包括多个词;/n利用预定确定模型确定所述多个词中的每个词在所述请求语句中的重要度;/n根据所述每个词的重要度及所述词序列,生成针对所述请求语句的检索语句;以及/n根据所述检索语句,从信息池中确定针对所述请求语句的响应信息。/n

【技术特征摘要】
1.一种语句处理方法,包括:
获取请求语句;
确定表示所述请求语句的词序列,所述词序列包括多个词;
利用预定确定模型确定所述多个词中的每个词在所述请求语句中的重要度;
根据所述每个词的重要度及所述词序列,生成针对所述请求语句的检索语句;以及
根据所述检索语句,从信息池中确定针对所述请求语句的响应信息。


2.根据权利要求1所述的方法,其中:
利用所述预定确定模型确定所述每个词的重要度包括:
根据所述每个词与所述请求语句的语义之间的关联度,向所述每个词分配用于指示所述重要度的权重;
所述生成针对所述请求语句的检索语句包括:
将向所述每个词分配的权重,作为所述每个词与所述信息池中的多个信息彼此之间第一相似度的相似度权重;以及
将所述相似度权重添加至所述词序列中,得到所述检索语句。


3.根据权利要求2所述的方法,其中,从信息池中确定针对所述请求语句的响应信息包括:
根据所述相似度权重,确定所述检索语句与所述多个信息中每个信息之间的第二相似度;以及
获取所述多个信息中与所述检索语句之间的第二相似度大于相似度阈值的信息,作为所述响应信息。


4.根据权利要求1~3中任一项所述的方法,其中:
利用所述预定确定模型确定所述每个词的重要度包括:
根据所述每个词与所述请求语句的语义之间的关联度及所述每个词的属性,将所述多个词划分为具有不同重要度级别的至少两个词组;
所述生成针对所述请求语句的检索语句包括:
向所述词序列中的目标词添加标签,得到所述检索语句,所述目标词包括所述多个词中被划分至重要度级别最高的词组的词,
其中,所述标签用于指示所述响应信息中包括所述目标词。


5.根据权利要求4所述的方法,其中,从信息池中确定针对所述请求语句的响应信息包括:
获取所述信息池包括的多个信息中包括所述目标词的信息,作为所述响应信息。


6.根据权利要求1所述的方法,还包括:
获取历史请求语句以及针对所述历史请求语句的多个历史响应信息;
根据预定规则,确定所述多个历史响应信息中的目标信息;
确定表示所述历史请求语句的词序列,作为包括多个历史词的历史词序列;以及
根据所述多个历史词分别在所述历史请求语句中的重要度以及所述多个历史词在所述目标信息中的重要度,确定是否更新所述预定确定模型。


7.根据权利要求6所述的方法,其中,所述目标信息包括至少两个目标信息,所述至少两个目标信息包括与所述历史请求语句关联性较高的第一目标信息,以及与所述历史请求语句关联性较低的第二目标信息;
所述确定是否更新所述预定确定模型包括:
根据由所述预定确定模型确定的重要度自高至低,对所述多个历史词进行排序,得到第一排序结果;
根据在所述第一目标信息中的词频自高至低,对所述多个历史词进行排序,得到第二排序结果;
根据在所述第二目标信息中的词频自高至低,对所述多个历史词进行排序,得到第三排序结果;以及
根据所述第一排序结果、所述第二排序结果以及所述第三排序结果,确定是否更新所述预定确定模型。


8.根据权利要求7所述的方法,其中,确定是否更新所述预定确定模型包括:
在所述第一排序结果与所述第二排序结果不一致,且所述第一排序结果与所述第三排序结果一致的情况下,确定更新所述预定确定模型,以使得与利用更新...

【专利技术属性】
技术研发人员:徐焕旻何伯磊刘准和为李雅楠
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1