同义句的获取方法及装置、设备及存储介质制造方法及图纸

技术编号:25440272 阅读:16 留言:0更新日期:2020-08-28 22:28
本发明专利技术实施例公开了一种同义句的获取方法及装置、设备及存储介质。所述方法包括:获取待处理语句;将待处理语句输入翻译模型,得到待处理语句的同义句,其中,翻译模型由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练而获得。本发明专利技术实施例的技术方案解决了现有技术中同义句的确定过程较为繁琐,且浪费了大量的人力的技术缺陷,实现了在不通过人工挖掘同义词对的基础上,简便、准确及快捷地获取语句的同义句。

【技术实现步骤摘要】
同义句的获取方法及装置、设备及存储介质
本专利技术实施例涉及自然语言处理技术,尤其涉及一种同义句的获取方法及装置、设备及存储介质。
技术介绍
自然语言处理是研究人与计算机交互的语言问题的一门学科,处理自然语言的关键是要让计算机“理解”自然语言。问答系统应用了自然语言处理技术,其是信息检索技术的一种高级形式,它能用准确、简洁的自然语言回答用户的自然语言问题。问答系统在接收到用户输入的问题之后,一般会先获取该问题的同义句,然后再根据该问题及其同义句,到数据库中搜索匹配的答案。现有技术中,同义句一般是通过同义词替换以及语言模型获取的。首先,需要通过人工挖掘大量的同义词对,然后根据同义词对,将问题中的一个或多个词语替换为对应的同义词,再使用语言模型获取同义词替换后的各语句的置信度,最后根据置信度确定问题的同义句。专利技术人在实现本专利技术的过程中,发现现有技术存在如下缺陷:同义句的确定过程较为繁琐,且浪费了大量的人力。
技术实现思路
有鉴于此,本专利技术实施例提供了一种同义句的获取方法及装置、设备及存储介质,以实现在不通过人工挖掘同义词对的基础上,简便、准确及快捷地获取语句的同义句。第一方面,本专利技术实施例提供了一种同义句的获取方法,包括:获取待处理语句;将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。第二方面,本专利技术实施例提供了一种同义句的获取装置,包括:语句获取模块,用于获取待处理语句;同义句获取模块,用于将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。第三方面,本专利技术实施例提供了一种设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的同义句的获取方法。第四方面,本专利技术实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本专利技术任意实施例所述的同义句的获取方法。本专利技术实施例提供了一种同义句的获取方法及装置、设备及存储介质,通过使用由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练翻译模型进行训练,并使用训练得到的翻译模型获取语句的同义句,解决了现有技术中同义句的确定过程较为繁琐,且浪费了大量的人力的技术缺陷,实现了在不通过人工挖掘同义词对的基础上,简便、准确及快捷地获取语句的同义句。附图说明图1是本专利技术实施例一提供的一种同义句的获取方法的流程图;图2是本专利技术实施例二提供的一种同义句的获取装置的结构图;图3是本专利技术实施例三提供的一种设备的结构图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种同义句的获取方法的流程图,该方法可以由同义句的获取装置来执行,该装置可以通过软件和/或硬件实现,该装置可集成在服务器等设备中。如图1所示,该方法具体包括如下步骤:S110、获取待处理语句。在本实施例中,待处理语句的获取方式具体可以是通过键盘、手写板等输入设备获取待处理语句,还可以是通过语音获取设备获取语音信息后,再将语音信息转换为文字得到待处理语句,还可以是通过获取包括有待处理语句的图像,然后通过文字识别技术获取待处理语句等,本实施例对比不进行限制。S120、将待处理语句输入翻译模型,得到待处理语句的同义句,其中,翻译模型由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练而获得。在本实施例中,待处理语句的同义句是通过翻译模型获取的。该翻译模型是由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本训练得到的。其中,翻译模型典型的可以是PointerNetworks网络等。具体来说,用户输入的搜索内容具体可以是用户在搜索引擎中输入的待搜索的内容,具体可以是一句话,也可以是一个词组,还可以是一个单词等,本实施例对此不进行限制。但是,为了使训练得到的翻译模型输出的同义句更加准确,训练样本对中的用户输入的搜索内容应尽量多地选取语句。进一步地,搜索结果具体是指用户通过搜索引擎等具有搜索功能的工具对搜索内容进行搜索之后,得到的搜索结果。在本实施例中,并不是将所有的搜索结果都添加至训练样本对,而是将用户选取的搜索结果(即用户进行查看的搜索结果)的标题作为训练样本,如此可以保证训练样本的正确性和有效性。搜索结果的标题具体是指在搜索结果页面中的各搜索结果的标题。进一步地,一个训练样本对由一个搜索内容以及用户选取的该搜索内容的一个搜索结果的标题组成。同一个搜索内容可以与用户选取的N各搜索结果的标题组成N个训练样本对。本专利技术实施例提供了一种同义句的获取方法,通过使用由用户输入的搜索内容以及用户选取的搜索结果的标题所组成的训练样本对训练翻译模型进行训练,并使用训练得到的翻译模型获取语句的同义句,解决了现有技术中同义句的确定过程较为繁琐,且浪费了大量的人力的技术缺陷,实现了在不通过人工挖掘同义词对的基础上,简便、准确及快捷地获取语句的同义句。在上述各实施例的基础上,将翻译模型的训练过程,具体化为,包括:获取训练样本对;将训练样本对中的搜索内容作为输入,标题作为输出,对翻译模型进行训练,或将训练样本对中的标题作为输入,搜索内容作为输出,对翻译模型进行训练。在本实施例中,可以按照下述两种方式对翻译模型进行训练:第一种,将一个训练样本对中的搜索内容作为输入,将该训练样本对中的标题作为输出,对翻译模型训练;第二种,将一个训练样本对中的标题作为输入,将该训练样本对中的搜索内容作为输出,对翻译模型进行训练。这样设置的好处是:使得翻译模型的训练方式更加灵活多样。在上述各实施例的基础上,将获取所述训练样本对,具体化为,包括:获取用户输入的搜索内容,以及用户选取的各搜索结果的标题;从用户选取的各搜索结果的标题中,选取与搜索内容相匹配的标题,作为相似标题;将搜索内容以及一个相似标题作为一个训练样本对。首先,在本实施例中,并不是将搜索内容对应的所有的搜索结果的标题都添加至训练样本对,而是仅将用户选取的搜索结果的标题添加至训练样本对。可以理解的是,搜索结果中可能会存在与搜索内容的匹配度较低的搜索结果。因此,如果将所有搜索结果都添加至训练样本对,那么可能会降低训练样本的正确性。因此,在本实施例中,添加至训练样本对的标题是用户选取的搜索结果的标题(一般来说,用户选取的搜索结果的标题与搜本文档来自技高网...

【技术保护点】
1.一种同义句的获取方法,其特征在于,包括:/n获取待处理语句;/n将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。/n

【技术特征摘要】
1.一种同义句的获取方法,其特征在于,包括:
获取待处理语句;
将所述待处理语句输入翻译模型,得到所述待处理语句的同义句,其中,所述翻译模型由用户输入的搜索内容以及所述用户选取的搜索结果的标题所组成的训练样本对训练而获得。


2.根据权利要求1所述的方法,其特征在于,所述翻译模型的训练过程包括:
获取所述训练样本对;
将所述训练样本对中的所述搜索内容作为输入,所述标题作为输出,对所述翻译模型进行训练,或
将所述训练样本对中的所述标题作为输入,所述搜索内容作为输出,对所述翻译模型进行训练。


3.根据权利要求2所述的方法,其特征在于,获取所述训练样本对,包括:
获取用户输入的搜索内容,以及所述用户选取的各搜索结果的标题;
从所述用户选取的各搜索结果的标题中,选取与所述搜索内容相匹配的标题,作为相似标题;
将所述搜索内容以及所述一个相似标题作为一个训练样本对。


4.根据权利要求3所述的方法,其特征在于,从所述用户选取的各搜索结果的标题中,选取与所述搜索内容相匹配的标题,作为相似标题,具体包括:
从所述用户选取的各搜索结果的标题中,选取与所述搜索内容的匹配字符数量大于设定数量阈值,和/或语义相似度大于设定相似度阈值的标题,作为相似标题。


5.根据权利要求1-4中任一项所述的方法,其特征在于,所述翻译模型的训练过程包括:
...

【专利技术属性】
技术研发人员:刘剑甘露卜建辉吴伟佳
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1