平行语句库的更新方法、设备及计算机可读存储介质技术

技术编号:19342342 阅读:19 留言:0更新日期:2018-11-07 13:57
本发明专利技术公开了一种平行语句库的更新方法、设备及计算机可读存储介质,该方法包括步骤:当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句;对所述待调整平行语句进行聚类,根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中,得到更新后的所述平行语句库;合并更新后的所述平行语句库中的各个主题类,以完成更新所述平行语句库的更新操作。本发明专利技术实现了自动更新平行语句库的更新操作,提高了更新平行语句库更新效率。

Updating method, device and computer readable storage medium of parallel statement library

The invention discloses a new method, device and computer readable storage medium for parallel statement library. The method includes steps: when the update instructions for updating parallel statement library are detected, the parallel statements to be adjusted for each preset subject class in the parallel statement library are determined according to the update instructions; The parallel statements to be adjusted are clustered, and the parallel statements to be adjusted are re-added to the parallel statement library according to the clustering results, so as to obtain the updated parallel statement library; the subject classes in the updated parallel statement library are merged to complete the update operation of the updated parallel statement library. . The invention realizes the updating operation of automatically updating parallel statement library, and improves the updating efficiency of updating parallel statement library.

【技术实现步骤摘要】
平行语句库的更新方法、设备及计算机可读存储介质
本专利技术涉及自然语言处理
,尤其涉及一种平行语句库的更新方法、设备及计算机可读存储介质。
技术介绍
平行语句可应用在机器翻译领域,平行语句可用在不同语种之间,用多个不同语种句子表达相同的语义;平行语句也可用在同一语种下,用多个不同表述的句子表达相同的语义。例如,“A产品的介绍”、“A产品是什么”以及“A产品怎么样”等都表示同一个语义,但是表述不同。由于自然语言本身的复杂性,某一个相同的语义可能会有多种不同的句子表述,这些不同的句子表述会对计算机理解句子的真实意图造成很大困难。尤其在智能问答领域,知识库的标准QA(QuestionandAnswer,问题和答案)有限,因此对问题的描述也很有限。但是不同用户对同一语义问题的问法变化较大,例如词的不同、顺序不同、口语化等都增加了将用户所问问题映射到标准问题的难度。为了尽可能匹配到标准问题,需要尽可能多的为标准问题添加平行语句,尽可能多样化的描述标准问题,因此需要定期更新平行语句库中的平行语句。目前更新平行语句库的方法为人工更新,即由对应的工作人员手动确认平行语句库中与标准问题关联的语句是否是平行语句。当确认与标准问题关联的语句不是标准问题的平行语句时,解除标准问题与该语句的关联关系。由此可知,人工更新平行语句库的效率低下。
技术实现思路
本专利技术的主要目的在于提供一种平行语句库的更新方法、设备及计算机可读存储介质,旨在解决现有的人工更新平行语句库效率低下的技术问题。为实现上述目的,本专利技术提供一种平行语句库的更新方法,所述平行语句库的更新方法包括步骤:当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句;对所述待调整平行语句进行聚类,根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中,得到更新后的所述平行语句库;合并更新后的所述平行语句库中的各个主题类,以完成更新所述平行语句库的更新操作。优选地,所述当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤包括:当侦测到更新平行语句库的更新指令后,检测所述平行语句库中各个预设主题类中的平行语句是否存在标注信息;若所述平行语句存在所述标注信息,且所述标注信息为第一标注信息,则确定存在所述第一标注信息的平行语句为待调整平行语句;若所述平行语句未存在所述标注信息,则调整各个预设主题类的主句,得到各个预设主题类调整后的主句;计算未存在所述标注信息的平行语句与调整后的所述主句之间的第一相似度,其中,计算所述第一相似度的所述平行语句和所述主句属于同一预设主题类;若所述第一相似度小于所述第一预设阈值,则确定未存在所述标注信息的平行语句为待调整平行语句。优选地,所述若所述平行语句未存在所述标注信息,则调整各个预设主题类的主句,得到各个预设主题类调整后的主句的步骤包括:若所述平行语句未存在所述标注信息,则获取各个预设主题类中各个平行语句在预设时长内的显示频数;获取各个预设主题类中显示频数最高的平行语句,将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句。优选地,所述获取各个预设主题类中显示频数最高的平行语句,将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句的步骤包括:获取各个预设主题类中显示频数最高的平行语句,将显示频数最高的平行语句记为目标语句;判断是否只存在一个所述目标语句;若只存在一个所述目标语句,则将所述目标语句作为对应预设主题类调整后的主句;若存在至少两个所述目标语句,则获取所述目标语句的字数,将所述字数最多的目标语句作为对应预设主题类调整后的主句。优选地,所述当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤还包括:当侦测到更新平行语句库的更新指令后,检测所述更新指令的类别;若所述更新指令是自动更新指令,则根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句。优选地,所述当侦测到更新平行语句库的更新指令后,检测所述更新指令的类别的步骤之后,还包括:若所述更新指令是手动更新指令,则根据用户触发的获取指令获取所述平行语句库中预设主题类的主句和平行语句,并在显示界面中显示所述预设主题类的主句和平行语句;当侦测到确认所述预设主题类的主句和平行语句语义不同的确认指令后,为与所述预设主题类主句语义不同的平行语句添加第一标注信息;当侦测到确认所述预设主题类的主句和平行语句语义相同的确认指令后,为与所述预设主题类主句语义相同的平行语句添加第二标注信息。优选地,所述对所述待调整平行语句进行聚类,根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中,得到更新后的所述平行语句库的步骤包括:计算所述待调整平行语句中每个词的词向量,根据所述词向量确定所述待调整平行语句的句向量;根据所述句向量对所述待调整平行语句进行聚类,以确定各个所述待调整平行语句对应的目标主题类;确定所述目标主题类中的主句,记为第一主句,并获取所述平行语句库中各个预设主题类的主句,记为第二主句;计算所述第一主句和所述第二主句之间的相似度,并获取所述相似度中的最大值;若所述最大值大于或者等于第二预设阈值,则将所述第一主句所在目标主题类添加至所述最大值对应的第二主句所在的预设主题类中,以得到更新后的所述平行语句库;若所述最大值小于所述第二预设阈值,则将所述第一主句所在的目标主题类作为新的主题类添加至所述平行语句库中,以得到更新后的所述平行语句库。优选地,所述合并更新后的所述平行语句库中的各个主题类,以完成更新所述平行语句库的更新操作的步骤包括:获取更新后的所述平行语句库中各个主题类的主句,将更新后的所述平行语句库中其中一个主题类的主句作为第三主句,将更新后的所述平行语句库中剩余主题类的主句作为第四主句;计算所述第三主句和第四主句之间的第二相似度;若所述第二相似度大于或者等于第三预设阈值,则将所述第三主句所在的主题类中的平行语句添加至所述第四主句所在的主题类中,删除所述第三主句所在的主题类,以完成更新所述平行语句库的更新操作。此外,为实现上述目的,本专利技术还提供一种平行语句库的更新设备,所述平行语句库的更新设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的平行语句库的更新程序,所述平行语句库的更新程序被所述处理器执行时实现如上所述的平行语句库的更新方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有平行语句库的更新程序,所述平行语句库的更新程序被处理器执行时实现如上所述的平行语句库的更新方法的步骤。本专利技术通过在侦测到更新平行语句库的更新指令后,根据更新指令确定平行语句库中需要调整的待调整平行语句,并将待调整平行语句重新添加至平行语句库中,得到更新后的平行语句库,并合并更新后的平行语句库中的各个主题类,实现了自动更新平行语句库的更新操作,提高了更新平行语句库更新效率。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的结构示意图;图2为本专利技术平行语句库的更新方法较佳实施例的流程示意图;图3为本专利技术实施例本文档来自技高网...

【技术保护点】
1.一种平行语句库的更新方法,其特征在于,所述平行语句库的更新方法包括以下步骤:当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句;对所述待调整平行语句进行聚类,根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中,得到更新后的所述平行语句库;合并更新后的所述平行语句库中的各个主题类,以完成更新所述平行语句库的更新操作。

【技术特征摘要】
1.一种平行语句库的更新方法,其特征在于,所述平行语句库的更新方法包括以下步骤:当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句;对所述待调整平行语句进行聚类,根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中,得到更新后的所述平行语句库;合并更新后的所述平行语句库中的各个主题类,以完成更新所述平行语句库的更新操作。2.如权利要求1所述的平行语句库的更新方法,其特征在于,所述当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤包括:当侦测到更新平行语句库的更新指令后,检测所述平行语句库中各个预设主题类中的平行语句是否存在标注信息;若所述平行语句存在所述标注信息,且所述标注信息为第一标注信息,则确定存在所述第一标注信息的平行语句为待调整平行语句;若所述平行语句未存在所述标注信息,则调整各个预设主题类的主句,得到各个预设主题类调整后的主句;计算未存在所述标注信息的平行语句与调整后的所述主句之间的第一相似度,其中,计算所述第一相似度的所述平行语句和所述主句属于同一预设主题类;若所述第一相似度小于所述第一预设阈值,则确定未存在所述标注信息的平行语句为待调整平行语句。3.如权利要求2所述的平行语句库的更新方法,其特征在于,所述若所述平行语句未存在所述标注信息,则调整各个预设主题类的主句,得到各个预设主题类调整后的主句的步骤包括:若所述平行语句未存在所述标注信息,则获取各个预设主题类中各个平行语句在预设时长内的显示频数;获取各个预设主题类中显示频数最高的平行语句,将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句。4.如权利要求3所述的平行语句库的更新方法,其特征在于,所述获取各个预设主题类中显示频数最高的平行语句,将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句的步骤包括:获取各个预设主题类中显示频数最高的平行语句,将显示频数最高的平行语句记为目标语句;判断是否只存在一个所述目标语句;若只存在一个所述目标语句,则将所述目标语句作为对应预设主题类调整后的主句;若存在至少两个所述目标语句,则获取所述目标语句的字数,将所述字数最多的目标语句作为对应预设主题类调整后的主句。5.如权利要求1所述的平行语句库的更新方法,其特征在于,所述当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤还包括:当侦测到更新平行语句库的更新指令后,检测所述更新指令的类别;若所述更新指令是自动更新指令,则根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句。6.如权利要求5所述的平...

【专利技术属性】
技术研发人员:卢道和赵伟伟杨海军张超
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1