The invention discloses a new method, device and computer readable storage medium for parallel statement library. The method includes steps: when the update instructions for updating parallel statement library are detected, the parallel statements to be adjusted for each preset subject class in the parallel statement library are determined according to the update instructions; The parallel statements to be adjusted are clustered, and the parallel statements to be adjusted are re-added to the parallel statement library according to the clustering results, so as to obtain the updated parallel statement library; the subject classes in the updated parallel statement library are merged to complete the update operation of the updated parallel statement library. . The invention realizes the updating operation of automatically updating parallel statement library, and improves the updating efficiency of updating parallel statement library.
【技术实现步骤摘要】
平行语句库的更新方法、设备及计算机可读存储介质
本专利技术涉及自然语言处理
,尤其涉及一种平行语句库的更新方法、设备及计算机可读存储介质。
技术介绍
平行语句可应用在机器翻译领域,平行语句可用在不同语种之间,用多个不同语种句子表达相同的语义;平行语句也可用在同一语种下,用多个不同表述的句子表达相同的语义。例如,“A产品的介绍”、“A产品是什么”以及“A产品怎么样”等都表示同一个语义,但是表述不同。由于自然语言本身的复杂性,某一个相同的语义可能会有多种不同的句子表述,这些不同的句子表述会对计算机理解句子的真实意图造成很大困难。尤其在智能问答领域,知识库的标准QA(QuestionandAnswer,问题和答案)有限,因此对问题的描述也很有限。但是不同用户对同一语义问题的问法变化较大,例如词的不同、顺序不同、口语化等都增加了将用户所问问题映射到标准问题的难度。为了尽可能匹配到标准问题,需要尽可能多的为标准问题添加平行语句,尽可能多样化的描述标准问题,因此需要定期更新平行语句库中的平行语句。目前更新平行语句库的方法为人工更新,即由对应的工作人员手动确认平行语句库中与标准问题关联的语句是否是平行语句。当确认与标准问题关联的语句不是标准问题的平行语句时,解除标准问题与该语句的关联关系。由此可知,人工更新平行语句库的效率低下。
技术实现思路
本专利技术的主要目的在于提供一种平行语句库的更新方法、设备及计算机可读存储介质,旨在解决现有的人工更新平行语句库效率低下的技术问题。为实现上述目的,本专利技术提供一种平行语句库的更新方法,所述平行语句库的更新方法包括步骤:当侦测 ...
【技术保护点】
1.一种平行语句库的更新方法,其特征在于,所述平行语句库的更新方法包括以下步骤:当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句;对所述待调整平行语句进行聚类,根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中,得到更新后的所述平行语句库;合并更新后的所述平行语句库中的各个主题类,以完成更新所述平行语句库的更新操作。
【技术特征摘要】
1.一种平行语句库的更新方法,其特征在于,所述平行语句库的更新方法包括以下步骤:当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句;对所述待调整平行语句进行聚类,根据聚类所得的聚类结果将所述待调整平行语句重新添加至所述平行语句库中,得到更新后的所述平行语句库;合并更新后的所述平行语句库中的各个主题类,以完成更新所述平行语句库的更新操作。2.如权利要求1所述的平行语句库的更新方法,其特征在于,所述当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤包括:当侦测到更新平行语句库的更新指令后,检测所述平行语句库中各个预设主题类中的平行语句是否存在标注信息;若所述平行语句存在所述标注信息,且所述标注信息为第一标注信息,则确定存在所述第一标注信息的平行语句为待调整平行语句;若所述平行语句未存在所述标注信息,则调整各个预设主题类的主句,得到各个预设主题类调整后的主句;计算未存在所述标注信息的平行语句与调整后的所述主句之间的第一相似度,其中,计算所述第一相似度的所述平行语句和所述主句属于同一预设主题类;若所述第一相似度小于所述第一预设阈值,则确定未存在所述标注信息的平行语句为待调整平行语句。3.如权利要求2所述的平行语句库的更新方法,其特征在于,所述若所述平行语句未存在所述标注信息,则调整各个预设主题类的主句,得到各个预设主题类调整后的主句的步骤包括:若所述平行语句未存在所述标注信息,则获取各个预设主题类中各个平行语句在预设时长内的显示频数;获取各个预设主题类中显示频数最高的平行语句,将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句。4.如权利要求3所述的平行语句库的更新方法,其特征在于,所述获取各个预设主题类中显示频数最高的平行语句,将所述显示频数最高的平行语句作为对应所述预设主题类调整后的主句的步骤包括:获取各个预设主题类中显示频数最高的平行语句,将显示频数最高的平行语句记为目标语句;判断是否只存在一个所述目标语句;若只存在一个所述目标语句,则将所述目标语句作为对应预设主题类调整后的主句;若存在至少两个所述目标语句,则获取所述目标语句的字数,将所述字数最多的目标语句作为对应预设主题类调整后的主句。5.如权利要求1所述的平行语句库的更新方法,其特征在于,所述当侦测到更新平行语句库的更新指令后,根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句的步骤还包括:当侦测到更新平行语句库的更新指令后,检测所述更新指令的类别;若所述更新指令是自动更新指令,则根据所述更新指令确定所述平行语句库中各个预设主题类所需调整的待调整平行语句。6.如权利要求5所述的平...
【专利技术属性】
技术研发人员:卢道和,赵伟伟,杨海军,张超,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。