平行语句库的创建方法、设备及计算机可读存储介质技术

技术编号:19388875 阅读:34 留言:0更新日期:2018-11-10 02:01
本发明专利技术公开了一种平行语句库的创建方法、设备及计算机可读存储介质,该方法包括步骤:当侦测到创建平行语句库的创建指令后,根据创建指令获取预设时长内用户触发的有效问句;计算有效问句中每个词的词向量,根据词向量确定有效问句的句向量;根据句向量对有效问句进行聚类,以确定各个有效问句对应的主题类;将有效问句对应的主题类添加到预设的平行语句库中。本发明专利技术实现了平行语句库的自动创建,提高了平行语句的生成效率,并以真实用户触发的问句作为创建平行语句库的基础,使所创建平行语句库中的平行语句符合真实用户的问句模式,降低了平行语句与真实用户问句模式之间的差异性,提高了通过知识库回答用户问题的准确率。

Parallel statement library creation method, device and computer readable storage medium

The invention discloses a method, a device and a computer readable storage medium for creating a parallel statement library. The method comprises the following steps: after detecting the creation instructions for creating a parallel statement library, the user-triggered valid questions within a preset time are acquired according to the creation instructions; the word vector of each word in the valid question is calculated and the words are used according to the words. The vectors determine the sentence vectors of the valid questions; cluster the valid questions according to the sentence vectors to determine the corresponding topic classes of each valid question; and add the corresponding topic classes of the valid questions to the preset parallel sentence database. The invention realizes the automatic creation of parallel statement library, improves the productivity of parallel statements, and takes the question triggered by the real user as the basis of creating parallel statement library, so that the parallel statements in the created parallel statement library conform to the question mode of the real user, and reduces the gap between the parallel statement and the question mode of the real user. The difference improves the accuracy of answering user questions through knowledge base.

【技术实现步骤摘要】
平行语句库的创建方法、设备及计算机可读存储介质
本专利技术涉及自然语言处理
,尤其涉及一种平行语句库的创建方法、设备及计算机可读存储介质。
技术介绍
平行语句可应用在机器翻译领域,平行语句可用在不同语种之间,用多个不同语种句子表达相同的语义;平行语句也可用在同一语种下,用多个不同表述的句子表达相同的语义。例如,“A产品的介绍”、“A产品是什么”以及“A产品怎么样”等都表示同一个语义,但是表述不同。由于自然语言本身的复杂性,某一个相同的语义可能会有多种不同的句子表述,这些不同的句子表述会对计算机理解句子的真实意图造成很大困难。尤其在智能问答领域,知识库的标准QA(QuestionandAnswer,问题和答案)有限,因此对问题的描述也很有限。但是不同用户对同一语义问题的问法变化较大,例如词的不同、顺序不同、口语化等都增加了将用户所问问题映射到标准问题的难度。为了尽可能匹配到标准问题,需要尽可能多的为标准问题添加平行语句,尽可能多样化的描述标准问题。目前为标准问题添加平行语句的方法是人工撰写,即以标准问题为基础,依靠知识库编辑人员的经验,编写尽可能多的不同表述的句子。例如,标准问题是“A产品介绍”,编辑人员可添加的平行语句包括:“A产品是什么”、“A产品怎么样”、“什么是A产品”等。但是人工撰写标准问题的平行语句效率低、且需要依赖编辑人员的经验,从而导致所编辑的平行语句与真实用户所问的问题存在差异。
技术实现思路
本专利技术的主要目的在于提供一种平行语句库的创建方法、设备及计算机可读存储介质,旨在解决现有的在创建平行语句过程中,需要人工撰写标准问题对应的平行语句,导致编写平行语句效率低下,所编辑的平行语句与真实用户所问的问题存在差异的技术问题。为实现上述目的,本专利技术提供一种平行语句库的创建方法,所述平行语句库的创建方法包括步骤:当侦测到创建平行语句库的创建指令后,根据所述创建指令获取预设时长内用户触发的有效问句;计算所述有效问句中每个词的词向量,根据所述词向量确定所述有效问句的句向量;根据所述句向量对所述有效问句进行聚类,以确定各个所述有效问句对应的主题类;将所述有效问句对应的主题类添加到预设的平行语句库中。优选地,所述将所述有效问句对应的主题类添加到预设的平行语句库中的步骤之后,还包括:当侦测到查询所述平行语句库的查询指令后,根据所述查询指令获取预设的标准问句;在所述平行语句库中查找与所述标准问句对应的待推荐平行语句;将所述待推荐平行语句显示在显示界面中,并检测是否侦测到确认所述待推荐平行语句为所述标准问句的平行语句的确认指令;若侦测到所述确认指令,则将所述待推荐平行语句添加至所述标准问句所在的主题类中。优选地,所述在所述平行语句库中查找与所述标准问句对应的待推荐平行语句的步骤包括:计算所述标准问句与所述平行语句库中每一所述主题类主句之间的相似度;获取与所述标准问句相似度大于第一预设阈值的主句对应的主题类,记为目标主题类;获取所述目标主题类中与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句。优选地,所述获取所述目标主题类中与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句的步骤之前,还包括:确定所述目标主题类中已推荐过的平行语句、携带有预设标注信息的平行语句;所述获取所述目标主题类中与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句的步骤包括:获取所述目标主题类中除所述已推荐过的平行语句、携带有预设标注信息的平行语句外,与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句。优选地,所述将所述有效问句对应的主题类添加到预设的平行语句库中的步骤包括:确定所述有效问句对应主题类中的主句,记为第一主句,并获取预设的平行语句库中各个主题类的主句,记为第二主句;计算所述第一主句和所述第二主句之间的相似度,并获取所述相似度中的最大值;若所述最大值大于或者等于第二预设阈值,则将所述第一主句所在主题类中的有效问句添加至所述最大值对应的第二主句所在的主题类中;若所述最大值小于所述第二预设阈值,则将所述第一主句所在的主题类作为新的主题类添加至所述平行语句库中。优选地,所述确定所述有效问句对应主题类中的主句,记为第一主句的步骤包括:获取所述有效问句对应主题类中各个有效问句的显示频数;获取各个主题类中显示频数最高的有效问句,将所述显示频数最高的有效问句记为对应主题类的第一主句。优选地,所述计算所述第一主句和所述第二主句之间的相似度的步骤包括:将所述第一主句和所述第二主句转换成对应的第一向量序列和第二向量序列;将所述第一向量序列和所述第二向量序列输入至预设的双向长短期记忆网络中,以得到所述第一主句和所述第二主句之间的相似度。优选地,所述计算所述有效问句中每个词的词向量,根据所述词向量确定所述有效问句的句向量的步骤包括:计算所述有效问句中每个词的词向量,根据所述词向量确定每一所述有效问句中所有词的词向量均值或词向量中值;将所述词向量均值或所述词向量中值作为所述有效问句的句向量。此外,为实现上述目的,本专利技术还提供一种平行语句库的创建设备,所述平行语句库的创建设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的平行语句库的创建程序,所述平行语句库的创建程序被所述处理器执行时实现如上所述的平行语句库的创建方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有平行语句库的创建程序,所述平行语句库的创建程序被处理器执行时实现如上所述的平行语句库的创建方法的步骤。本专利技术通过获取预设时长内的有效问句,对有效问句进行聚类,确定各个有效问句对应的主题类,将有效问句对应的主题类添加到平行语句库中,实现了平行语句库的自动创建,不需要人工创建平行语句库,提高了平行语句的生成效率,并以真实用户触发的问句作为创建平行语句库的基础,使所创建平行语句库中的平行语句符合真实用户的问句模式,降低了平行语句与真实用户问句模式之间的差异性,提高了通过知识库回答用户问题的准确率。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的结构示意图;图2为本专利技术平行语句库的创建方法第一实施例的流程示意图;图3为本专利技术平行语句库的创建方法第二实施例的流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境的结构示意图。需要说明的是,图1即可为平行语句库的创建设备的硬件运行环境的结构示意图。本专利技术实施例平行语句库的创建设备可以是PC,便携计算机等终端设备。如图1所示,该平行语句库的创建设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005本文档来自技高网...

【技术保护点】
1.一种平行语句库的创建方法,其特征在于,所述平行语句库的创建方法包括以下步骤:当侦测到创建平行语句库的创建指令后,根据所述创建指令获取预设时长内用户触发的有效问句;计算所述有效问句中每个词的词向量,根据所述词向量确定所述有效问句的句向量;根据所述句向量对所述有效问句进行聚类,以确定各个所述有效问句对应的主题类;将所述有效问句对应的主题类添加到预设的平行语句库中。

【技术特征摘要】
1.一种平行语句库的创建方法,其特征在于,所述平行语句库的创建方法包括以下步骤:当侦测到创建平行语句库的创建指令后,根据所述创建指令获取预设时长内用户触发的有效问句;计算所述有效问句中每个词的词向量,根据所述词向量确定所述有效问句的句向量;根据所述句向量对所述有效问句进行聚类,以确定各个所述有效问句对应的主题类;将所述有效问句对应的主题类添加到预设的平行语句库中。2.如权利要求1所述的平行语句库的创建方法,其特征在于,所述将所述有效问句对应的主题类添加到预设的平行语句库中的步骤之后,还包括:当侦测到查询所述平行语句库的查询指令后,根据所述查询指令获取预设的标准问句;在所述平行语句库中查找与所述标准问句对应的待推荐平行语句;将所述待推荐平行语句显示在显示界面中,并检测是否侦测到确认所述待推荐平行语句为所述标准问句的平行语句的确认指令;若侦测到所述确认指令,则将所述待推荐平行语句添加至所述标准问句所在的主题类中。3.如权利要求2所述的平行语句库的创建方法,其特征在于,所述在所述平行语句库中查找与所述标准问句对应的待推荐平行语句的步骤包括:计算所述标准问句与所述平行语句库中每一所述主题类主句之间的相似度;获取与所述标准问句相似度大于第一预设阈值的主句对应的主题类,记为目标主题类;获取所述目标主题类中与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句。4.如权利要求3所述的平行语句库的创建方法,其特征在于,所述获取所述目标主题类中与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句的步骤之前,还包括:确定所述目标主题类中已推荐过的平行语句、携带有预设标注信息的平行语句;所述获取所述目标主题类中与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句的步骤包括:获取所述目标主题类中除所述已推荐过的平行语句、携带有预设标注信息的平行语句外,与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句。5.如权利要求1所述的平行语句库的创建方法,其特征在于,所述将所述有效问句对应的...

【专利技术属性】
技术研发人员:卢道和赵伟伟杨海军张超
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1