The invention discloses a method, a device and a computer readable storage medium for creating a parallel statement library. The method comprises the following steps: after detecting the creation instructions for creating a parallel statement library, the user-triggered valid questions within a preset time are acquired according to the creation instructions; the word vector of each word in the valid question is calculated and the words are used according to the words. The vectors determine the sentence vectors of the valid questions; cluster the valid questions according to the sentence vectors to determine the corresponding topic classes of each valid question; and add the corresponding topic classes of the valid questions to the preset parallel sentence database. The invention realizes the automatic creation of parallel statement library, improves the productivity of parallel statements, and takes the question triggered by the real user as the basis of creating parallel statement library, so that the parallel statements in the created parallel statement library conform to the question mode of the real user, and reduces the gap between the parallel statement and the question mode of the real user. The difference improves the accuracy of answering user questions through knowledge base.
【技术实现步骤摘要】
平行语句库的创建方法、设备及计算机可读存储介质
本专利技术涉及自然语言处理
,尤其涉及一种平行语句库的创建方法、设备及计算机可读存储介质。
技术介绍
平行语句可应用在机器翻译领域,平行语句可用在不同语种之间,用多个不同语种句子表达相同的语义;平行语句也可用在同一语种下,用多个不同表述的句子表达相同的语义。例如,“A产品的介绍”、“A产品是什么”以及“A产品怎么样”等都表示同一个语义,但是表述不同。由于自然语言本身的复杂性,某一个相同的语义可能会有多种不同的句子表述,这些不同的句子表述会对计算机理解句子的真实意图造成很大困难。尤其在智能问答领域,知识库的标准QA(QuestionandAnswer,问题和答案)有限,因此对问题的描述也很有限。但是不同用户对同一语义问题的问法变化较大,例如词的不同、顺序不同、口语化等都增加了将用户所问问题映射到标准问题的难度。为了尽可能匹配到标准问题,需要尽可能多的为标准问题添加平行语句,尽可能多样化的描述标准问题。目前为标准问题添加平行语句的方法是人工撰写,即以标准问题为基础,依靠知识库编辑人员的经验,编写尽可能多的不同表述的句子。例如,标准问题是“A产品介绍”,编辑人员可添加的平行语句包括:“A产品是什么”、“A产品怎么样”、“什么是A产品”等。但是人工撰写标准问题的平行语句效率低、且需要依赖编辑人员的经验,从而导致所编辑的平行语句与真实用户所问的问题存在差异。
技术实现思路
本专利技术的主要目的在于提供一种平行语句库的创建方法、设备及计算机可读存储介质,旨在解决现有的在创建平行语句过程中,需要人工撰写标准问题对应的平行 ...
【技术保护点】
1.一种平行语句库的创建方法,其特征在于,所述平行语句库的创建方法包括以下步骤:当侦测到创建平行语句库的创建指令后,根据所述创建指令获取预设时长内用户触发的有效问句;计算所述有效问句中每个词的词向量,根据所述词向量确定所述有效问句的句向量;根据所述句向量对所述有效问句进行聚类,以确定各个所述有效问句对应的主题类;将所述有效问句对应的主题类添加到预设的平行语句库中。
【技术特征摘要】
1.一种平行语句库的创建方法,其特征在于,所述平行语句库的创建方法包括以下步骤:当侦测到创建平行语句库的创建指令后,根据所述创建指令获取预设时长内用户触发的有效问句;计算所述有效问句中每个词的词向量,根据所述词向量确定所述有效问句的句向量;根据所述句向量对所述有效问句进行聚类,以确定各个所述有效问句对应的主题类;将所述有效问句对应的主题类添加到预设的平行语句库中。2.如权利要求1所述的平行语句库的创建方法,其特征在于,所述将所述有效问句对应的主题类添加到预设的平行语句库中的步骤之后,还包括:当侦测到查询所述平行语句库的查询指令后,根据所述查询指令获取预设的标准问句;在所述平行语句库中查找与所述标准问句对应的待推荐平行语句;将所述待推荐平行语句显示在显示界面中,并检测是否侦测到确认所述待推荐平行语句为所述标准问句的平行语句的确认指令;若侦测到所述确认指令,则将所述待推荐平行语句添加至所述标准问句所在的主题类中。3.如权利要求2所述的平行语句库的创建方法,其特征在于,所述在所述平行语句库中查找与所述标准问句对应的待推荐平行语句的步骤包括:计算所述标准问句与所述平行语句库中每一所述主题类主句之间的相似度;获取与所述标准问句相似度大于第一预设阈值的主句对应的主题类,记为目标主题类;获取所述目标主题类中与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句。4.如权利要求3所述的平行语句库的创建方法,其特征在于,所述获取所述目标主题类中与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句的步骤之前,还包括:确定所述目标主题类中已推荐过的平行语句、携带有预设标注信息的平行语句;所述获取所述目标主题类中与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句的步骤包括:获取所述目标主题类中除所述已推荐过的平行语句、携带有预设标注信息的平行语句外,与所述标准问句之间的相似度大于第二预设阈值的平行语句,得到待推荐平行语句。5.如权利要求1所述的平行语句库的创建方法,其特征在于,所述将所述有效问句对应的...
【专利技术属性】
技术研发人员:卢道和,赵伟伟,杨海军,张超,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。