The embodiment of the present invention provides a method, device and electronic terminal for processing question-and-answer corpus. The method includes: constructing multiple first question-and-answer pairs according to corpus; removing the redundant data in the first question-and-answer pair and obtaining the pre-processed question-and-answer pair; judging whether the pre-processed question matches the answer; and if so, judging the result as a matching question and answer. The answer is constructed as a second question-and-answer pair, and the second question-and-answer pair is stored in the question-and-answer database. In this way, the problem of knowledge omission and inefficiency caused by too many human factors can be solved, and the quality of question-and-answer knowledge base can be improved, thus providing users with high-quality intelligent question-and-answer service.
【技术实现步骤摘要】
处理问答语料的方法、装置及电子终端
本专利技术涉及互联网
,具体而言,涉及一种处理问答语料的方法、装置及电子终端。
技术介绍
智能问答系统是一种利用计算机自动回答用户所提出的问题以满足用户知识需求的软件系统。智能问答系统在工作过程中依赖于一个包含大量问答对的问答知识库。当智能问答系统接收到用户所提出的问题后,系统会利用信息检索、意图识别、语义解析、语义匹配等一系列技术手段,基于问答知识库选取出合适的答案返回给用户。目前,构建问答知识库的方法主要依赖于人工操作,人工操作效率低,难以提高问答知识库的质量。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种处理问答语料的方法、装置及电子终端。第一方面,本专利技术实施例提供一种处理问答语料的方法,包括:根据语料库构造多个第一问答对;分别对所述第一问答对中的问题、答案进行预处理;判断经过预处理的问题与答案是否匹配;若是,将判定结果为匹配的问题和答案构造为第二问答对,并将所述第二问答对存入问答库中。第二方面,本专利技术实施例提供一种处理问答语料的装置,所述装置包括:第一构造模块,用于根据语料库构造第一问答对;预处理模块,用于分别对所述第一问答对中的问题、答案进行预处理;判断模块,用于判断经过预处理的问题与答案是否匹配;第二构造模块,用于将判定结果为匹配的问题和答案构造为第二问答对,并将所述第二问答对存入问答库中。第三方面,本专利技术实施例提供一种电子终端,包括:存储器;处理器;所述存储器用于存储支持处理器执行上述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。与现有技术相比,本专利技术实施例的 ...
【技术保护点】
1.一种处理问答语料的方法,其特征在于,包括:根据语料库构造多个第一问答对;去除所述第一问答对中的问题、答案中的冗余数据得到预处理后的问答对;判断经过预处理的问题与答案是否匹配;若是,将判定结果为匹配的问题和答案构造为第二问答对,并将所述第二问答对存入问答库中。
【技术特征摘要】
1.一种处理问答语料的方法,其特征在于,包括:根据语料库构造多个第一问答对;去除所述第一问答对中的问题、答案中的冗余数据得到预处理后的问答对;判断经过预处理的问题与答案是否匹配;若是,将判定结果为匹配的问题和答案构造为第二问答对,并将所述第二问答对存入问答库中。2.如权利要求1所述的处理问答语料的方法,其特征在于,所述根据语料库构造多个第一问答对的步骤,包括:获取语料库,所述语料库中包括提问方的会话内容,以及与所述提问方的会话内容对应的应答方的会话内容;按照时间顺序将提问方的会话内容、应答方的会话内容进行排序;根据排序后的会话内容生成目标会话段;根据所述目标会话段构造多个第一问答对。3.如权利要求2所述的处理问答语料的方法,其特征在于,所述根据所述目标会话段构造多个第一问答对的步骤,包括:在同一所述目标会话段中,根据所述提问方的会话内容,按照时间顺序筛选出至少一个与所述提问方的会话内容对应的应答方的会话内容,将所述提问方的会话内容与经过筛选得到的应答方的会话内容作为第一问答对。4.如权利要求1所述的处理问答语料的方法,其特征在于,所述去除所述第一问答对中的问题、答案中的冗余数据得到预处理后的问答对的步骤,包括:分别识别所述第一问答对中的问题、答案中的冗余信息,所述冗余信息包括链接、表情图、特殊符号中的至少一种;将识别出的所述冗余信息进行删除,或统一替换以得到预处理后的问答对。5.如权利要求1或4所述的处理问答语料的方法,其特征在于,所述去除所述第一问答对中的问题、答案中的冗余数据得到预处理后的问答对的步骤,还包括:分别判断所述第一问答对中的问题、答案的内容是否残缺;若是,滤除存在残缺问题的问答对;以及滤除存在残缺答案的问答对。...
【专利技术属性】
技术研发人员:廖宇康,江岭,
申请(专利权)人:成都小多科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。