The embodiment of the present invention discloses a method and device for building a knowledge base, which relates to the field of data processing technology and aims at building a high-quality and high-coverage industry knowledge base. The main technical schemes include: forming alternative answers to the knowledge base to be built based on the material text; collecting at least one question of the knowledge base to be built; and preprocessing at least one question according to the above. The pre-processed questions are obtained from the alternative answers, and a knowledge base is constructed based on the pre-processed questions and the answers to the pre-processed questions.
【技术实现步骤摘要】
一种知识库构建方法及装置
本专利技术实施例涉及数据处理
,特别是涉及一种知识库构建方法及装置。
技术介绍
随着计算机技术的飞速发展,各个行业为了更好的为客户提供服务,智能客服系统越来越广泛的应用在各行业中。智能客服系统通常基于知识库回答用户的问题。为了能够为用户反馈准确性较高的答案,需要构建高质量的知识库。目前,专利技术人在实现本专利技术实施例的过程中发现,智能客服系统的知识库在构建时,通常需要人工手动从人工客服的历史服务记录中收集整理知识点(问题和答案组合成的问题答案对)。但是,这种人工手动收集的方式构建知识库需要耗费大量的人力物力,整理周期较长耗时较多,而且收集整理知识点时仅依据人工客服的历史服务记录,整理出的知识库内容不够完备,导致智能客服系统对有些问题不能进行准确反馈。
技术实现思路
有鉴于此,本专利技术实施例提出了一种知识库构建方法及装置,主要目的在于构建高质量高覆盖的知识库。第一方面,本专利技术实施例提供了一种知识库构建方法,该方法包括:基于素材文本形成待建知识库的备选答案;收集所述待建知识库的至少一个问题;对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案;基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。第二方面,本专利技术实施例提供了一种知识库构建装置,该装置包括:形成模块,用于基于素材文本形成待建知识库的备选答案;收集模块,用于收集所述待建知识库的至少一个问题;获取模块,用于对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案;构建模块,用 ...
【技术保护点】
1.一种知识库构建方法,其特征在于,包括:基于素材文本形成待建知识库的备选答案;收集所述待建知识库的至少一个问题;对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案;基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。
【技术特征摘要】
1.一种知识库构建方法,其特征在于,包括:基于素材文本形成待建知识库的备选答案;收集所述待建知识库的至少一个问题;对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案;基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。2.根据权利要求1所述的方法,其特征在于,所述基于素材文本形成待建知识库的备选答案,包括:将所述素材文本拆分成多个短句;基于所述多个短句的语义对所述多个短句进行合并处理形成待建知识库的备选答案。3.根据权利要求2所述的方法,其特征在于,所述基于所述多个短句的语义对所述多个短句进行合并处理形成待建知识库的备选答案,包括:确定所述多个短句中语义相似的短句;合并语义相似的短句形成所述备选答案。4.根据权利要求3所述的方法,其特征在于,所述确定所述多个短句中语义相似的短句,包括:针对每一个所述短句均执行:利用预设的左右信息熵方法从所述短句中提取关键字;将所述关键字确定为所述短句的标签;将所述多个短句中标签相同的短句确定为语义相似的短句。5.根据权利要求4所述的方法,其特征在于,在所述利用预设的左右信息熵方法从所述短句中提取关键字之前,该方法还包括:判断所述多个短句中是否存在已具有标签短句;若存在,将与所述短句语义相似的已具有标签短句的标签确定为所述短句的标签...
【专利技术属性】
技术研发人员:王卓然,亓超,马宇驰,郭伟,陈华荣,
申请(专利权)人:三角兽北京科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。