一种知识库构建方法及装置制造方法及图纸

技术编号:21301061 阅读:26 留言:0更新日期:2019-06-12 08:18
本发明专利技术实施例公开了一种知识库构建方法及装置,涉及数据处理技术领域,主要目的在于构建高质量高覆盖的行业知识库;主要技术方案包括:基于素材文本形成待建知识库的备选答案;收集所述待建知识库的至少一个问题;对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案;基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。

A Knowledge Base Construction Method and Device

The embodiment of the present invention discloses a method and device for building a knowledge base, which relates to the field of data processing technology and aims at building a high-quality and high-coverage industry knowledge base. The main technical schemes include: forming alternative answers to the knowledge base to be built based on the material text; collecting at least one question of the knowledge base to be built; and preprocessing at least one question according to the above. The pre-processed questions are obtained from the alternative answers, and a knowledge base is constructed based on the pre-processed questions and the answers to the pre-processed questions.

【技术实现步骤摘要】
一种知识库构建方法及装置
本专利技术实施例涉及数据处理
,特别是涉及一种知识库构建方法及装置。
技术介绍
随着计算机技术的飞速发展,各个行业为了更好的为客户提供服务,智能客服系统越来越广泛的应用在各行业中。智能客服系统通常基于知识库回答用户的问题。为了能够为用户反馈准确性较高的答案,需要构建高质量的知识库。目前,专利技术人在实现本专利技术实施例的过程中发现,智能客服系统的知识库在构建时,通常需要人工手动从人工客服的历史服务记录中收集整理知识点(问题和答案组合成的问题答案对)。但是,这种人工手动收集的方式构建知识库需要耗费大量的人力物力,整理周期较长耗时较多,而且收集整理知识点时仅依据人工客服的历史服务记录,整理出的知识库内容不够完备,导致智能客服系统对有些问题不能进行准确反馈。
技术实现思路
有鉴于此,本专利技术实施例提出了一种知识库构建方法及装置,主要目的在于构建高质量高覆盖的知识库。第一方面,本专利技术实施例提供了一种知识库构建方法,该方法包括:基于素材文本形成待建知识库的备选答案;收集所述待建知识库的至少一个问题;对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案;基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。第二方面,本专利技术实施例提供了一种知识库构建装置,该装置包括:形成模块,用于基于素材文本形成待建知识库的备选答案;收集模块,用于收集所述待建知识库的至少一个问题;获取模块,用于对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案;构建模块,用于基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。第三方面,本专利技术实施例提供了一种存储介质,所述存储介质存储有多条指令,所述指令适用于由处理器加载并执行如上述中任意一项所述的知识库构建方法。第四方面,本专利技术实施例提供了一种电子设备,所述电子设备包括:存储介质和处理器;所述处理器,适于实现各指令;所述存储介质,适于存储多条指令;所述指令适于由所述处理器加载并执行如上述中任意一项所述的知识库构建方法。借由上述技术方案,本专利技术实施例提供的知识库构建方法及装置,首先基于素材文本形成待建知识库的备选答案,并收集待建知识库的问题。在对收集的问题进行预处理后,依据预处理后的问题在备选答案中获取预处理后的问题的答案。最后基于预处理后的问题以及与预处理后的问题的答案构建知识库。通过上述可知,本专利技术实施例提供的方案中问题的答案基于素材文本得到,而素材文本中覆盖有大量的有价值的信息。基于素材文本得到的答案便涵盖了这些有价值的信息,因此基于问题以及问题的答案便可以构建出高质量高覆盖的知识库。上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术实施例的具体实施方式。附图说明为了更清楚地说明本专利技术实施例实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术实施例一个实施例提供的一种知识库构建方法的流程图;图2示出了本专利技术实施例另一个实施例提供的一种知识库构建方法的流程图;图3示出了本专利技术实施例一个实施例提供的一种知识库构建装置的结构示意图;图4示出了本专利技术实施例另一个实施例提供的一种知识库构建装置的结构示意图。具体实施方式下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如图1所示,本专利技术实施例实施例提供了一种知识库构建方法,该方法主要包括:101、基于素材文本形成待建知识库的备选答案。具体的,本步骤中所涉及的待建知识库可以是服务于任意一种行业的知识库,而素材文本应是待建知识库所服务的行业所涉及到的素材文本。举例说明:待建知识库为服务于基金行业的知识库时,素材文本就为基金行业所涉及到的公开的法律法规、从业资格考试教材、各种说明书等文档中收集到的文本。在实际应用中,收集素材文本的方式至少包括如下两种:第一种,从公开发行的法律法规、说明书、教材等文档中收集素材文本。采用此种方式收集素材文本时,如果文档不是预设的格式则需要将文档转化为预设格式,以方便后续从该预设格式的素材文本中得到待建知识库的备选答案。举例说明:预设格式为txt格式,在文档不是txt格式时则可以通过OCR(光学字符识别)等工具将文档转为txt格式。第二种,从设定网站发布的内容中爬取素材文本。设定网站可以是行业中较为权威的培训网站或官方网站,这些网站中会发布大量与行业相关的权威信息。采用此种方式收集素材文本时,需要将从设定网站中爬取到内容转换为预设格式,以方便后续从该预设格式的素材文本中得到待建知识库的备选答案。该预设格式可以为txt格式。需要说明的是,无论是法律法规、说明书、教材还是设定网站中发布的内容均会随着时间的变动进行版本更新,在版本更新之后旧版本中的内容将会过期或失效,如果再利用这些旧版本中的内容构建知识库,则知识库提供准确答案的概率将降低。因此为了保证后续的待建知识库构建完成后可以推送出准确度较高的答案,那么在收集素材文本时仅收集设定时间区间(该时间区间中的时间临近待构建知识库的构建时间)内的法律法规、说明书、教材或设定网站中发布的内容中收集素材。这样不仅在待建知识库构建完成后推送出准确度较高的答案,而且也降低了收集素材文本时的数据处理量。具体的,在收集到素材文本后从素材文本中提取出待建知识库的备选答案,该基于素材文本形成待建知识库的备选答案的过程可以包括:对素材文本进行断句处理将素材文本拆散成多个短句,然后基于多个短句的语义对多个短句进行合并处理,从而形成待建知识库的备选答案。102、收集所述待建知识库的至少一个问题。具体的,收集待建知识库的至少一个问题的方法至少包括如下两种:第一种,获取针对待建知识库的人工客服历史聊天记录,从该人工客服历史聊天记录中收集待建知识库的至少一个问题。由于人工客服历史聊天记录是用户与客服沟通的记录,因此获取到的问题更能反应出用户的需求。第二种,接收外部输入的针对待建知识库的至少一个问题,这里所述的问题是构建知识库的业务人员根据用户的需求人为统计的问题。由于问题是由业务人员指定的,因此不仅可以省略复杂的问题整理工作,而且收集问题的概率较高,且问题存在无用内容(比如闲聊词语)的概率较低。103、对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案。具体的,对至少一个问题进行预处理的方法包括如下方法中的至少一种:第一种,针对每一个问题均执行:检测该问题中是否包括错别字,若是,对该问题进行错别字纠错处理。检测问题中是否包括错别字的方法包括:对问题进行分词,将分词中与错别词库中的错别词中相同的分词确定为目本文档来自技高网...

【技术保护点】
1.一种知识库构建方法,其特征在于,包括:基于素材文本形成待建知识库的备选答案;收集所述待建知识库的至少一个问题;对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案;基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。

【技术特征摘要】
1.一种知识库构建方法,其特征在于,包括:基于素材文本形成待建知识库的备选答案;收集所述待建知识库的至少一个问题;对所述至少一个问题进行预处理,依据预处理后的问题,在所述备选答案中获取所述预处理后的问题的答案;基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。2.根据权利要求1所述的方法,其特征在于,所述基于素材文本形成待建知识库的备选答案,包括:将所述素材文本拆分成多个短句;基于所述多个短句的语义对所述多个短句进行合并处理形成待建知识库的备选答案。3.根据权利要求2所述的方法,其特征在于,所述基于所述多个短句的语义对所述多个短句进行合并处理形成待建知识库的备选答案,包括:确定所述多个短句中语义相似的短句;合并语义相似的短句形成所述备选答案。4.根据权利要求3所述的方法,其特征在于,所述确定所述多个短句中语义相似的短句,包括:针对每一个所述短句均执行:利用预设的左右信息熵方法从所述短句中提取关键字;将所述关键字确定为所述短句的标签;将所述多个短句中标签相同的短句确定为语义相似的短句。5.根据权利要求4所述的方法,其特征在于,在所述利用预设的左右信息熵方法从所述短句中提取关键字之前,该方法还包括:判断所述多个短句中是否存在已具有标签短句;若存在,将与所述短句语义相似的已具有标签短句的标签确定为所述短句的标签...

【专利技术属性】
技术研发人员:王卓然亓超马宇驰郭伟陈华荣
申请(专利权)人:三角兽北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1