知识库中语料的处理方法及装置制造方法及图纸

技术编号:24498757 阅读:66 留言:0更新日期:2020-06-13 04:08
本发明专利技术公开一种知识库中语料的处理方法及装置,涉及数据处理技术领域,能够对知识库中存在的重复或相似的语料进行清理维护,以提高知识库的检索准确率。该方法包括:获取知识库中的全部用户意图,以及每个用户意图对应的语料数据,其中,语料数据包括多条语料;分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测,并输出检测结果;对检测结果中重复的语料执行去重操作。该装置应用有上述方案所提的方法。

Processing method and device of corpus in knowledge base

【技术实现步骤摘要】
知识库中语料的处理方法及装置
本专利技术涉及数据处理
,尤其涉及一种知识库中语料的处理方法及装置。
技术介绍
知识库中语料的数据量直接影响语义平台的识别性能,因此需定期对知识库中的语料进行清理和维护,在知识库中搜集语料(相似问)的过程中,难免会存在无效语料,也即重复或者相似的语料,这些无效语料一般包括以下三种情况:1、存在完全一样的语料,也即知识库中采集了重复语料;2、语料经分词处理后,存在完全一样的分词,也即知识库中采集了相似语料;3、同一语料在多个意图下交叉存在;现有的语料检测方法,主要是针对语料语法正确性和语句完整性进行检测,无法对知识库中的重复和相似语料进行检测并处理,尤其对于不同意图下存在的重复或相似语料,很大程度上降低了对知识库检索的准确率。
技术实现思路
本专利技术的目的在于提供一种知识库中语料的处理方法及装置,能够对知识库中存在的重复或相似语料进行清理维护,以提高知识库检索准确率。为了实现上述目的,本专利技术的一方面提供一种知识库中语料的处理方法,包括:获取知识库中的全部用户意图,以及每个用户意图对应的语料数据,所述语料数据包括多条语料;分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测,并输出检测结果;对检测结果中重复的语料执行去重操作。优选地,将同一用户意图和/或不同用户意图对应的语料数据进行重复检测的方法包括:分别遍历每个语料数据中的语料,将同一语料数据中的相同语料标记输出;和/或,选择任意两个语料数据组建语料数据组,直至全部语料数据遍历选择完毕得到多个语料数据组,分别将每个语料数据组中相同的语料标记输出;汇总标记输出,得到检测结果。较佳地,将同一语料数据中的相同语料标记输出的方法包括:在同一语料数据中遍历选择任意两个语料进行整句比对,若比对结果一致则标记对应的语料整句重复。进一步地,将同一语料数据中的相同语料标记输出的方法还包括:在同一语料数据中遍历选择任意两个语料进行分词比对,若比对结果一致则标记对应的语料分词重复。优选地,分别将每个语料数据组中相同的语料标记输出的方法包括:将语料数据组中的一个语料数据定义为第一语料数据,另一个语料数据定义为第二语料数据;分别遍历每个语料数据组,将其中的第一语料数据的语料与第二语料数据的语料进行整句比对,若比对结果一致则标记对应的语料整句重复。较佳地,分别将每个语料数据组中相同的语料标记输出的方法还包括:分别遍历每个语料数据组,将其中的第一语料数据的语料分词与第二语料数据的语料进行分词比对,若比对结果一致则标记对应的语料分词重复。可选地,将两个语料进行分词比对的方法包括:构建分词表,所述分词表中包括多个标准词以及分别与每个标准词映射的同义词;将两个语料分词并去燥,对应构建两个分词组;基于分词表,采用查表方式将与分词组中存在的同义词替换为标准词,并将替换后的两个分词组进行分词比对,若比对结果一致则标记对应的语料分词重复。优选地,对检测结果中重复的语料执行去重操作的方法包括:若同一语料数据中存在重复的语料,则随机删除其中一个重复的语料,或者,反馈给用户手动删除其一;若语料数据组中存在重复的语料,则将重复的语料反馈给用户手动删除其一。与现有技术相比,本专利技术提供的知识库中语料的处理方法具有以下有益效果:众所周知,知识库是由大量的用户意图构成,而每个用户意图相当于一个语料数据,由于同一意图对应着多个问句,因此每个问句又相当于意图下的一个语料,考虑到同一用户意图和/或不同用户意图对应的语料数据中可能存在重复的语料,因此需对重复的语料进行检测,以在知识库维护的过程中对重复的语料进行删除,能够有效提高了知识库检索的准确率。本专利技术的另一方面提供一种知识库中语料的处理装置,应用有上述技术方案提到的知识库中语料的处理方法,该装置包括:数据采集单元,用于获取知识库中的全部用户意图,以及每个用户意图对应的语料数据,所述语料数据包括多条语料;查重单元,用于分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测,并输出检测结果;处理单元,用于对检测结果中重复的语料执行去重操作。与现有技术相比,本专利技术提供的知识库中语料的处理装置的有益效果与上述技术方案提供的知识库中语料的处理方法的有益效果相同,在此不做赘述。本专利技术的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述知识库中语料的处理方法的步骤。与现有技术相比,本专利技术提供的计算机可读存储介质的有益效果与上述技术方案提供的知识库中语料的处理方法的有益效果相同,在此不做赘述。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为实施例一中知识库中语料的处理方法的流程示意图;图2为实施例一中知识库的结构示意图;图3为实施例一中第一语料数据与第二语料数据的语料遍历检测过程示意图;图4为实施例一中同一语料数据中的语料分词遍历检测过程示意图;图5为实施例一中第一语料数据与第二语料数据的语料分词遍历检测过程示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本专利技术保护的范围。实施例一首先需说明的是,在本实施例中的用户意图也是指附图中的知识点,属于知识库结构的最小叶节点,如图2所示。语料也是指相似问,是用户意图下属于该意图的代表用户问,本实施例中,用户意图与知识点可以等同替换使用,语料与相似问可以等同替换使用。请参阅图1,本实施例提供一种知识库中语料的处理方法,包括:获取知识库中的全部用户意图,以及每个用户意图对应的语料数据,语料数据包括多条语料;分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测,并输出检测结果;对检测结果中重复的语料执行去重操作。本实施例提供的知识库中语料的处理方法,众所周知知识库是由大量的用户意图构成,而每个用户意图相当于一个语料数据,由于同一意图对应着多个问句,因此每个问句又相当于用户意图下的一个语料,考虑到同一用户意图和/或不同用户意图对应的语料数据中可能存在重复的语料,因此需对重复的语料进行检测,以在知识库维护的过程中对重复的语料进行删除,能够有效提高了知识库检索的准确率。具体地,上述实施例中将同一用户意图和/或不同用户意图对应的语料数据进行重复检测的方法包括:...

【技术保护点】
1.一种知识库中语料的处理方法,其特征在于,包括:/n获取知识库中的全部用户意图,以及每个用户意图对应的语料数据,所述语料数据包括多条语料;/n分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测,并输出检测结果;/n对检测结果中重复的语料执行去重操作。/n

【技术特征摘要】
1.一种知识库中语料的处理方法,其特征在于,包括:
获取知识库中的全部用户意图,以及每个用户意图对应的语料数据,所述语料数据包括多条语料;
分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测,并输出检测结果;
对检测结果中重复的语料执行去重操作。


2.根据权利要求1所述的方法,其特征在于,分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测的方法包括:
分别遍历每个语料数据中的语料,将同一语料数据中相同的语料标记输出;和/或,
选择任意两个语料数据组建语料数据组,直至全部语料数据遍历选择完毕得到多个语料数据组,分别将每个语料数据组中相同的语料标记输出;
汇总标记输出,得到检测结果。


3.根据权利要求2所述的方法,其特征在于,将同一语料数据中的相同语料标记输出的方法包括:
在同一语料数据中遍历选择任意两个语料进行整句比对,若比对结果一致则标记对应的语料整句重复。


4.根据权利要求3所述的方法,其特征在于,将同一语料数据中的相同语料标记输出的方法还包括:
在同一语料数据中遍历选择任意两个语料进行分词比对,若比对结果一致则标记对应的语料分词重复。


5.根据权利要求2所述的方法,其特征在于,分别将每个语料数据组中相同的语料标记输出的方法包括:
将语料数据组中的一个语料数据定义为第一语料数据,另一个语料数据定义为第二语料数据;
分别遍历每个语料数据组,将其中的第一语料数据的语料与第二语料数据的语料进行整句比对,若比对结果一致则标记对应的语料整句重复。
<...

【专利技术属性】
技术研发人员:陈宜琳倪合强张兵兵徐垚梁诗雯
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1