知识库中语料的处理方法及装置制造方法及图纸

技术编号:24498757 阅读:72 留言:0更新日期:2020-06-13 04:08
本发明专利技术公开一种知识库中语料的处理方法及装置,涉及数据处理技术领域,能够对知识库中存在的重复或相似的语料进行清理维护,以提高知识库的检索准确率。该方法包括:获取知识库中的全部用户意图,以及每个用户意图对应的语料数据,其中,语料数据包括多条语料;分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测,并输出检测结果;对检测结果中重复的语料执行去重操作。该装置应用有上述方案所提的方法。

Processing method and device of corpus in knowledge base

【技术实现步骤摘要】
知识库中语料的处理方法及装置
本专利技术涉及数据处理
,尤其涉及一种知识库中语料的处理方法及装置。
技术介绍
知识库中语料的数据量直接影响语义平台的识别性能,因此需定期对知识库中的语料进行清理和维护,在知识库中搜集语料(相似问)的过程中,难免会存在无效语料,也即重复或者相似的语料,这些无效语料一般包括以下三种情况:1、存在完全一样的语料,也即知识库中采集了重复语料;2、语料经分词处理后,存在完全一样的分词,也即知识库中采集了相似语料;3、同一语料在多个意图下交叉存在;现有的语料检测方法,主要是针对语料语法正确性和语句完整性进行检测,无法对知识库中的重复和相似语料进行检测并处理,尤其对于不同意图下存在的重复或相似语料,很大程度上降低了对知识库检索的准确率。
技术实现思路
本专利技术的目的在于提供一种知识库中语料的处理方法及装置,能够对知识库中存在的重复或相似语料进行清理维护,以提高知识库检索准确率。为了实现上述目的,本专利技术的一方面提供一种知识库中语料的处理方法,包括:获本文档来自技高网...

【技术保护点】
1.一种知识库中语料的处理方法,其特征在于,包括:/n获取知识库中的全部用户意图,以及每个用户意图对应的语料数据,所述语料数据包括多条语料;/n分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测,并输出检测结果;/n对检测结果中重复的语料执行去重操作。/n

【技术特征摘要】
1.一种知识库中语料的处理方法,其特征在于,包括:
获取知识库中的全部用户意图,以及每个用户意图对应的语料数据,所述语料数据包括多条语料;
分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测,并输出检测结果;
对检测结果中重复的语料执行去重操作。


2.根据权利要求1所述的方法,其特征在于,分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测的方法包括:
分别遍历每个语料数据中的语料,将同一语料数据中相同的语料标记输出;和/或,
选择任意两个语料数据组建语料数据组,直至全部语料数据遍历选择完毕得到多个语料数据组,分别将每个语料数据组中相同的语料标记输出;
汇总标记输出,得到检测结果。


3.根据权利要求2所述的方法,其特征在于,将同一语料数据中的相同语料标记输出的方法包括:
在同一语料数据中遍历选择任意两个语料进行整句比对,若比对结果一致则标记对应的语料整句重复。


4.根据权利要求3所述的方法,其特征在于,将同一语料数据中的相同语料标记输出的方法还包括:
在同一语料数据中遍历选择任意两个语料进行分词比对,若比对结果一致则标记对应的语料分词重复。


5.根据权利要求2所述的方法,其特征在于,分别将每个语料数据组中相同的语料标记输出的方法包括:
将语料数据组中的一个语料数据定义为第一语料数据,另一个语料数据定义为第二语料数据;
分别遍历每个语料数据组,将其中的第一语料数据的语料与第二语料数据的语料进行整句比对,若比对结果一致则标记对应的语料整句重复。
<...

【专利技术属性】
技术研发人员:陈宜琳倪合强张兵兵徐垚梁诗雯
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1