知识库中语料的处理方法及装置制造方法及图纸

技术编号：24498757 阅读：72 留言：0更新日期：2020-06-13 04:08

本发明专利技术公开一种知识库中语料的处理方法及装置，涉及数据处理技术领域，能够对知识库中存在的重复或相似的语料进行清理维护，以提高知识库的检索准确率。该方法包括：获取知识库中的全部用户意图，以及每个用户意图对应的语料数据，其中，语料数据包括多条语料；分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测，并输出检测结果；对检测结果中重复的语料执行去重操作。该装置应用有上述方案所提的方法。

Processing method and device of corpus in knowledge base

全部详细技术资料下载

【技术实现步骤摘要】
知识库中语料的处理方法及装置
本专利技术涉及数据处理
，尤其涉及一种知识库中语料的处理方法及装置。
技术介绍
知识库中语料的数据量直接影响语义平台的识别性能，因此需定期对知识库中的语料进行清理和维护，在知识库中搜集语料(相似问)的过程中，难免会存在无效语料，也即重复或者相似的语料，这些无效语料一般包括以下三种情况：1、存在完全一样的语料，也即知识库中采集了重复语料；2、语料经分词处理后，存在完全一样的分词，也即知识库中采集了相似语料；3、同一语料在多个意图下交叉存在；现有的语料检测方法，主要是针对语料语法正确性和语句完整性进行检测，无法对知识库中的重复和相似语料进行检测并处理，尤其对于不同意图下存在的重复或相似语料，很大程度上降低了对知识库检索的准确率。
技术实现思路
本专利技术的目的在于提供一种知识库中语料的处理方法及装置，能够对知识库中存在的重复或相似语料进行清理维护，以提高知识库检索准确率。为了实现上述目的，本专利技术的一方面提供一种知识库中语料的处理方...

【技术保护点】
1.一种知识库中语料的处理方法，其特征在于，包括：/n获取知识库中的全部用户意图，以及每个用户意图对应的语料数据，所述语料数据包括多条语料；/n分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测，并输出检测结果；/n对检测结果中重复的语料执行去重操作。/n

【技术特征摘要】
1.一种知识库中语料的处理方法，其特征在于，包括：
获取知识库中的全部用户意图，以及每个用户意图对应的语料数据，所述语料数据包括多条语料；
分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测，并输出检测结果；
对检测结果中重复的语料执行去重操作。

2.根据权利要求1所述的方法，其特征在于，分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测的方法包括：
分别遍历每个语料数据中的语料，将同一语料数据中相同的语料标记输出；和/或，
选择任意两个语料数据组建语料数据组，直至全部语料数据遍历选择完毕得到多个语料数据组，分别将每个语料数据组中相同的语料标记输出；
汇总标记输出，得到检测结果。

3.根据权利要求2所述的方法，其特征在于，将同一语料数据中的相同语料标记输出的方法包括：
在同一语料数据中遍历选择任意两个语料进行整句比对，若比对结果一致则标记对应的语料整句重复。

4.根据权利要求3所述的方法，其特征在于，将同一语料数据中的相同语料标记输出的方法还包括：
在同一语料数据中遍历选择任意两个语料进行分词比对，若比对结果一致则标记对应的语料分词重复。

5.根据权利要求2所述的方法，其特征在于，分别将每个语料数据组中相同的语料标记输出的方法包括：
将语料数据组中的一个语料数据定义为第一语料数据，另一个语料数据定义为第二语料数据；
分别遍历每个语料数据组，将其中的第一语料数据的语料与第二语料数据的语料进行整句比对，若比对结果一致则标记对应的语料整句重复。
<...

【专利技术属性】
技术研发人员：陈宜琳，倪合强，张兵兵，徐垚，梁诗雯，
申请(专利权)人：苏宁云计算有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人