问答对知识库的构建方法、装置、设备及存储介质制造方法及图纸

技术编号:28058788 阅读:15 留言:0更新日期:2021-04-14 13:33
本申请涉及人工智能技术领域,揭示了一种问答对知识库的构建方法、装置、设备及存储介质,其中方法包括:基于目标类别标签对待检测的文本数据进行不规范检测得到不规范检测结果;当不规范检测结果为通过时将待检测的文本数据输入不当表述检测模型进行不当表述检测得到不当表述检测结果;当不当表述检测结果为通过时采用特定词语词典和通用错别字纠正模型对待检测的文本数据进行错别字检测和纠正得到错别字纠正后的文本数据;根据错别字纠正后的文本数据和待检测的文本数据确定目标文本数据,根据目标文本数据和目标类别标签更新问答对知识库。从而避免问答对知识库中出现不规范数据、不当表述、错别字,提高了问答对知识库的质量。库的质量。库的质量。

【技术实现步骤摘要】
问答对知识库的构建方法、装置、设备及存储介质


[0001]本申请涉及到人工智能
,特别是涉及到一种问答对知识库的构建方法、装置、设备及存储介质。

技术介绍

[0002]问答机器人是一个便利解决用户关于业务疑问的有效途径。问答机器人有一个问答对知识库,问答对知识库由问答对组成,问答对即一对(问题

答案)。问答机器人的工作流程是:机器人根据用户的提问在问答对知识库中进行匹配,匹配出和用户自然表述的提问最相近的问题,将最相近的问题对应的答案返回给用户。
[0003]现有技术的问答对知识库的构建通过人工输入,如果出现不当表述如错别字、不友好词等,会导致问答机器人匹配不上最相近的问题或者推送给客户不正确的答案,从而降低问答机器人服务的专业性。

技术实现思路

[0004]本申请的主要目的为提供一种问答对知识库的构建方法、装置、设备及存储介质,旨在解决现有技术的问答对知识库的构建通过人工输入,无法准确检测不当表述,导致应用时匹配不上最相近的问题或者推送不正确的答案的技术问题。
[0005]为了实现上述专利技术目的,本申请提出一种问答对知识库的构建方法,所述方法包括:
[0006]获取待检测的文本数据和所述待检测的文本数据对应的目标类别标签;
[0007]基于所述目标类别标签对所述待检测的文本数据进行不规范检测,得到不规范检测结果;
[0008]当所述不规范检测结果为通过时,将所述待检测的文本数据输入不当表述检测模型进行不当表述检测,得到不当表述检测结果,所述不当表述检测模型是基于Bert base网络和CRF网络训练得到的模型;
[0009]当所述不当表述检测结果为通过时,采用特定词语词典和通用错别字纠正模型对所述待检测的文本数据进行错别字检测和纠正,得到错别字纠正后的文本数据,所述通用错别字纠正模型是基于Bert网络训练得到的模型;
[0010]根据所述错别字纠正后的文本数据和所述待检测的文本数据,确定目标文本数据,根据所述目标文本数据和所述目标类别标签更新问答对知识库。
[0011]进一步的,所述基于所述目标类别标签对所述待检测的文本数据进行不规范检测,得到不规范检测结果的步骤,包括:
[0012]获取字符长度数据,根据所述目标类别标签从所述字符长度数据中获取字符长度范围,得到目标字符长度范围;
[0013]当所述待检测的文本数据的字符数量位于所述目标字符长度范围内时确定字符长度检测结果为通过,否则确定所述字符长度检测结果为不通过;
[0014]获取特殊符号库,根据所述目标类别标签从所述特殊符号库中获取特殊符号数据,得到目标特殊符号数据;
[0015]分别将所述目标特殊符号数据的特殊符号从所述待检测的文本数据中进行特殊符号的查找,当在所述待检测的文本数据中查找到特殊符号时确定特殊符号检测结果为不通过,否则确定所述特殊符号检测结果为通过;
[0016]当所述字符长度检测结果和所述特殊符号检测结果均为通过时,确定所述不规范检测结果为通过。
[0017]进一步的,所述将所述待检测的文本数据输入不当表述检测模型进行不当表述检测,得到不当表述检测结果的步骤,包括:
[0018]将所述待检测的文本数据输入所述不当表述检测模型进行不当表述标签标注,得到所述待检测的文本数据对应的目标不当表述标签集;
[0019]获取不当表述标准标签集,将所述不当表述标准标签集在所述目标不当表述标签集中进行不当表述标签的查找,当在所述目标不当表述标签集中查找不当表述标签失败时确定所述不当表述检测结果为通过。
[0020]进一步的,所述采用特定词语词典和通用错别字纠正模型对所述待检测的文本数据进行错别字检测和纠正,得到错别字纠正后的文本数据的步骤,包括:
[0021]采用所述特定词语词典对所述待检测的文本数据进行错别字检测和纠正,得到特定词语纠正后的文本数据;
[0022]采用所述通用错别字纠正模型对所述特定词语纠正后的文本数据进行错别字检测和纠正,得到所述错别字纠正后的文本数据。
[0023]进一步的,所述采用所述特定词语词典对所述待检测的文本数据进行错别字检测和纠正,得到特定词语纠正后的文本数据的步骤,包括:
[0024]对所述待检测的文本数据进行分句,得到多个待检测的文本句;
[0025]分别将每个所述待检测的文本句与所述特定词语词典中的词语进行相似度计算,得到所述多个待检测的文本句各自对应的相似度集合;
[0026]分别将每个所述待检测的文本句对应的所述相似度集合中每个目标相似度与相似度阈值进行对比;
[0027]当所述目标相似度大于所述相似度阈值时,根据所述目标相似度和所述特定词语词典确定相似词,得到相似词集合;
[0028]根据所述相似词集合对所述待检测的文本数据进行替换,得到所述特定词语纠正后的文本数据。
[0029]进一步的,所述采用所述通用错别字纠正模型对所述特定词语纠正后的文本数据进行错别字检测和纠正,得到所述错别字纠正后的文本数据的步骤,包括:
[0030]分别对所述特定词语纠正后的文本数据中的每个句子中每个字进行遮蔽,得到多个遮蔽单字后的文本句和所述多个遮蔽单字后的文本句各自对应的被遮蔽单字;
[0031]分别将每个所述遮蔽单字后的文本句输入所述通用错别字纠正模型进行遮蔽处最合适字预测,得到所述多个遮蔽单字后的文本句各自对应的每个所述被遮蔽单字的最合适字列表;
[0032]将目标被遮蔽单字在所述目标被遮蔽单字对应的所述最合适字列表中进行查找,
当没有查找到最合适字时,将所述目标被遮蔽单字对应的所述最合适字列表中的第一个最合适字作为目标替换字,采用所述目标替换字对所述特定词语纠正后的文本数据中的所述目标被遮蔽单字进行替换,得到所述错别字纠正后的文本数据,所述目标被遮蔽单字为任意一个所述多个遮蔽单字后的文本句各自对应的被遮蔽单字。
[0033]进一步的,所述根据所述错别字纠正后的文本数据和所述待检测的文本数据,确定目标文本数据的步骤,包括:
[0034]根据所述错别字纠正后的文本数据和所述待检测的文本数据获取审核端发送的错别字纠正审核结果;
[0035]当所述错别字纠正审核结果为正确时,将所述错别字纠正后的文本数据确定为目标文本数据。
[0036]本申请还提出了一种问答对知识库的构建装置,所述装置包括:
[0037]数据获取模块,用于获取待检测的文本数据和所述待检测的文本数据对应的目标类别标签;
[0038]不规范检测模块,用于基于所述目标类别标签对所述待检测的文本数据进行不规范检测,得到不规范检测结果;
[0039]不当表述检测模块,用于当所述不规范检测结果为通过时,将所述待检测的文本数据输入不当表述检测模型进行不当表述检测,得到不当表述检测结果,所述不当表述检测模型是基于Bert base网络和CRF网络训练得到的模型;
[0040]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答对知识库的构建方法,其特征在于,所述方法包括:获取待检测的文本数据和所述待检测的文本数据对应的目标类别标签;基于所述目标类别标签对所述待检测的文本数据进行不规范检测,得到不规范检测结果;当所述不规范检测结果为通过时,将所述待检测的文本数据输入不当表述检测模型进行不当表述检测,得到不当表述检测结果,所述不当表述检测模型是基于Bert base网络和CRF网络训练得到的模型;当所述不当表述检测结果为通过时,采用特定词语词典和通用错别字纠正模型对所述待检测的文本数据进行错别字检测和纠正,得到错别字纠正后的文本数据,所述通用错别字纠正模型是基于Bert网络训练得到的模型;根据所述错别字纠正后的文本数据和所述待检测的文本数据,确定目标文本数据,根据所述目标文本数据和所述目标类别标签更新问答对知识库。2.根据权利要求1所述的问答对知识库的构建方法,其特征在于,所述基于所述目标类别标签对所述待检测的文本数据进行不规范检测,得到不规范检测结果的步骤,包括:获取字符长度数据,根据所述目标类别标签从所述字符长度数据中获取字符长度范围,得到目标字符长度范围;当所述待检测的文本数据的字符数量位于所述目标字符长度范围内时确定字符长度检测结果为通过,否则确定所述字符长度检测结果为不通过;获取特殊符号库,根据所述目标类别标签从所述特殊符号库中获取特殊符号数据,得到目标特殊符号数据;分别将所述目标特殊符号数据的特殊符号从所述待检测的文本数据中进行特殊符号的查找,当在所述待检测的文本数据中查找到特殊符号时确定特殊符号检测结果为不通过,否则确定所述特殊符号检测结果为通过;当所述字符长度检测结果和所述特殊符号检测结果均为通过时,确定所述不规范检测结果为通过。3.根据权利要求1所述的问答对知识库的构建方法,其特征在于,所述将所述待检测的文本数据输入不当表述检测模型进行不当表述检测,得到不当表述检测结果的步骤,包括:将所述待检测的文本数据输入所述不当表述检测模型进行不当表述标签标注,得到所述待检测的文本数据对应的目标不当表述标签集;获取不当表述标准标签集,将所述不当表述标准标签集在所述目标不当表述标签集中进行不当表述标签的查找,当在所述目标不当表述标签集中查找不当表述标签失败时确定所述不当表述检测结果为通过。4.根据权利要求1所述的问答对知识库的构建方法,其特征在于,所述采用特定词语词典和通用错别字纠正模型对所述待检测的文本数据进行错别字检测和纠正,得到错别字纠正后的文本数据的步骤,包括:采用所述特定词语词典对所述待检测的文本数据进行错别字检测和纠正,得到特定词语纠正后的文本数据;采用所述通用错别字纠正模型对所述特定词语纠正后的文本数据进行错别字检测和纠正,得到所述错别字纠正后的文本数据。
5.根据权利要求4所述的问答对知识库的构建方法,其特征在于,所述采用所述特定词语词典对所述待检测的文本数据进行错别字检测和纠正,得到特定词语纠正后的文本数据的步骤,包括:对所述待检测的文本数据进行分句,得到多个待检测的文本句;分别将每个所述待检测的文本句与所述特定词语词典中的词语进行相似度计算,得...

【专利技术属性】
技术研发人员:张舒婷赖众程倪佳李骁李林毅高静陈志伟林志超李筱艺李会璟
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1