【技术实现步骤摘要】
一种信息处理方法、装置及计算机可读存储介质
本申请涉及计算机
,具体涉及一种信息处理方法、装置及计算机可读存储介质。
技术介绍
自然语言处理(NLP,NaturalLanguageProcessing)是使用自然语言同计算机进行通讯的技术。因为处理自然语言的关键是要让计算机理解自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguageUnderstanding)。现有技术中,为了构建更好的问答领域,需要获取大量优质的语料信息,而语料信息的生成一般采用两种途径,一种是通过人力的搜索进行添加补全,在人力补全之后还需要开发进行审核后才能上线,另一种为通过日志挖掘,通过关键字去召回用户的问句,然后人工审核标注,判断是否属于目标领域。在对现有技术的研究和实践过程中,本申请的专利技术人发现,现有技术中,人工成本较大,语料信息处理速度慢,导致处理周期较长,且语料信息覆盖不够全面。
技术实现思路
本申请实施例提供一种信息处理方法、装置及计算机可读存储介质,可以提升信 ...
【技术保护点】
1.一种信息处理方法,其特征在于,包括:/n根据目标语料信息生成多个测试语料信息;/n对每一测试语料信息与所述目标语料信息对应的初始语料信息进行组合,生成测试语料信息对;/n通过第一预设模型对所述测试语料信息对的文字相似特征维度进行处理,得到第一测试分数;/n将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理,得到第二测试分数;/n将所述第二测试分数高于第二预设阈值的测试语料信息对输入数据库。/n
【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:
根据目标语料信息生成多个测试语料信息;
对每一测试语料信息与所述目标语料信息对应的初始语料信息进行组合,生成测试语料信息对;
通过第一预设模型对所述测试语料信息对的文字相似特征维度进行处理,得到第一测试分数;
将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理,得到第二测试分数;
将所述第二测试分数高于第二预设阈值的测试语料信息对输入数据库。
2.根据权利要求1所述的信息处理方法,其特征在于,所述通过第一预设模型对所述测试语料信息对的文字相似特征维度进行处理,得到第一测试分数的步骤,包括:
将所述测试语料信息对输入第一预设模型,所述第一预设模型为通过对样本语料对之间的文字相似特征维度与预设标签之间的非线性关系进行学习得到,输出所述测试语料信息对在文字相似特征维度上的第一测试分数。
3.根据权利要求2所述的信息处理方法,其特征在于,所述将所述测试语料信息对输入第一预设模型,输出所述测试语料信息在文字相似特征维度上的第一测试分数的步骤,包括:
将所述测试语料信息对输入XGBoost树模型中的每一棵树,输出多个分数值;
根据所述多个分数值进行求和,得到第一测试分数。
4.根据权利要求3所述的信息处理方法,其特征在于,所述信息处理方法,还包括:
获取样本语料对,所述样本语料对携带预设标签;
将所述样本语料对和预设标签输入初始XGBoost树模型中的第一棵树进行训练,得到第一分数值;
获取所述第一分数值与预设标签之间的第一残差值;
将所述第一残差值作为第二棵树的预设标签并进行迭代训练处理,直至每一课树训练完毕,得到训练后的XGBoost树模型。
5.根据权利要求1至4任一项所述的信息处理方法,其特征在于,所述将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理,得到第二测试分数的步骤,包括:
获取第一测试分数低于第一预设阈值的测试语料信息对;
将所述第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型,所述第二预设模型为通过对样本语料对之间的语义相似特征维度与预设标签之间的非线性关系进行学习得到,输出所述测试语料信息对在语义相似特征维度上的第二测试分数。
6.根据权利要求5所述的信息处理方法,其特征在于,所述将所述第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型,输出所述测试语料信息对在语义相似特征维度上的第二测试分数的步骤,包括:
将所述第一测试分数低于第一预设阈值的测试语料信息对输入BERT模型,使得BERT模型将输入的测试语料信息对转化为向量信息进行特征处理,输出特征向量信息;
将输出的特征向量信息连接全连接层分类器,得到第二测试分数。
7.根据权利要求6所述的信息处理方法,其特征在于,所述信息处理方法,还包括:
获取样本语料对,所述样本语料对携带预设标签;
将所述样本语料对和预设标签输入初始BERT模型中,使得所述BERT模型提取样本语料对之间的语义相似度;
根据所述语义相似度...
【专利技术属性】
技术研发人员:周辉阳,闫昭,李勤,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。