【技术实现步骤摘要】
数据处理方法、装置、服务器及存储介质
本申请涉及计算机
,尤其涉及一种数据处理方法、装置、服务器及存储介质。
技术介绍
随着当前互联网技术的深入发展,基于互联网的信息搜索可极大地提升用户的信息获取速度,因此,各种网络搜索平台因运而生,而网络搜索平台在对用户的信息搜索进行响应时,需要先进行敏感词检测,以确定出显示给用户的文本的类型,从而可避免将非法内容(或敏感内容)显示给用户,造成不好的社会影响。当前确定文本类型的方法是采用的通过文本识别模型对文本进行识别,并确定出文本的类型的方法,但当前进行模型训练得到该文本识别模型的样本数据比较单一,使得当前的文本识别模型进行文本类型的识别时的准确度较低,由此,如何训练得到较高准确度的类型识别模型是当前的研究热点。
技术实现思路
本专利技术实施例提供了一种数据处理方法、装置、服务器及存储介质,可训练得到较高的识别准确度的文本识别模型。一方面,本专利技术实施例提供了一种数据处理方法,包括:获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识 ...
【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;/n获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;/n采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;
获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;
采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。
2.根据权利要求1所述的方法,其特征在于,所述多个第一文本中任一个第一文本表示为目标文本,或者,所述多个第二文本中任一个第二文本为所述目标文本,则所述目标文本对应的目标词向量组的获取方式包括:
对所述目标文本进行分词处理,得到所述目标文本的分词集合,所述分词集合包括至少一个分词;
调用向量生成模型对所述至少一个分词进行词向量生成处理,得到所述至少一个分词中每个分词的词向量;
对所述每个分词的词向量进行向量转换,得到所述每个分词的词向量的隐式表达,并根据所述每个分词的词向量的隐式表达确定所述目标词向量组。
3.根据权利要求2所述的方法,其特征在于,对所述目标文本进行分词处理,包括:
若所述目标文本的文本表现形式为中文表现形式或英文表现形式,则根据所述目标文本的语义对所述目标文本进行分词处理;
若所述目标文本的文本表现形式为拼音表现形式,则以字为单位对所述目标文本进行分词处理,其中,分词处理得到的分词集合包括的每个分词为一个字的拼音。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取第三样本集,所述第三样本集包括多个第三文本;
将所述多个第三文本中的每个文本的文本表现形式进行转换,得到所述第三样本集对应的转换样本集;
采用所述第三样本集和所述转换样本集,对用于生成词向量的初始模型进行训练,得到所述向量生成模型。
5.根据权利要求1所述的方法,其特征在于,所述采用所述第一样本集和所述第二样本集对初始识别模型进行训练,包括:
将所述第一样本集中的第一词向量组,以及所述第二样本集中与所述第一词向量组对应的第二词向量组进行向量连接,得到目标词向量组;
采用所述目标词向量组,并根据所述第一样本集包括的标注信息,对初始识别模型进行训练。
6.根据权利要求1所述的方法,其特征在于,所述第一样本集中的任一个第一文本表示为目标文本,所述目标文本的确定方式包括:
获取初始样本,以及与所述初始样本关联的初始标注信息;
对所述初始样本进行分词处理,得到所述初始样本的初始分词集,所述初始分词集中包括至少一个初始分词;
确定所述至少一个初始分词中每个初始分词与所述初始标注信息之间的互信息值,并根据所述互信息值对所述初始样本进行增强处理;
将增强处理后的初始样本确定为所述目标文本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述互信息值对所述初始样本进行增强处理,包括:
根据所述互信息值的大小,对所述至少一个初始分词进行排序;
按照所述互信息值从大到小的顺序,依次从所述至少一个初始分词中选...
【专利技术属性】
技术研发人员:唐亚腾,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。