数据处理方法、装置、服务器及存储介质制造方法及图纸

技术编号:26598864 阅读:17 留言:0更新日期:2020-12-04 21:21
本发明专利技术实施例公开了一种数据处理方法、装置、服务器及存储介质,其中方法包括:获取第一样本集,第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,标注信息用于指示第一文本的类型,类型包括正常类型或异常类型;获取第二样本集,第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,第二文本是对第一文本进行文本表现形式的转换得到的,文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;采用第一样本集和第二样本集对初始识别模型进行训练,得到目标识别模型,目标识别模型用于识别文本的类型,可训练得到较高的识别准确度的文本识别模型。

【技术实现步骤摘要】
数据处理方法、装置、服务器及存储介质
本申请涉及计算机
,尤其涉及一种数据处理方法、装置、服务器及存储介质。
技术介绍
随着当前互联网技术的深入发展,基于互联网的信息搜索可极大地提升用户的信息获取速度,因此,各种网络搜索平台因运而生,而网络搜索平台在对用户的信息搜索进行响应时,需要先进行敏感词检测,以确定出显示给用户的文本的类型,从而可避免将非法内容(或敏感内容)显示给用户,造成不好的社会影响。当前确定文本类型的方法是采用的通过文本识别模型对文本进行识别,并确定出文本的类型的方法,但当前进行模型训练得到该文本识别模型的样本数据比较单一,使得当前的文本识别模型进行文本类型的识别时的准确度较低,由此,如何训练得到较高准确度的类型识别模型是当前的研究热点。
技术实现思路
本专利技术实施例提供了一种数据处理方法、装置、服务器及存储介质,可训练得到较高的识别准确度的文本识别模型。一方面,本专利技术实施例提供了一种数据处理方法,包括:获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。再一方面,本专利技术实施例提供了一种数据处理装置,包括:获取单元,用于获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;所述获取单元,还用于获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;训练单元,用于采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。再一方面,本专利技术实施例提供了一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如下步骤:获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。再一方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时,用于执行如第一方面所述的数据处理方法。在本专利技术实施例中,服务器可先获取包括了多个第一文本的标注信息,以及每个第一文本对应的第一词向量组的第一样本集,此外,该服务器还可获取由多个第二文本中各个第二文本对应的第二词向量组构成的第二文本集,其中,该第二文本是对该第一文本进行文本表现形式的转换得到的,从而可采用该第一样本集和该第二样本集对初始识别模型进行训练,得到目标识别模型,服务器通过对第一文本的文本表现形式进行的转换,实现了对用于进行识别模型训练的样本集的扩充,即由原有的仅包括第一文本对应的第一词向量组的第一样本集,扩充为包括该第一样本集和第二样本集的两个训练样本集,由于该扩充的第二样本集是基于第一样本集进行转换得到的,可降低服务器进行样本采集的压力,而基于对原有训练样本的扩充,使得服务器可基于更加泛化的样本数据对该初始识别模型进行训练,可提升训练得到的目标识别模型进行文本识别的能力。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种训练得到向量生成模型的示意图;图2是本专利技术实施例提供的一种数据处理方法的示意流程图;图3a是本专利技术实施例提供的一种得到目标文本的示意图;图3b是本专利技术实施例提供的一种不同文本表现形式的文本的示意图;图3c是本专利技术实施例提供的一种目标识别模型的示意图;图4是本专利技术实施例提供的一种数据处理方法的示意流程图;图5是本专利技术实施例提供的一种数据处理方法的示意图;图6是本专利技术实施例提供的一种数据处理装置的示意性框图;图7是本专利技术实施例提供的一种服务器的示意性框图。具体实施方式人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器(或服务器),也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,通过模型训练以使得服务器对人类的学习行为进行模型,从而获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本专利技术实施例提供了一种数据处理方法,该数据处理方法在原有的第一样本集的基础上,基于对文本表现形式的转换,得到第二样本集,并采用第一样本集和第二样本集同时对初始识别模型进行训练,得到目标识别模型的方法,使得训练得到的目标识别模型在对原有文本的语义进行识别的基础上,扩展了对原有文本的转换文本进行识别理解的能力,从而可提升目标识别模型的文本识别能力,提高识别准确性。在具体实现中,服务器在进行模型训练并得到目标识别模型时,可先获取多个第一文本,每个第一文本是关联了标注信息的文本,其中,该第一文本为短文本,该短文本可以是文章标题,文章摘要中的一个短句,或本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;/n获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;/n采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取第一样本集,所述第一样本集包括多个第一文本的标注信息,以及各个第一文本对应的第一词向量组,所述标注信息用于指示所述第一文本的类型,所述类型包括正常类型或异常类型;
获取第二样本集,所述第二样本集包括多个第二文本中各个第二文本对应的第二词向量组,所述第二文本是对所述第一文本进行文本表现形式的转换得到的,所述文本表现形式包括以下任一种:中文表现形式、英文表现形式和拼音表现形式;
采用所述第一样本集和所述第二样本集对初始识别模型进行训练,得到目标识别模型,所述目标识别模型用于识别文本的类型。


2.根据权利要求1所述的方法,其特征在于,所述多个第一文本中任一个第一文本表示为目标文本,或者,所述多个第二文本中任一个第二文本为所述目标文本,则所述目标文本对应的目标词向量组的获取方式包括:
对所述目标文本进行分词处理,得到所述目标文本的分词集合,所述分词集合包括至少一个分词;
调用向量生成模型对所述至少一个分词进行词向量生成处理,得到所述至少一个分词中每个分词的词向量;
对所述每个分词的词向量进行向量转换,得到所述每个分词的词向量的隐式表达,并根据所述每个分词的词向量的隐式表达确定所述目标词向量组。


3.根据权利要求2所述的方法,其特征在于,对所述目标文本进行分词处理,包括:
若所述目标文本的文本表现形式为中文表现形式或英文表现形式,则根据所述目标文本的语义对所述目标文本进行分词处理;
若所述目标文本的文本表现形式为拼音表现形式,则以字为单位对所述目标文本进行分词处理,其中,分词处理得到的分词集合包括的每个分词为一个字的拼音。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取第三样本集,所述第三样本集包括多个第三文本;
将所述多个第三文本中的每个文本的文本表现形式进行转换,得到所述第三样本集对应的转换样本集;
采用所述第三样本集和所述转换样本集,对用于生成词向量的初始模型进行训练,得到所述向量生成模型。


5.根据权利要求1所述的方法,其特征在于,所述采用所述第一样本集和所述第二样本集对初始识别模型进行训练,包括:
将所述第一样本集中的第一词向量组,以及所述第二样本集中与所述第一词向量组对应的第二词向量组进行向量连接,得到目标词向量组;
采用所述目标词向量组,并根据所述第一样本集包括的标注信息,对初始识别模型进行训练。


6.根据权利要求1所述的方法,其特征在于,所述第一样本集中的任一个第一文本表示为目标文本,所述目标文本的确定方式包括:
获取初始样本,以及与所述初始样本关联的初始标注信息;
对所述初始样本进行分词处理,得到所述初始样本的初始分词集,所述初始分词集中包括至少一个初始分词;
确定所述至少一个初始分词中每个初始分词与所述初始标注信息之间的互信息值,并根据所述互信息值对所述初始样本进行增强处理;
将增强处理后的初始样本确定为所述目标文本。


7.根据权利要求6所述的方法,其特征在于,所述根据所述互信息值对所述初始样本进行增强处理,包括:
根据所述互信息值的大小,对所述至少一个初始分词进行排序;
按照所述互信息值从大到小的顺序,依次从所述至少一个初始分词中选...

【专利技术属性】
技术研发人员:唐亚腾
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1