文本分类模型的训练方法和装置制造方法及图纸

技术编号：21686411 阅读：36 留言：0更新日期：2019-07-24 14:44

说明书披露一种文本分类模型的训练方法和装置。该方法包括：对用于确定相似词的文本进行分词处理，将每个文本划分为一个或多个词语；汇总各文本，并提取汇总结果中满足预定条件的词语作为备选词；获取初始特征词；针对每个初始特征词，计算各备选词与所述初始特征词的相似度；将相似度满足相似度条件的备选词确定为所述初始特征词的相似词；将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词，对文本分类模型进行训练。

Training Method and Device of Text Classification Model

全部详细技术资料下载

【技术实现步骤摘要】
文本分类模型的训练方法和装置
本说明书涉及机器学习
，尤其涉及一种文本分类模型的训练方法和装置。
技术介绍
随着人工智能技术的不断发展，文本分类已应用到各种各样的场景中。例如，在反洗钱场景中，判断一条文本是否涉及到反洗钱内容。再例如，在即时通信场景中，判断一条文本是否涉及到赌博内容等。文本分类模型的准确度可直接影响相关业务场景的处理决策。
技术实现思路
有鉴于此，本说明书提供一种文本分类模型的训练方法和装置。具体地，本说明书是通过如下技术方案实现的：一种文本分类模型的训练方法，包括：对用于确定相似词的文本进行分词处理，将每个文本划分为一个或多个词语；汇总各文本，并提取汇总结果中满足预定条件的词语作为备选词；获取初始特征词；针对每个初始特征词，计算各备选词与所述初始特征词的相似度；将相似度满足相似度条件的备选词确定为所述初始特征词的相似词；将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词，对文本分类模型进行训练。一种反洗钱场景中文本分类模型的训练方法，包括：对用于确定相似词的文本进行分词处理，将每个文本划分为一个或多个词语；汇总各文本，并提取汇总结果中满足预定条件的词语作为备选词；获取与反洗钱相关的初始特征词；针对每个初始特征词，计算各备选词与所述初始特征词的相似度；将相似度满足相似度条件的备选词确定为所述初始特征词的相似词；将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词，采用半监督学习算法对文本分类模型进行训练。一种文本分类模型的训练装置，包括：文本分词单元，对用于确定相似词的文本进行分词处理，将每个文本划分为一个或多个词语；备...

【技术保护点】
1.一种文本分类模型的训练方法，包括：对用于确定相似词的文本进行分词处理，将每个文本划分为一个或多个词语；汇总各文本，并提取汇总结果中满足预定条件的词语作为备选词；获取初始特征词；针对每个初始特征词，计算各备选词与所述初始特征词的相似度；将相似度满足相似度条件的备选词确定为所述初始特征词的相似词；将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词，对文本分类模型进行训练。

【技术特征摘要】
1.一种文本分类模型的训练方法，包括：对用于确定相似词的文本进行分词处理，将每个文本划分为一个或多个词语；汇总各文本，并提取汇总结果中满足预定条件的词语作为备选词；获取初始特征词；针对每个初始特征词，计算各备选词与所述初始特征词的相似度；将相似度满足相似度条件的备选词确定为所述初始特征词的相似词；将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词，对文本分类模型进行训练。2.根据权利要求1所述的方法，所述计算各备选词与所述初始特征词的相似度，包括：采用cw2vec算法为各备选词和初始特征词生成对应的词向量；计算所述备选词对应的词向量和所述初始特征词对应的词向量之间的向量距离，作为所述备选词和所述初始特征词的相似度。3.根据权利要求1所述的方法，所述计算各备选词与所述初始特征词的相似度，包括：采用cw2vec算法为各备选词和初始特征词生成对应的N元笔画向量集合；计算所述备选词对应的N元笔画向量集合和所述初始特征词对应的N元笔画向量集合之间的最大相似度，作为所述备选词和所述初始特征词的相似度。4.根据权利要求1所述的方法，所述对文本分类模型进行训练，包括：采用半监督学习算法对文本分类模型进行训练。5.一种反洗钱场景中文本分类模型的训练方法，包括：对用于确定相似词的文本进行分词处理，将每个文本划分为一个或多个词语；汇总各文本，并提取汇总结果中满足预定条件的词语作为备选词；获取与反洗钱相关的初始特征词；针对每个初始特征词，计算各备选词与所述初始特征词的相似度；将相似度满足相似度条件的备选词确定为所述初始特征词的相似词；将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词，采用半监督学习算法对文本分类模型进行训练。6.一种文本分类模型的训练装置，包括：文本分词单元，对用于确定相似词的文本进...

【专利技术属性】
技术研发人员：曹绍升，李怀松，周俊，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人