文本分类模型的训练方法和装置制造方法及图纸

技术编号:21686411 阅读:36 留言:0更新日期:2019-07-24 14:44
说明书披露一种文本分类模型的训练方法和装置。该方法包括:对用于确定相似词的文本进行分词处理,将每个文本划分为一个或多个词语;汇总各文本,并提取汇总结果中满足预定条件的词语作为备选词;获取初始特征词;针对每个初始特征词,计算各备选词与所述初始特征词的相似度;将相似度满足相似度条件的备选词确定为所述初始特征词的相似词;将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词,对文本分类模型进行训练。

Training Method and Device of Text Classification Model

【技术实现步骤摘要】
文本分类模型的训练方法和装置
本说明书涉及机器学习
,尤其涉及一种文本分类模型的训练方法和装置。
技术介绍
随着人工智能技术的不断发展,文本分类已应用到各种各样的场景中。例如,在反洗钱场景中,判断一条文本是否涉及到反洗钱内容。再例如,在即时通信场景中,判断一条文本是否涉及到赌博内容等。文本分类模型的准确度可直接影响相关业务场景的处理决策。
技术实现思路
有鉴于此,本说明书提供一种文本分类模型的训练方法和装置。具体地,本说明书是通过如下技术方案实现的:一种文本分类模型的训练方法,包括:对用于确定相似词的文本进行分词处理,将每个文本划分为一个或多个词语;汇总各文本,并提取汇总结果中满足预定条件的词语作为备选词;获取初始特征词;针对每个初始特征词,计算各备选词与所述初始特征词的相似度;将相似度满足相似度条件的备选词确定为所述初始特征词的相似词;将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词,对文本分类模型进行训练。一种反洗钱场景中文本分类模型的训练方法,包括:对用于确定相似词的文本进行分词处理,将每个文本划分为一个或多个词语;汇总各文本,并提取汇总结果中满足预定条件的词语作为备选词;获取与反洗钱相关的初始特征词;针对每个初始特征词,计算各备选词与所述初始特征词的相似度;将相似度满足相似度条件的备选词确定为所述初始特征词的相似词;将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词,采用半监督学习算法对文本分类模型进行训练。一种文本分类模型的训练装置,包括:文本分词单元,对用于确定相似词的文本进行分词处理,将每个文本划分为一个或多个词语;备选提取单元,汇总各文本,并提取汇总结果中满足预定条件的词语作为备选词;初始获取单元,获取初始特征词;相似确定单元,针对每个初始特征词,计算各备选词与所述初始特征词的相似度;将相似度满足相似度条件的备选词确定为所述初始特征词的相似词;模型训练单元,将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词,对文本分类模型进行训练。一种文本分类模型的训练装置,包括:处理器;用于存储机器可执行指令的存储器;其中,通过读取并执行所述存储器存储的与文本分类模型的训练逻辑对应的机器可执行指令,所述处理器被促使:对用于确定相似词的文本进行分词处理,将每个文本划分为一个或多个词语;汇总各文本,并提取汇总结果中满足预定条件的词语作为备选词;获取初始特征词;针对每个初始特征词,计算各备选词与所述初始特征词的相似度;将相似度满足相似度条件的备选词确定为所述初始特征词的相似词;将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词,对文本分类模型进行训练。由以上描述可以看出,本说明书可为初始特征词确定相似词,并将初始特征词和其相似词共同作为训练文本的特征词对文本分类模型进行训练,通过对初始特征词的扩展提高文本分类模型训练结果的准确性,可有效解决带标签训练文本较少的应用场景下文本分类模型的训练问题,解决模型训练的冷启动问题。附图说明图1是本说明书一示例性实施例示出的一种文本分类模型的训练方法的流程示意图。图2是本说明书一示例性实施例示出的一种反洗钱场景中文本分类模型的训练方法的流程示意图。图3是本说明书一示例性实施例示出的一种用于文本分类模型的训练装置的一结构示意图。图4是本说明书一示例性实施例示出的一种文本分类模型的训练装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。图1是本说明书一示例性实施例示出的一种文本分类模型的训练方法的流程示意图。请参考图1,所述文本分类模型的训练方法可包括以下步骤:步骤102,对用于确定相似词的文本进行分词处理,将每个文本划分为一个或多个词语。在本实施例中,可先获取用于确定初始特征词的相似词的文本。例如,在反洗钱场景中,可获取一段时间内用户之间的聊天文本、交易文本等作为用于确定相似词的文本。在获取到用于确定相似词的文本后,可对各文本进行分词处理,通过分词处理,可将每个文本划分为一个或多个词语。例如,可采用相关技术中提供的分词开源工具,诸如ICTCLAS、SCWS等进行分词处理,当然,也可采用自行开发的工具对文本进行分词处理,本说明书对此不作特殊限制。步骤104,汇总各文本,并提取汇总结果中满足预定条件的词语作为备选词。在本实施例中,可将分词后的文本汇总到一起,得到汇总结果。所述汇总结果包括各个文本所包括的词语。然后,可计算汇总结果中各个词语在预定维度下的衡量参数,并基于所述衡量参数进行备选词的提取,例如可按照衡量参数的大小对各个词语进行排序,并提取排列在前N位的词语作为备选词等。所述预定维度下的衡量参数可包括词频、TF-IDF(termfrequency–inversedocumentfrequency,词频-逆向文件频率)等。N的取值可预先设置,例如,5万、10万等。本实施例通过备选词的提取,可过滤掉不常用的词语,提高后续相似词选取的效率。步骤106,获取初始特征词。在本实施例中,所述初始特征词可用于描述文本的语义,可对文本分类结果产生影响。针对不同的应用场景,可设置不同的初始特征词。例如,当文本分类模型应用于反洗钱场景时,所述文本分类模型可用于判定文本是否涉及到反洗钱的内容,所述初始特征词可以包括:洗钱、套钱等。再例如,当文本分类模型应用于反赌博场景时,所述文本分类模型可用于判定文本是否涉及到反赌博内容,所述初始特征词可以包括:老虎机、赌球、骨骰、轮盘等。步骤108,针对每个初始特征词,计算各备选词与所述初始特征词的相似度。步骤110,将相似度满足相似度条件的备选词确定为所述初始特征词的相似词。在本实施例中,可在所述备选词中分别为每个初始词确定若干相似词。在本实施例中,在进行词语之间的相似度计算时,可先为各个词语生成对应的向量。例如,可采用cw2vec算法为各初始特征词和备选词生成对应的词向量和若干N元笔画向量。其中,所述N元笔画向量是将所述词语基于笔画进行拆分后,连续N个笔画对应的向量。所述连续N个笔画可能是偏旁,也可能是汉字,还可能是一个非人为总结的表义结构,所述连续N个笔画可以更好的补充中文词语的语义。当然,还可采用其他算法生成本文档来自技高网...

【技术保护点】
1.一种文本分类模型的训练方法,包括:对用于确定相似词的文本进行分词处理,将每个文本划分为一个或多个词语;汇总各文本,并提取汇总结果中满足预定条件的词语作为备选词;获取初始特征词;针对每个初始特征词,计算各备选词与所述初始特征词的相似度;将相似度满足相似度条件的备选词确定为所述初始特征词的相似词;将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词,对文本分类模型进行训练。

【技术特征摘要】
1.一种文本分类模型的训练方法,包括:对用于确定相似词的文本进行分词处理,将每个文本划分为一个或多个词语;汇总各文本,并提取汇总结果中满足预定条件的词语作为备选词;获取初始特征词;针对每个初始特征词,计算各备选词与所述初始特征词的相似度;将相似度满足相似度条件的备选词确定为所述初始特征词的相似词;将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词,对文本分类模型进行训练。2.根据权利要求1所述的方法,所述计算各备选词与所述初始特征词的相似度,包括:采用cw2vec算法为各备选词和初始特征词生成对应的词向量;计算所述备选词对应的词向量和所述初始特征词对应的词向量之间的向量距离,作为所述备选词和所述初始特征词的相似度。3.根据权利要求1所述的方法,所述计算各备选词与所述初始特征词的相似度,包括:采用cw2vec算法为各备选词和初始特征词生成对应的N元笔画向量集合;计算所述备选词对应的N元笔画向量集合和所述初始特征词对应的N元笔画向量集合之间的最大相似度,作为所述备选词和所述初始特征词的相似度。4.根据权利要求1所述的方法,所述对文本分类模型进行训练,包括:采用半监督学习算法对文本分类模型进行训练。5.一种反洗钱场景中文本分类模型的训练方法,包括:对用于确定相似词的文本进行分词处理,将每个文本划分为一个或多个词语;汇总各文本,并提取汇总结果中满足预定条件的词语作为备选词;获取与反洗钱相关的初始特征词;针对每个初始特征词,计算各备选词与所述初始特征词的相似度;将相似度满足相似度条件的备选词确定为所述初始特征词的相似词;将所述初始特征词和所述初始特征词的相似词作为训练文本的特征词,采用半监督学习算法对文本分类模型进行训练。6.一种文本分类模型的训练装置,包括:文本分词单元,对用于确定相似词的文本进...

【专利技术属性】
技术研发人员:曹绍升李怀松周俊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1