训练分类标准的训练方法和装置制造方法及图纸

技术编号:18367382 阅读:129 留言:0更新日期:2018-07-05 08:37
本发明专利技术公开了一种训练分类标准的训练方法及装置。其中,该方法包括:采用有标注关键词集和未标注关键词集进行多次相互训练的方法得到训练分类标准,与现有技术相比,采用了词向量集合有标注和未标注的关键词共同对分类算法进行分类训练,使得经交叉分类训练得到的训练分类标准,更加准确。从而解决了现有技术中存在的分类准确度不高的问题,提高了现有技术中分类的准确度和鲁棒性。

Training methods and devices for training classification standards

The invention discloses a training method and a device for training classification standard. The method includes: using the tagged key words set and untagged key words set to train the training classification standard many times. Compared with the existing technology, the classification algorithm is trained by the word vector set with tagged and untagged key words, so that the cross classification training is obtained. Training classification standards, more accurate. Thus, the problem of low accuracy of classification existing in the existing technology is solved, and the accuracy and robustness of the classification in the existing technology are improved.

【技术实现步骤摘要】
训练分类标准的训练方法和装置
本专利技术涉及语言处理领域,具体而言,涉及训练分类标准的训练方法和装置。
技术介绍
在互联网时代,每天都有大量网民通过点击搜索引擎营销(SearchEngineMarketing)广告访问网站,完成转化或购买行为。SEM业务人员需要对账户里的关键词不断地调整,使类别、含义相同或相近的关键词分配在相同的推广单元内。这样既能使不同类别、含义的关键词在投放时发挥最大作用,又方便账户结构的管理。由于关键词经常一词多义,或者有一些衍生的同义词。如挂壁电视、彩电都表示同一类型电视实体,iPhone、苹果手机、6splus,甚至网络流行的“肾六”等产品词都表示同一手机实体。虽然这些词字面不同,但表达相同的类别,应该被分配到同一推广单元。传统办法只能靠人工整理词根库,通过关键词的词根包含关系来确定关键词的类别。不仅需要耗费相当大的人力和时间去整理行业词根并且因为行业丰富,词根不能穷举,人工并不能想到所有的词根。而且通过包含关键词确定的类别的鲁棒性也不强,如“洗衣机罩”这个词并不属于“洗衣机”类别,却被划分到“洗衣机”的类别。而要克服这种问题,需要设定非常多的逻辑规则来规避。目前针对于上述问题,现有技术先将关键词向量化,再结合一种机器学习分类算法完成分类可以取得比较好的效果。词向量(Word2Vec)模型是一种序列化学习模型,是被广泛应用于自然语言处理(NatureLanguageProcessing)等领域的一种通用的技术。通过语料库(由很多文本句子组成的文本文件)的训练,它可以将语料库的中的每一个词序列化成一个由若干维度实数值组成的向量,所有词生成的向量空间记为Ω。在学术界,每个词的实数值向量被认为表征该词在众多句子成分中出现的位置关系。如在某电商语料中,词“Apple”和词“苹果手机”在不同句子中总是有类似的上下文,那么在该词向量(Word2Vec)模型中,词“Apple”和词“苹果手机”在向量空间Ω中的距离就是相近的,也就是在某种向量相似度度量下相近,也即词“Apple”和词“苹果手机”就被认为是相似或相近的。也就是说,词向量模型可以把字面不同,但语义相同或相似的词映射成向量空间Ω中距离相近的向量。如图1所示,犬类和小狗很相近,猫和喵喵很相近,分类时,犬类和小狗会分到一类,猫和喵喵会分到另一类,不需要人工去总结和整理词根,仅需要判断那些待分类的关键词,与账户里哪些已分类、有标注分类的关键词,在向量空间Ω中在某种相似度度量下更相似即可。但是现有技术中利用上述词向量(Word2Vec)模型将关键词向量化后的分类的准确度不高,一些词语虽然很接近却有不同的含义,虽然不属于同一类,却因为较为接近而被分到了同一类中,比如肾6和肾药,针对于该问题尚未提出有效的解决方案。
技术实现思路
本专利技术提供了一种训练分类标准的训练方法和装置,解决现有技术中分类准确度不高的问题,以提高现有技术中分类的准确度和鲁棒性。根据本实施例的一个方面,提供了一种训练分类标准的训练方法,包括:一种训练分类标准的训练方法,其特征在于,包括:获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准。进一步地,,利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准包括:利用第一种分类算法和第二种分类算法分别对所述向量化后的有标注关键词集进行多次分类训练,得到每种所述分类算法的训练分类标准;从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准;从所述部分子集中筛选出最符合更新后的所述第一种分类算法的训练分类标准的所述向量化后的未标注关键词作为部分样本,并对所述部分样本进行标注;将标注后的所述部分样本利用第二种分类算法的训练分类标准进行分类训练,通过所述分类训练更新所述第二种分类算法的训练分类标准;对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行分类训练,得到每种分类算法对于未标注关键词集的最终训练分类标准。进一步地,对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行训练,得到每种分类算法对于未标注关键词集的最终训练分类标准包括:将所述第二种分类算法作为新的第一种分类算法,将所述第一种分类算法作为新的第二种分类算法;返回从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准的步骤,反复从所述向量化后的未标注关键词集中选取所述部分子集进行对调分类算法的分类训练,直至满足预设限定条件;将最后一次更新后的每种所述分类算法的训练分类标准作为所述未标注关键词集的每种所述分类算法的最终训练分类标准。进一步地,所述限定条件为预设定的步长。进一步地,从所述部分子集中筛选出最符合更新后的所述第一种分类算法的训练分类标准的所述向量化后的未标注关键词作为部分样本包括:根据第一种分类算法的训练分类标准以及设定阈值,从所述部分子集中选取分类正确性置信度最高的所述向量化后的未标注关键词作为部分样本,其中所述分类正确性置信度是概率。进一步地,得到每种分类算法对于未标注关键词集的最终训练分类标准之后还包括:利用所述向量化后的有标注关键词集交叉验证每种所述分类算法的最终训练分类标准,从中选取分类效果最佳的作为最佳训练分类标准。进一步地,利用所述最佳训练分类标准对所述向量化的未标注关键词集进行分类训练,获得所述未标注关键词集中未标注的关键词对应的标注,并将更新标注后的目标词集的数据上传至数据库。进一步地,所述预处理包括切词操作、去停用词操作和/或去标点操作。进一步地,所述对预处理后的所述关键词集中的每个关键词进行向量化处理包括:利用词向量模型将所述预处理后的关键词集中的所述每个关键词映射成一个固定长度的实数值向量;把所述每个关键词的所有映射的实数值向量加和取平均,得到所述每个关键词的向量表示。根据本实施例的另一方面,提供了一种训练分类标准的训练装置。根据本专利技术的训练分类标准的训练装置包括:获取单元,用于获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;处理单元,用于预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;训练单元,用于利用不本文档来自技高网
...
训练分类标准的训练方法和装置

【技术保护点】
1.一种训练分类标准的训练方法,其特征在于,包括:获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准。

【技术特征摘要】
1.一种训练分类标准的训练方法,其特征在于,包括:获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准。2.根据权利要求1所述的方法,其特征在于,利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准包括:利用第一种分类算法和第二种分类算法分别对所述向量化后的有标注关键词集进行多次分类训练,得到每种所述分类算法的训练分类标准;从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准;从所述部分子集中筛选出最符合更新后的所述第一种分类算法的训练分类标准的所述向量化后的未标注关键词作为部分样本,并对所述部分样本进行标注;将标注后的所述部分样本利用第二种分类算法的训练分类标准进行分类训练,通过所述分类训练更新所述第二种分类算法的训练分类标准;对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行分类训练,得到每种分类算法对于未标注关键词集的最终训练分类标准。3.根据权利要求2所述的方法,其特征在于,对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行训练,得到每种分类算法对于未标注关键词集的最终训练分类标准包括:将所述第二种分类算法作为新的第一种分类算法,将所述第一种分类算法作为新的第二种分类算法;返回从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准的步骤,反复从所述向量化后的未标注关键词集中选取所述部分...

【专利技术属性】
技术研发人员:王天祎
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1