The invention discloses a training method and a device for training classification standard. The method includes: using the tagged key words set and untagged key words set to train the training classification standard many times. Compared with the existing technology, the classification algorithm is trained by the word vector set with tagged and untagged key words, so that the cross classification training is obtained. Training classification standards, more accurate. Thus, the problem of low accuracy of classification existing in the existing technology is solved, and the accuracy and robustness of the classification in the existing technology are improved.
【技术实现步骤摘要】
训练分类标准的训练方法和装置
本专利技术涉及语言处理领域,具体而言,涉及训练分类标准的训练方法和装置。
技术介绍
在互联网时代,每天都有大量网民通过点击搜索引擎营销(SearchEngineMarketing)广告访问网站,完成转化或购买行为。SEM业务人员需要对账户里的关键词不断地调整,使类别、含义相同或相近的关键词分配在相同的推广单元内。这样既能使不同类别、含义的关键词在投放时发挥最大作用,又方便账户结构的管理。由于关键词经常一词多义,或者有一些衍生的同义词。如挂壁电视、彩电都表示同一类型电视实体,iPhone、苹果手机、6splus,甚至网络流行的“肾六”等产品词都表示同一手机实体。虽然这些词字面不同,但表达相同的类别,应该被分配到同一推广单元。传统办法只能靠人工整理词根库,通过关键词的词根包含关系来确定关键词的类别。不仅需要耗费相当大的人力和时间去整理行业词根并且因为行业丰富,词根不能穷举,人工并不能想到所有的词根。而且通过包含关键词确定的类别的鲁棒性也不强,如“洗衣机罩”这个词并不属于“洗衣机”类别,却被划分到“洗衣机”的类别。而要克服这种问题,需要设定非常多的逻辑规则来规避。目前针对于上述问题,现有技术先将关键词向量化,再结合一种机器学习分类算法完成分类可以取得比较好的效果。词向量(Word2Vec)模型是一种序列化学习模型,是被广泛应用于自然语言处理(NatureLanguageProcessing)等领域的一种通用的技术。通过语料库(由很多文本句子组成的文本文件)的训练,它可以将语料库的中的每一个词序列化成一个由若干维度实数值组成的向量,所 ...
【技术保护点】
1.一种训练分类标准的训练方法,其特征在于,包括:获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准。
【技术特征摘要】
1.一种训练分类标准的训练方法,其特征在于,包括:获取关键词集,其中,所述关键词集包括:有标注关键词集和未标注关键词集,所述有标注关键词集由目标词集中的已标注的关键词及其标注构成,所述未标注关键词集由所述目标词集中的未标注的关键词构成;预处理所述关键词集中的所有所述关键词,并对预处理后的所述关键词集中的每个所述关键词进行向量化处理,获取向量化后的有标注关键词集和未标注关键词集;利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准。2.根据权利要求1所述的方法,其特征在于,利用不同的分类算法对所述向量化后的有标注关键词集和未标注关键词集进行多次分类训练,得到所述未标注关键词集的每种所述分类算法的最终训练分类标准包括:利用第一种分类算法和第二种分类算法分别对所述向量化后的有标注关键词集进行多次分类训练,得到每种所述分类算法的训练分类标准;从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准;从所述部分子集中筛选出最符合更新后的所述第一种分类算法的训练分类标准的所述向量化后的未标注关键词作为部分样本,并对所述部分样本进行标注;将标注后的所述部分样本利用第二种分类算法的训练分类标准进行分类训练,通过所述分类训练更新所述第二种分类算法的训练分类标准;对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行分类训练,得到每种分类算法对于未标注关键词集的最终训练分类标准。3.根据权利要求2所述的方法,其特征在于,对调分类算法并从向量化的未标注关键词集中重新选取所述部分子集进行训练,得到每种分类算法对于未标注关键词集的最终训练分类标准包括:将所述第二种分类算法作为新的第一种分类算法,将所述第一种分类算法作为新的第二种分类算法;返回从所述向量化后的未标注关键词集中选取出部分向量化后的未标注关键词构成部分子集,并利用所述第一种分类算法的训练分类标准对所述部分子集进行分类训练,通过所述分类训练更新所述第一种分类算法的训练分类标准的步骤,反复从所述向量化后的未标注关键词集中选取所述部分...
【专利技术属性】
技术研发人员:王天祎,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。