一种半监督的领域词挖掘与分类的方法和设备技术

技术编号:17032921 阅读:424 留言:0更新日期:2018-01-13 19:24
本发明专利技术实例提出了一种半监督的领域词挖掘与分类的方法和设备,其中该方法包括:对领域相关语料进行预处理以及构建种子词表和词语相似度矩阵,挖掘候选领域词以及确定候选领域词的相似度分布,对筛选出的领域词进行类别的标记;以此通过半监督的方式,无需大量标注数据,只需要基于一般的领域文本和少量种子词表即可完成领域词的挖掘与分类。

【技术实现步骤摘要】
一种半监督的领域词挖掘与分类的方法和设备
本专利技术涉及领域词挖掘与分类领域,特别涉及一种半监督的领域词挖掘与分类的方法和设备。背景
词是最能代表领域特性并区别其它领域的特征,且领域词可依据在领域内的不同作用划分为不同类别标签,领域词及其类别构成了领域的基础词表数据;因此,领域词的挖掘和分类是中文信息处理的一项重要的基础性工作,在许多中文信息处理项目(例如:自动问答、自动文摘、自动分类、搜索引擎等)中都会涉及到领域词挖掘及分类问题。而目前领域词的挖掘及分类算法都是要求有监督的学习才能获取到一个比较好的效果。但是有监督就需要大量的已标注语料,而有标注语料其实难以获取,因此实际使用的效果不佳。
技术实现思路
针对现有技术中的缺陷,本专利技术提出了一种半监督的领域词挖掘与分类的方法和设备,通过半监督的方式,无需大量标注数据,只需要基于一般的领域文本和少量种子词表即可完成领域词的挖掘与分类。具体的,本专利技术提出了以下具体的实施例:本专利技术实施例提出了一种半监督的领域词挖掘与分类的方法,包括:对待处理领域的文本数据进行分词和句法分析,并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵;以所述文本数据中人工构建的一定数量的种子词为起点,基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词,并利用词频、词性、词向量过滤种子词,获得种子词表;针对所述种子词表,利用词向量、知识库、统计学特征等确定任意两词的总体相似度,并以此生成词语相似度矩阵;基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘,以及确定所述候选领域词的类别概率分布;针对各候选领域词,基于所述候选领域词的类别概率分布,当对应类别的最大概率与第二大概率的差值大于预设阈值时,确认所述候选领域词为领域词,且所述最大概率对应的类别为所述领域词的类别。在一个具体的实施例中,所述“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括:获取对所述文本数据进行分词的结果;基于所述分词的结果训练word2vec模型,以获取所述文本数据内所有词的词向量矩阵。在一个具体的实施例中,所述“以所述文本数据中人工构建的一定数量的种子词为起点,基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词,并利用词频、词性、词向量过滤种子词,获得种子词表”包括:获取所述文本数据中,以人工的方式所构建的种子词;其中,所述种子词中包括词与所述词对应的类别;确定所述种子词在所述文本数据中词性与句法的构成模式;基于所述构成模式在所述文本数据中确定新的种子词,并集合所有种子词生成初步种子词表;对所述初步种子词表进行过滤;其中,所述过滤包括低频过滤与词性过滤;进行词性过滤时保留有名词、动词、形容词、副词;对过滤后的初步种子词表通过word2vec模型的词向量进行Kmeans聚类,以过滤掉非聚簇的离散词,并获取最终的种子词表。在一个具体的实施例中,所述“针对所述种子词表,利用词向量、知识库、统计学特征等确定任意两词的总体相似度,并以此生成词语相似度矩阵”包括:通过word2vec模型获取的词向量确定所述文本数据中任意两词的第一相似度;通过预设知识库的词语相似度确定方法对所述文本数据内任意两词的第二相似度进行确定;确定所述文本数据内所有词的统计特征;其中,所述统计特征包括:词频、TF/IDF、互信息、熵权重统计学特征;基于所述文本数据与已构建的种子词表构建词语总体相似度的训练测试集耦合所述第一相似度、所述第二相似度、所述统计特征,并通过所述训练测试集构建用于确定所述文本数据内任意两词总体相似度的LR计算模型;基于所述LR计算模型确定所述文本数据内任意两词的总体相似度,并基于所述总体相似度生成词语相似度矩阵。在一个具体的实施例中,所述“基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘,以及确定所述候选领域词的类别概率分布”包括:将所述文本数据中的非种子词设置为候选领域词;基于所述词语相似度矩阵获取所述候选领域词语所有种子词的相似度;将相似度超过预设值的种子词按照类别进行合并,得到不同类别的种子词集合;针对各所述候选领域词,分析不同类别的所述种子词集合下的相似度特征;其中,所述相似度特征包括:最大相似度、最小相似度、相似度序列均值、相似度序列方差、前3大相似度、最小的3个相似度;基于所述文本数据与已构建的种子词表,构建词语与类别的相似度训练与测试集;选取所述相似度特征与所述相似度训练与测试集构建词语与类别的相似度LR计算模型;通过所述相似度LR计算模型确定各所述候选领域词与不同类别的相似度;对与不同类别的相似度进行归一化处理,以确定所述候选领域词的类别概率分布。本专利技术实施例还提出了一种半监督的领域词挖掘与分类的设备,包括:获取模块,用于对待处理领域的文本数据进行分词和句法分析,并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵;构建模块,用于以所述文本数据中人工构建的一定数量的种子词为起点,基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词,并利用词频、词性、词向量过滤种子词,获得种子词表;生成模块,用于针对所述种子词表,利用词向量、知识库、统计学特征等确定任意两词的总体相似度,并以此生成词语相似度矩阵;挖掘模块,用于基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘,以及确定所述候选领域词的类别概率分布;类别确定模块,用于针对各候选领域词,基于所述候选领域词的类别概率分布,当对应类别的最大概率与第二大概率的差值大于预设阈值时,确认所述候选领域词为领域词,且所述最大概率对应的类别为所述领域词的类别。在一个具体的实施例中,所述获取模块“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括:获取对所述文本数据进行分词的结果;基于所述分词的结果训练word2vec模型,以获取所述文本数据内所有词的词向量矩阵。在一个具体的实施例中,所述构建模块,用于:获取所述文本数据中,以人工的方式所构建的种子词;其中,所述种子词中包括词与所述词对应的类别;确定所述种子词在所述文本数据中词性与句法的构成模式;基于所述构成模式在所述文本数据中确定新的种子词,并集合所有种子词生成初步种子词表;对所述初步种子词表进行过滤;其中,所述过滤包括低频过滤与词性过滤;进行词性过滤时保留有名词、动词、形容词、副词;对过滤后的初步种子词表通过word2vec模型的词向量进行Kmeans聚类,以过滤掉非聚簇的离散词,并获取最终的种子词表。在一个具体的实施例中,所述生成模块,用于:通过word2vec模型获取的词向量确定所述文本数据中任意两词的第一相似度;通过预设知识库的词语相似度确定方法对所述文本数据内任意两词的第二相似度进行确定;确定所述文本数据内所有词的统计特征;其中,所述统计特征包括:词频、TF/IDF、互信息、熵权重统计学特征;基于所述文本数据与已构建的种子词表构建词语总体相似度的训练测试集耦合所述第一相似度、所述第二相似度、所述统计特征,并通过所述训练测试集构建用于确定所述文本数据内任意两词总体相似度的LR计算模型;基于所述LR计算模型确定所述文本数据内任意两词的总体相似度,并基于所述总体相似度生成词语相似度矩阵。在一个具体的实施例中,所述类别确定模块,用于:本文档来自技高网...
一种半监督的领域词挖掘与分类的方法和设备

【技术保护点】
一种半监督的领域词挖掘与分类的方法,其特征在于,包括:对待处理领域的文本数据进行分词和句法分析,并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵;以所述文本数据中人工构建的一定数量的种子词为起点,基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词,并利用词频、词性、词向量过滤种子词,获得种子词表;针对所述种子词表,利用词向量、知识库、统计学特征等确定任意两词的总体相似度,并以此生成词语相似度矩阵;基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘,以及确定所述候选领域词的类别概率分布;针对各候选领域词,基于所述候选领域词的类别概率分布,当对应类别的最大概率与第二大概率的差值大于预设阈值时,确认所述候选领域词为领域词,且所述最大概率对应的类别为所述领域词的类别。

【技术特征摘要】
1.一种半监督的领域词挖掘与分类的方法,其特征在于,包括:对待处理领域的文本数据进行分词和句法分析,并基于所述分词的结果获取所述文本数据中所有词的词向量矩阵;以所述文本数据中人工构建的一定数量的种子词为起点,基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词,并利用词频、词性、词向量过滤种子词,获得种子词表;针对所述种子词表,利用词向量、知识库、统计学特征等确定任意两词的总体相似度,并以此生成词语相似度矩阵;基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘,以及确定所述候选领域词的类别概率分布;针对各候选领域词,基于所述候选领域词的类别概率分布,当对应类别的最大概率与第二大概率的差值大于预设阈值时,确认所述候选领域词为领域词,且所述最大概率对应的类别为所述领域词的类别。2.如权利要求1所述的方法,其特征在于,所述“基于所述分词的结果获取所述文本数据中所有词的词向量矩阵”包括:获取对所述文本数据进行分词的结果;基于所述分词的结果训练word2vec模型,以获取所述文本数据内所有词的词向量矩阵。3.如权利要求1所述的方法,其特征在于,所述“以所述文本数据中人工构建的一定数量的种子词为起点,基于所述种子词在所述文本数据中的词性与句法的构成模式扩展种子词,并利用词频、词性、词向量过滤种子词,获得种子词表”包括:获取所述文本数据中,以人工的方式所构建的种子词;其中,所述种子词中包括词与所述词对应的类别;确定所述种子词在所述文本数据中词性与句法的构成模式;基于所述构成模式在所述文本数据中确定新的种子词,并集合所有种子词生成初步种子词表;对所述初步种子词表进行过滤;其中,所述过滤包括低频过滤与词性过滤;进行词性过滤时保留有名词、动词、形容词、副词;对过滤后的初步种子词表通过word2vec模型的词向量进行Kmeans聚类,以过滤掉非聚簇的离散词,并获取最终的种子词表。4.如权利要求1所述的方法,其特征在于,所述“针对所述种子词表,利用词向量、知识库、统计学特征等确定任意两词的总体相似度,并以此生成词语相似度矩阵”包括:通过word2vec模型获取的词向量确定所述文本数据中任意两词的第一相似度;通过预设知识库的词语相似度确定方法对所述文本数据内任意两词的第二相似度进行确定;确定所述文本数据内所有词的统计特征;其中,所述统计特征包括:词频、TF/IDF、互信息、熵权重统计学特征;基于所述文本数据与已构建的种子词表构建词语总体相似度的训练测试集耦合所述第一相似度、所述第二相似度、所述统计特征,并通过所述训练测试集构建用于确定所述文本数据内任意两词总体相似度的LR计算模型;基于所述LR计算模型确定所述文本数据内任意两词的总体相似度,并基于所述总体相似度生成词语相似度矩阵。5.如权利要求1所述的方法,其特征在于,所述“基于所述词语相似度矩阵对所述文本数据进行候选领域词的挖掘,以及确定所述候选领域词的类别概率分布”包括:将所述文本数据中的非种子词设置为候选领域词;基于所述词语相似度矩阵获取所述候选领域词语所有种子词的相似度;将相似度超过预设值的种子词按照类别进行合并,得到不同类别的种子词集合;针对各所述候选领域词,分析不同类别的所述种子词集合下的相似度特征;其中,所述相似度特征包括:最大相似度、最小相似度、相似度序列均值、相似度序列方差、前3大相似度、最小的3个相似度;基于所述文本数据与已构建的种子词表,构建词语与类别的相似度训练与测试集;选取所述相似度特征与所述相似度训练与测试集构建词语与类别的相似度LR计算模型;通过所述相似...

【专利技术属性】
技术研发人员:高登科姚佳
申请(专利权)人:深圳市空谷幽兰人工智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1