一种文本数据分析方法、装置、服务器和存储介质制造方法及图纸

技术编号:18084071 阅读:45 留言:0更新日期:2018-05-31 12:33
本发明专利技术公开了一种文本数据分析方法、装置、服务器和存储介质,该方法包括:对预先确定的主题词进行扩展,确定主题词向量;根据所述主题词向量确定训练文本特征向量;根据所述主题词向量将待测试文本转换为测试文本特征向量;根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。本发明专利技术实现了通过构建完备的主题词向量对训练文本特征向量和测试文本特征向量进行确定,并根据完备的主题词向量确定的特征向量对待测试文本进行分类,提高文本分类的准确度。

【技术实现步骤摘要】
一种文本数据分析方法、装置、服务器和存储介质
本专利技术涉及智能信息处理
,尤其涉及一种文本数据分析方法、装置、服务器和存储介质。
技术介绍
随着互联网技术的快速发展,大部分的信息都是以文本的形式进行存储和展现。因此,为了便于信息的存储、管理和查询,对文本数据进行分类显得尤为重要。目前对于文本分类的文本数据分析方法主要有两大类,即基于链接分析的方法和基于内容分析的方法。基于链接分析的方法主要是通过文档页面间的链接关系来直接或者间接的做出评价,这种方法适用范围广但准确率不高。而基于内容的方法是在确定分类的主题词后,利用待分析文本数据本身的内容特征与主题词之间的相似度对文本进行分类,相比于基于链接分析的方法,其识别的准确率较高。然而,通常情况下,能够反映某一主题词含义的词汇很多,通过人为确定主题词向量的方式极易导致表述主题词的词汇不够全面。因此在主题词向量不完备的情况下,会降低文本内容特征与主题词之间的相似度,从而大大降低文本分类的准确度。
技术实现思路
本专利技术实施例提供了一种文本数据分析方法、装置、服务器和存储介质,能够构建完备的主题词向量,提高分类的准确度。第一方面,本专利技术实施例提供了一种文本数据分析方法,包括:对预先确定的主题词进行扩展,确定主题词向量;根据所述主题词向量确定训练文本特征向量;根据所述主题词向量将待测试文本转换为测试文本特征向量;根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。第二方面,本专利技术实施例提供了一种文本数据分析装置,包括:主题词向量确定模块,用于对预先确定的主题词进行扩展,确定主题词向量;训练文本特征向量确定模块,用于根据所述主题词向量确定训练文本特征向量;测试文本特征向量确定模块,用于根据所述主题词向量将待测试文本转换为测试文本特征向量;分类模块,用于根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。第三方面,本专利技术实施例提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的文本数据分析方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的文本数据分析方法。本专利技术通过对预先确定的主题词进行扩展,得到能够反映主题词含义的多个相关词汇,将主题词及其多个相关词汇构建完备的主题词向量,并利用主题词向量确定训练文本特征向量以及测试文本特征向量,以此利用训练文本特征向量对待测试文本进行分类。实现了通过构建完备的主题词向量对训练文本特征向量和测试文本特征向量进行确定,并根据完备的主题词向量确定的特征向量对待测试文本进行分类,提高文本分类的准确度。附图说明图1为本专利技术实施例一提供的一种文本数据分析方法的流程图;图2为本专利技术实施例二提供的一种文本数据分析方法的流程图;图3为本专利技术实施例三提供的一种文本数据分析装置的结构示意图;图4为本专利技术实施例四提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种文本数据分析方法的流程图,本实施例可适用于对文本进行分类的情况,该方法可由文本数据分析装置来执行。该方法具体包括如下步骤:步骤110、对预先确定的主题词进行扩展,确定主题词向量。在本专利技术的具体实施例中,主题词为各待分类文本的主题种类集合,例如有政治、财经和教育等主题。由于可以表示主题词主题含义的词汇很多,因此有必要对主题词进行扩展。在本实施例中,可以通过语义分析将各主题词分别与预先设置的语料库中各词汇进行匹配,将语料库中与各主题词匹配的词汇作为各主题词的扩展词汇,最后将各主题词与其扩展词汇共同构建主题词向量,得到较为完备的主题词向量。在较为完备的主题词向量的基础上对文本进行分类,能够对待分类文本中的各词汇进行充分地匹配和统计,避免了对于待分类文本中可表达主题词含义的词汇漏检的情况。示例性的,主题词“财经”通过语料库进行扩展后,可以得到例如财政、经济、金融等扩展词,将主题词“财经”与扩展词“财政、经济、金融”等词汇共同构建主题词向量,得到描述主题词“财经”较为完备的主题词向量。步骤120、根据所述主题词向量确定训练文本特征向量。在本专利技术的具体实施例中,训练文本是指与主题词相关的且已知分类主题的文本文档,这些文本文档共同构建了文本分类时所需的训练库。在确定训练文本特征向量时,首先可以采用IKAnalyzer中文分词工具包对文本进行分词处理;其次在分词的基础上,提取训练库中各文本文档的特征词构建各文本的特征向量,并利用上述扩展生成的主题词向量对各文本的特征向量进行规范化处理,即根据各文本的特征向量中的特征词与主题词向量中各词汇的语义关系,保留与主题词向量中各词汇具有语义关系的特征词,并将各文本的特征向量中保留的特征词按照主题词进行归类;最后利用向量空间模型生成各文本的训练文本特征向量,即{<w1,t1>,<w2,t2>,……,<wi,ti>},其中wi表示文本中的词汇,ti表示词汇wi在文本中所占的权重。其中,权重ti采用TF-IDF(TermFrequency-InverseDocumentFrequency)算法获得。TF指词频,即某个词汇在文本中出现的频率,其计算公式为其中,d表示待处理的文本,n(d,ti)表示词汇ti在文本d中出现的次数,表示文本中词汇的总数。IDF指逆向文件频率,是对某个词汇普遍重要性的度量,其计算公式为IDF(ti)=ln{D/(Dti+1)},其中,D表示训练库中文本的总数,Dti表示包含词汇ti的文本总数。因此,词汇ti在文本中的权重的计算公式可以表示为TF-IDF(ti)=TF(d,ti)·IDF(ti)。通过向量空间模型可以将繁杂的文本内容转换为较为标准的特征向量,便于对文本内容进行分析和处理。通过对主题词相关的文本文档中特征词的提取和规范化处理,可以进一步地获得与各主题词相关的且常用的或者当下流行使用的词汇。在一定程度上,根据扩展后的主题词向量从训练文本中能够尽可能的获得更加丰满的训练文本特征向量,有利于提高文本分类的准确度。示例性的,提取某一篇已知分类主题为财经的训练文本文档的特征词,其中“影子银行”为特征词之一。“影子银行”为全球金融危机时备受人们重视的特征词汇,一般是指那些有着部分银行的功能,却不受监管或少受监管的非银行金融机构。根据主题词向量对文本的特征向量进行规范化处理,保留“影子银行”一词,并将其分类为与主题词“财经”对应的训练文本特征向量。由于标准的语料库中很难对当下流行的语料进行总结和更新,因此对训练库中训练文本的特征向量进行规范化处理,有利于在主题词向量的基础上对主题词相关的词汇进行总结和补充,可以提高文本分类的准确度。步骤130、根据所述主题词向量将待测试文本转换为测试文本特征向量。在本专利技术的具体实本文档来自技高网...
一种文本数据分析方法、装置、服务器和存储介质

【技术保护点】
一种文本数据分析方法,其特征在于,包括:对预先确定的主题词进行扩展,确定主题词向量;根据所述主题词向量确定训练文本特征向量;根据所述主题词向量将待测试文本转换为测试文本特征向量;根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。

【技术特征摘要】
1.一种文本数据分析方法,其特征在于,包括:对预先确定的主题词进行扩展,确定主题词向量;根据所述主题词向量确定训练文本特征向量;根据所述主题词向量将待测试文本转换为测试文本特征向量;根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类。2.根据权利要求1所述的方法,其特征在于,对预先确定的主题词进行扩展,确定主题词向量,包括:通过语义分析将各主题词分别与预先设置的语料库中各词汇进行匹配;将所述语料库中与各主题词匹配的词汇作为各主题词的扩展词汇;根据所述主题词和与各主题词匹配的扩展词汇,构建主题词向量。3.根据权利要求1所述的方法,其特征在于,根据所述主题词向量确定训练文本特征向量,包括:根据预先确定的主题词,选取与各主题词相关的文本构建训练库;提取所述训练库中各文本的特征词构建各文本的特征向量;利用所述主题词向量对所述训练库中各文本的特征向量进行规范化处理,依据处理结果生成各文本的训练文本特征向量。4.根据权利要求1所述的方法,其特征在于,根据所述训练文本特征向量和测试文本特征向量对所述待测试文本进行分类,包括:分别计算所述训练库中各文本的训练文本特征向量与所述测试文本特征向量的文本相似度;根据所述文本相似度,将所述训练库中各文本进行排序,获取所述训练库中预设阈值个较大的文本相似度对应的文本;将所述训练库中预设阈值个文本对应的文本相似度按照各文本所属的主题词进行累加,得到各主题词对应的相似度累加和;将最大的相似度累加和对应的主题词确定为所述待测试文本的类别。5.根据权利要求4所述的方法,其特征在于,将最大的相似度累加和对应的主题词确定为所述待测试文本的类别,包括:若最大的相似度累加和对应的主题词包括至少两个主题词,则根据所述预设阈值个文本中属于所述至少两个主...

【专利技术属性】
技术研发人员:谢永恒刘忠松火一莽万月亮
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1