一种基于半结构化文本分类的特征优化方法技术

技术编号:17196316 阅读:20 留言:0更新日期:2018-02-03 22:57
本发明专利技术公开了一种基于半结构化文本分类的特征优化方法,包括如下步骤:S10,对半结构化文本进行预处理,提取所述半结构化文本中与分类相关的K个特征;S20,依次分析所述K个特征对分类结果的影响,根据所述K个特征的影响大小分配与其对应的K个特征权值;S30,根据所述K个特征对应的K个特征权值进行特征合并,生成文本特征向量V,并将所述文本特征向量V作为文本分类器的输入量进行文本分类训练;S40,通过训练后的文本分类器对待处理的半结构化文本进行分类。本发明专利技术能够有效的提升重要特征在文本分类中的作用,同时防止无效特征对分类结果的干扰,提高短文本分类的准确性与算法的稳定性。

【技术实现步骤摘要】
一种基于半结构化文本分类的特征优化方法
本专利技术涉及文本分类的
,特别涉及一种基于半结构化文本分类的特征优化方法。
技术介绍
文本分类是人工智能技术在自然语言处理方面的重要应用,是一种计算机能够自动对文本的内容进行判断,提取文本中的有效特征,将文本归纳到已经定义好的某种类别的技术。随着大数据、云计算和互联网的发展,网络上的文本数据日益庞大,使用人工来进行文本分类的代价极大,因此,文本分类的价值巨大。随着技术的不断进步,智能问答系统在各种场景下发挥着重大的作用,而文本分类在智能问答系统中扮演着重要的角色。目前,在很多应用场景的文本均为半结构化数据,数据结构的不同部分对应于不同的文本特征,而不同特征对于分类结果的影响大小不同。如政府的12345诉求文本,每个诉求文本的结构均包含:诉求标题与诉求内容两部分,诉求标题是对诉求主题的高度概括,诉求内容则是对诉求主题的详细描述。目前,主流算法在进行半结构化数据处理时,并未对不同特征进行区分,所有特征均使用相同的权值来进行合并,作为文本最终的特征输入。当文本中无效的特征较多,且使用相同的权值进行合并时,无效特征会成为文本的主要特征,从而影响分类结果,降低分类的准确率。
技术实现思路
针对现有技术所存在的缺陷,本专利技术的主要目的是提供一种基于半结构化文本分类的特征优化方法,该方法可利用半结构化文本的结构特征,来设置各个特征的权值,从而优化半结构化文本的分类效果。为实现上述目的,本专利技术提出的基于半结构化文本分类的特征优化方法,包括如下步骤:S10,对半结构化文本进行预处理,提取所述半结构化文本中与分类相关的K个特征,所述K个特征对应的文本输入分别为v1,v2,…,vk;S20,依次分析所述K个特征对分类结果的影响,根据所述K个特征的影响大小分配与其对应的K个特征权值,所述K个特征权值分别为w1,w2,…,wk;其中,所述特征权值w1对应所述特征v1,所述特征权值w2对应所述特征v2,以此类推,所述特征权值wk对应所述特征vk;S30,根据所述K个特征对应的K个特征权值进行特征合并,生成文本特征向量V,并将所述文本特征向量V作为文本分类器的输入量进行文本分类训练;S40,通过训练后的文本分类器对待处理的半结构化文本进行分类。优选地,所述步骤S10中的预处理包括:对异常字符进行清理或删除,分词处理以及去除停用词。优选地,所述半结构化文本的特征包括:文本标题,文本内容,时间以及地点。优选地,所述步骤S20中,根据所述半结构化文本分配的类别性质,依次分析所述K个特征与分配的类别性质所对应的K个相关程度,即所述K个特征的每一特征对分类结果的影响的大小,所述K个相关程度分别为p1,p2,…,pk;根据所述K个相关程度建立各个特征对应的特征权值的计算模型其中,n=1,2,…k。优选地,所述步骤S30中文本特征向量V的计算表达式为:V=(v1·w1)×(v2·w2)×…×(vk·wk)。优选地,所述步骤S30中文本特征向量V的计算表达式为:V=[v1·w1+v2·w2+…+vk·wk]。优选地,所述K个特征对应的特征权值均为可学习的变量,将所述文本特征向量输入至所述文本分类器进行训练时,所述文本特征向量中的K个特征权值根据训练数据自动更新并自动保存在所述文本分类器内。优选地,所述K个特征中的i个特征对应的特征权值为可学习的变量,所述i个特征对应的文本输入分别为v1,v2,…,vi,余下的K-i个特征所对应的特征权值为常量,将所述文本特征向量输入至所述文本分类器进行训练时,所述i个特征对应的特征权值根据训练数据自动更新并自动保存在所述文本分类器内。优选地,所述步骤S30中的文本分类器为传统神经网络分类器、SVM分类器或深度学习网络分类器中的任意一种。本专利技术的技术方案通过分析半结构化文本中各个特征与分类结果之间的影响大小,来设置各个特征的特征权值,用于合并成文本特征向量;之后,将该文本特征向量作为文本文类器的输入来进行分类训练;最后,利用训练好的文本文类器对半结构化文本进行分类。与现有的半结构数据文本的分类方法相比,本专利技术提出的基于半结构化文本分类的特征优化方法能够有效的提升重要特征在文本分类中的作用,同时防止无效特征对分类结果的干扰,提高短文本分类的准确性与算法的稳定性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1为本专利技术基于半结构化文本分类的特征优化方法一实施例的结构示意图;本专利技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式本专利技术提出一种基于半结构化文本分类的特征优化方法。参照图1,图1为本专利技术基于半结构化文本分类的特征优化方法一实施例的流程图。如图1所示,在本专利技术实施例中,该基于半结构化文本分类的特征优化方法包括如下步骤:S10,对半结构化文本进行预处理,提取所述半结构化文本中与分类相关的K个特征,所述K个特征对应的文本输入分别为v1,v2,…,vk。具体地,在步骤S10中,对半结构化文本的预处理操作包括:对异常字符进行清理或删除,分词处理以及去除停用词,以防止无效的信息对分类结果产生干扰。在提取半结构化文本中的特征时,可以根据分类的需求,选择与分类相关的特征进行提取,该半结构化文本中的特征包括文本标题、文本内容、时间以及地点等。当半结构化文本的特征提取完毕后,将各个特征对应的内容,使用数据结构进行存储。S20,依次分析所述K个特征对分类结果的影响,根据所述K个特征的影响大小分配与其对应的K个特征权值,所述K个特征权值分别为w1,w2,…,wk;其中,所述特征权值w1对应所述特征v1,所述特征权值w2对应所述特征v2,以此类推,所述特征权值wk对应所述特征vk。具体地,在步骤S20中,首先,根据所述半结构化文本分配的类别性质,依次分析所述K个特征与分配的类别性质所对应的K个相关程度,即所述K个特征的每一特征对分类结果的影响的大小,所述K个相关程度分别为p1,p2,…,pk;然后,根据所述K个相关程度建立各个特征对应的特征权值的计算模型其中,n=1,2,…k。例如,分析12345文本中事件的受理单位,与之强相关的特征包括事发地点、事件标题、事件内容等,这些特征所对应的特征权值较大;而与之弱相关的是事发时间、事发天气等,这些特征所对应的特征权值较小。由此,可以减小与分类相关程度较弱的特征对分类结果的影响,并加强与分类相关程度较强的特征在文本分类中的作用。S30,根据所述K个特征对应的K个特征权值进行特征合并,生成文本特征向量V,并将所述文本特征向量V作为文本分类器的输入量进行文本分类训练。将文本特征向量V作为文本分类器的输入量进行文本分类训练时,可将K个特征对应的特征权值的属性设置为常量或可学习的变量。当所述将K个特征对应的特征权值均为可学习的变量,在分类训练的过程中,所述文本特征向量V中的K个特征权值将根据训练数据自动更新并自动保存文本分类器内。通过将K个特征的特征权值设置为可学习的变量,在训练过程中,可不断优化每一本文档来自技高网...
一种基于半结构化文本分类的特征优化方法

【技术保护点】
一种基于半结构化文本分类的特征优化方法,其特征在于,包括如下步骤:S10,对半结构化文本进行预处理,提取所述半结构化文本中与分类相关的K个特征,所述K个特征对应的文本输入分别为v1,v2,…,vk;S20,依次分析所述K个特征对分类结果的影响,根据所述K个特征的影响大小分配与其对应的K个特征权值,所述K个特征权值分别为w1,w2,…,wk;其中,所述特征权值w1对应所述特征v1,所述特征权值W2对应所述特征v2,以此类推,所述特征权值wk对应所述特征vk;S30,根据所述K个特征对应的K个特征权值进行特征合并,生成文本特征向量V,并将所述文本特征向量V作为文本分类器的输入量进行文本分类训练;S40,通过训练后的文本分类器对待处理的半结构化文本进行分类。

【技术特征摘要】
1.一种基于半结构化文本分类的特征优化方法,其特征在于,包括如下步骤:S10,对半结构化文本进行预处理,提取所述半结构化文本中与分类相关的K个特征,所述K个特征对应的文本输入分别为v1,v2,…,vk;S20,依次分析所述K个特征对分类结果的影响,根据所述K个特征的影响大小分配与其对应的K个特征权值,所述K个特征权值分别为w1,w2,…,wk;其中,所述特征权值w1对应所述特征v1,所述特征权值W2对应所述特征v2,以此类推,所述特征权值wk对应所述特征vk;S30,根据所述K个特征对应的K个特征权值进行特征合并,生成文本特征向量V,并将所述文本特征向量V作为文本分类器的输入量进行文本分类训练;S40,通过训练后的文本分类器对待处理的半结构化文本进行分类。2.如权利要求1所述的基于半结构化文本分类的特征优化方法,其特征在于,所述步骤S10中的预处理包括包括:对异常字符进行清理或删除,分词处理以及去除停用词。3.如权利要求1所述的基于半结构化文本分类的特征优化方法,其特征在于,所述半结构化文本的特征包括:文本标题,文本内容,时间以及地点。4.如权利要求1所述的基于半结构化文本分类的特征优化方法,其特征在于,所述步骤S20中,根据所述半结构化文本分配的类别性质,依次分析所述K个特征与分配的类别性质所对应的K个相关程度,即所述K个特征的每一特征对分类结果的影响的大小,所述K个相关程度分别为p...

【专利技术属性】
技术研发人员:张超刘睿刘屹邓涛强何耀彬
申请(专利权)人:中电科新型智慧城市研究院有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1