一种基于半结构化文本分类的特征优化方法技术

技术编号：17196316 阅读：20 留言：0更新日期：2018-02-03 22:57

本发明专利技术公开了一种基于半结构化文本分类的特征优化方法，包括如下步骤：S10，对半结构化文本进行预处理，提取所述半结构化文本中与分类相关的K个特征；S20，依次分析所述K个特征对分类结果的影响，根据所述K个特征的影响大小分配与其对应的K个特征权值；S30，根据所述K个特征对应的K个特征权值进行特征合并，生成文本特征向量V，并将所述文本特征向量V作为文本分类器的输入量进行文本分类训练；S40，通过训练后的文本分类器对待处理的半结构化文本进行分类。本发明专利技术能够有效的提升重要特征在文本分类中的作用，同时防止无效特征对分类结果的干扰，提高短文本分类的准确性与算法的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半结构化文本分类的特征优化方法
本专利技术涉及文本分类的
，特别涉及一种基于半结构化文本分类的特征优化方法。
技术介绍
文本分类是人工智能技术在自然语言处理方面的重要应用，是一种计算机能够自动对文本的内容进行判断，提取文本中的有效特征，将文本归纳到已经定义好的某种类别的技术。随着大数据、云计算和互联网的发展，网络上的文本数据日益庞大，使用人工来进行文本分类的代价极大，因此，文本分类的价值巨大。随着技术的不断进步，智能问答系统在各种场景下发挥着重大的作用，而文本分类在智能问答系统中扮演着重要的角色。目前，在很多应用场景的文本均为半结构化数据，数据结构的不同部分对应于不同的文本特征，而不同特征对于分类结果的影响大小不同。如政府的12345诉求文本，每个诉求文本的结构均包含：诉求标题与诉求内容两部分，诉求标题是对诉求主题的高度概括，诉求内容则是对诉求主题的详细描述。目前，主流算法在进行半结构化数据处理时，并未对不同特征进行区分，所有特征均使用相同的权值来进行合并，作为文本最终的特征输入。当文本中无效的特征较多，且使用相同的权值进行合并时，无效特征会成为文本的主要特征，从而影响分类结果，降低分类的准确率。
技术实现思路
针对现有技术所存在的缺陷，本专利技术的主要目的是提供一种基于半结构化文本分类的特征优化方法，该方法可利用半结构化文本的结构特征，来设置各个特征的权值，从而优化半结构化文本的分类效果。为实现上述目的，本专利技术提出的基于半结构化文本分类的特征优化方法，包括如下步骤：S10，对半结构化文本进行预处理，提取所述半结构化文本中与分类相关的K个特征...
一种基于半结构化文本分类的特征优化方法

【技术保护点】
一种基于半结构化文本分类的特征优化方法，其特征在于，包括如下步骤：S10，对半结构化文本进行预处理，提取所述半结构化文本中与分类相关的K个特征，所述K个特征对应的文本输入分别为v1，v2，…，vk；S20，依次分析所述K个特征对分类结果的影响，根据所述K个特征的影响大小分配与其对应的K个特征权值，所述K个特征权值分别为w1，w2，…，wk；其中，所述特征权值w1对应所述特征v1，所述特征权值W2对应所述特征v2，以此类推，所述特征权值wk对应所述特征vk；S30，根据所述K个特征对应的K个特征权值进行特征合并，生成文本特征向量V，并将所述文本特征向量V作为文本分类器的输入量进行文本分类训练；S40，通过训练后的文本分类器对待处理的半结构化文本进行分类。

【技术特征摘要】
1.一种基于半结构化文本分类的特征优化方法，其特征在于，包括如下步骤：S10，对半结构化文本进行预处理，提取所述半结构化文本中与分类相关的K个特征，所述K个特征对应的文本输入分别为v1，v2，…，vk；S20，依次分析所述K个特征对分类结果的影响，根据所述K个特征的影响大小分配与其对应的K个特征权值，所述K个特征权值分别为w1，w2，…，wk；其中，所述特征权值w1对应所述特征v1，所述特征权值W2对应所述特征v2，以此类推，所述特征权值wk对应所述特征vk；S30，根据所述K个特征对应的K个特征权值进行特征合并，生成文本特征向量V，并将所述文本特征向量V作为文本分类器的输入量进行文本分类训练；S40，通过训练后的文本分类器对待处理的半结构化文本进行分类。2.如权利要求1所述的基于半结构化文本分类的特征优化方法，其特征在于，所述步骤S10中的预处理包括包括：对异常字符进行清理或删除，分词处理以及去除停用词。3.如权利要求1所述的基于半结构化文本分类的特征优化方法，其特征在于，所述半结构化文本的特征包括：文本标题，文本内容，时间以及地点。4.如权利要求1所述的基于半结构化文本分类的特征优化方法，其特征在于，所述步骤S20中，根据所述半结构化文本分配的类别性质，依次分析所述K个特征与分配的类别性质所对应的K个相关程度，即所述K个特征的每一特征对分类结果的影响的大小，所述K个相关程度分别为p...

【专利技术属性】
技术研发人员：张超，刘睿，刘屹，邓涛强，何耀彬，
申请(专利权)人：中电科新型智慧城市研究院有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人