一种基于语义的文本分类方法技术

技术编号：10702246 阅读：102 留言：0更新日期：2014-12-03 11:04

本发明专利技术提出了一种基于语义的文本分类方法，根据文本的语义对文本进行分类，包括以下步骤：A、根据文本集选择预设词典组合构建本体库；B、将文本集统一格式并分解为基本单元，根据本体库将文本集转化为概念；C、抽取文本集的特征项，并计算特征项的权重；D、根据预设训练集构建分类器，并根据预设测试集对分类器进行测试和调整；E、根据分类器对文本集进行分类。本发明专利技术提出的基于语义的文本分类方法，根据文本的语义对文本进行分类，可达到理想的分类效果，而且效率高。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提出了，根据文本的语义对文本进行分类，包括以下步骤：A、根据文本集选择预设词典组合构建本体库；B、将文本集统一格式并分解为基本单元，根据本体库将文本集转化为概念；C、抽取文本集的特征项，并计算特征项的权重；D、根据预设训练集构建分类器，并根据预设测试集对分类器进行测试和调整；E、根据分类器对文本集进行分类。本专利技术提出的基于语义的文本分类方法，根据文本的语义对文本进行分类，可达到理想的分类效果，而且效率高。【专利说明】
本专利技术涉及文本信息智能检索
，尤其涉及。
技术介绍
文本分类技术在很多领域都有应用，例如，将文本进行分类，分类后的文本用于指导机器翻译中翻译模型的训练，可见，文本分类的精度很重要，精度高的分类文本，可以在其应用领域带来有益效果，而如果文本分类的精度不够，就会给使用这些分类文本的应用带来不利影响。在现有的文本分类方法中，通常采用训练语料进行分类器训练，然后用训练后的分类器对文本进行分类的方式进行。这种方式下，首先，获取大量标注的训练语料存在困难，如果采用大规模手工标注，则效率低下，其次，由于训练语料有可能存在类别偏见(例如有的标记为新闻的语料，可能更适合标记为娱乐)，会导致分类器也带有类别偏见，因此最终会导致分类精度的降低。另外，现有技术也有用聚类的方法将文本分为若干类别的，但是由于在聚类时对聚出的各个类别无法控制，所以如果只采用聚类的方法将文本分为若干类别，可能存在无法得到真正需要的类的情况。
技术实现思路
基于
技术介绍
存在的问题，本专利技术提出了基于语义的文本分...

【技术保护点】
一种基于语义的文本分类方法，其特征在于，根据文本的语义对文本进行分类，包括以下步骤：A、根据文本集选择预设词典组合构建本体库；B、将文本集统一格式并分解为基本单元，根据本体库将文本集转化为概念；C、抽取文本集的特征项，并计算特征项的权重；D、根据预设训练集构建分类器，并根据预设测试集对分类器进行测试和调整；E、根据分类器对文本集进行分类。

【技术特征摘要】

【专利技术属性】
技术研发人员：贾岩，
申请(专利权)人：安徽华贞信息科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人