基于语义的藏文网页文本分类方法技术

技术编号：8959496 阅读：223 留言：0更新日期：2013-07-25 19:02

本发明专利技术涉及一种基于语义的藏文网页文本分类方法。本发明专利技术首先从藏文网页中抽取用于表征该网页的文本信息，然后对所述文本信息进行分词处理，将所述经过分词处理得到的词语表示为词向量空间，其次根据预设的藏文分类本体，将所述通过词向量空间表示的词语映射到语义空间的概念中，得到待分类文本的语义空间，最后根据预设的训练样本集的语义空间，采用分类算法对所述待分类文本的语义空间进行分类。本发明专利技术提供的基于语义的藏文网页文本分类方法，通过对网页进行预处理，并采用加权语义网文本相似度的KNN分类算法实现了对藏文网页实时、高效的分类。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义的藏文网页文本分类方法
本专利技术涉及数据预处理技术，尤其涉及一种基于语义的藏文网页文本分类方法。
技术介绍
随着藏区信息化和经济化的飞速发展，藏族网民和网页的规模正以惊人的速度增长，网络成为藏语信息传递和共享的载体，也成为藏族人民发表舆论的场所。不当的言论可能引起舆论的导火索，负面的信息将对社会公共安全形成较大威胁。藏文网页文本分类技术是藏文网络舆情监测技术实现的前提和基础，具有重要的研究价值。基于藏文网络的语义文本分类作为处理和组织大量网络文本数据的关键技术，可以根据文本的内容自动确定文本类别，方便用户快速、准确地定位所需要的信息。然而，藏语本体知识库资源缺乏，致使基于藏文语义层面的应用研究受到约束。而且在传统的Web文本分类方法中，认为藏语的词汇之间是独立的，忽略了词语间同义词、上下位关系等语义问题，丢失了很多重要的信息，导致分类结果不够准确且计算量大。
技术实现思路
本专利技术的目的是在于提供一种能对藏文网页文本信息进行实时、高效的分类的方法。为实现上述目的，本专利技术提供了一种基于语义的藏文网页文本分类方法，该方法包括：从藏文网页中抽取用于表征该网页...

【技术保护点】
一种基于语义的藏文网页文本分类方法，其特征在于，该方法包括：从藏文网页中抽取用于表征该网页的文本信息；对所述文本信息进行分词处理，将所述经过分词处理得到的词语表示为词向量空间；根据预设的藏文分类本体，将所述通过词向量空间表示的词语映射到语义空间的概念中，得到待分类文本的语义空间；根据预设的训练样本集的语义空间，采用分类算法对所述待分类文本的语义空间进行分类。

【技术特征摘要】
1.一种基于语义的藏文网页文本分类方法，其特征在于，该方法包括：从藏文网页中抽取用于表征该网页的文本信息，所述文本信息包括网页的发布日期和网页的标题，根据所述网页的发布日期和网页的标题对所述藏文网页进行去重处理，以及将所述网页中的文本信息中的藏文文本的字符编码方式转换成统一码Unicode字符编码方式；对所述文本信息进行分词处理，将所述经过分词处理得到的词语表示为词向量空间；根据预设的藏文分类本体，将所述通过词向量空间表示的词语映射到语义空间的概念中，得到待分类文本的语义空间；根据预设的训练样本集的语义空间，计算待分类文本的语义空间与预设的训练样本集的语义空间中每一个样本的语义空间的加权语义网文本相似度；对所述加权语义网文本相似度的值进行从大到小排列，选取与前k个加权语义网文本相似度对应的训练样本的语义空间，其中，k为自然数；在训练样本集的语义空间中查询所述k个训练样本的语义空间各自归属的类，从中选择包含样本数最多的类作为所述待分类文本的语义空间归属的类,获得所述文本信息的语义分类；其中，计算所述加权语义网文本相似度的公式为：其中，Sim(Di,Dj)表示第i个待分类文本的语义空间Di和训练样本集的语义空间中第j个训练样本的语义空间Dj的相似度，m和n分别为Di和Dj中概念的个数，Si和Sj分别为Di和Dj中的概念，Sim(Si,Sj)表示概念语义相似度，Wi和Wj为Si和Sj在各自文本中的归一化权重权值，α为平滑因子，0.0001≤α≤0.001。2.根据权利要求1所述的方法，其特征在于，所述从藏文网页中抽取用于表征该网页的文本信息包括：采用规则法从藏文网页中抽取文本信息，将所得到的文本信息表示为X1；采用模板法从藏文网页中抽取文本信息，将所得到的文本信息表示为X2；判断X1与X2是否一致，如果不一致，则分...

【专利技术属性】
技术研发人员：胥桂仙，
申请(专利权)人：中央民族大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人