云计算环境下基于语义的自适应文本分类方法技术

技术编号:10537327 阅读:167 留言:0更新日期:2014-10-15 14:45
本发明专利技术涉及一种云计算环境下基于语义的自适应文本分类方法,该方法包括以下步骤:1)本地代理端提取各文本的关键词及其相应属性,上传到中心端;2)中心端根据接收到的关键词及其相应属性进行数据汇总,为每个关键词匹配一个信用值,生成关键词列表,并传输给本地代理端;3)本地代理端根据关键词列表对文本进行分类,将分类结果传输给中心端;4)中心端输出分类结果。与现有技术相比,本发明专利技术具有文本分类效率高、准确性高等优点。

【技术实现步骤摘要】
云计算环境下基于语义的自适应文本分类方法
本专利技术涉及一种文本分类方法,尤其是涉及一种云计算环境下基于语义的自适应文本分类方法。
技术介绍
随着互联网和云技术的发展,越来越多的应用被部署到了云端,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。如何在保证分类准确度的情况下,高效的在云计算环境中对于文本进行分类,成为了一个需要解决的问题。文本分类是指按照预先定义的主题类别,根据信息内容将不同的信息划分到与其相关的类别中。文本分类技术研究始于50年代末,美国IBM公司的H.P.Luhn首先提出了基于词频统计的文本分类算法,对文本分类技术进行可行性研究。20世纪60年代至80年代末,知识工程技术是这段时期最主要最有效的内容文本分类系统,主要使用人工的方法来构建分类器,这样既耗费人力本文档来自技高网...
云计算环境下基于语义的自适应文本分类方法

【技术保护点】
一种云计算环境下基于语义的自适应文本分类方法,其特征在于,该方法包括以下步骤:1)本地代理端提取各文本的关键词及其相应属性,上传到中心端;2)中心端根据接收到的关键词及其相应属性进行数据汇总,为每个关键词匹配一个信用值,生成关键词列表,并传输给本地代理端;3)本地代理端根据关键词列表对文本进行分类,将分类结果传输给中心端;4)中心端输出分类结果。

【技术特征摘要】
1.一种云计算环境下基于语义的自适应文本分类方法,其特征在于,该方法包括以下步骤:1)本地代理端提取各文本的关键词及其相应属性,上传到中心端;2)中心端根据接收到的关键词及其相应属性进行数据汇总,为每个关键词匹配一个信用值,生成关键词列表,并传输给本地代理端,所述的为每个关键词匹配一个信用值具体为:21)根据各个本地代理端的上传的关键词信息,确定各关键词的统计直方图,即关键词以及关键词对应的数量;22)计算在直方图中数量最多的n个关键词,且每两个关键词的同义词林编码距离大于等于类别阈值dp,由这n个关键词确定n个不同的类别,这n个关键词则作为这n个类别的类别词;23)计算每一个关键词对于每一个类别的信用值cij:lij为第i个关键词与第j个类别词之间的距离;3)本地代理端根据关键词列表对文本进行分类,将分类结果传输给中心端;4)中心端输出分类结果。2.根据权利要求1所述的...

【专利技术属性】
技术研发人员:王肃沈佳杰郑骏陈志云江红
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1