一种基于语义分析与多重余弦定理的新闻分类方法技术

技术编号:17304489 阅读:94 留言:0更新日期:2018-02-18 22:34
本发明专利技术涉及一种基于语义分析与多重余弦定理的新闻分类方法,属于信息处理技术领域。本发明专利技术创新性地重新定义词权重,利用多重余弦定理,对现阶段的新闻分类方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词性、词长等加权累加,且特别针对人物、地点、专业术语等特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。

A news classification method based on semantic analysis and multiple cosine theorem

The invention relates to a news classification method based on semantic analysis and multiple cosine theorems, which belongs to the field of information processing technology. The invention redefines the weight of the word innovatively and uses the multiple cosine theorem to improve the news classification method at the present stage. Abandon the term weight value method only using TFIDF, but innovative TFIDF value, part of speech and word length weighted sum, and especially for the characters, locations, terminology and other special lexical entry but also additional weight; on the other hand, the matching degree is used to calculate the cosine theorem of multiple news, respectively. The calculation of real word matching and keywords matching, then by definition to determine the kind of news categories.

【技术实现步骤摘要】
一种基于语义分析与多重余弦定理的新闻分类方法
本专利技术涉及一种基于语义分析与多重余弦定理的新闻分类方法,属于信息处理

技术介绍
新闻分类是信息处理中的一个重要方向,通过将大量新闻类文本组织成少数有意义的簇,并保证同一簇内的文本在一定程度上是相似的,达到改善检索的目的。目前,对文本的相似度量方法主要分为两类:基于统计学和基于语义分析。这两类方法都有各自的优缺点,其中,对于数量级在百万以下的新闻类文本分类很大程度上依靠的是余弦定理。但是现阶段,利用计算机依靠余弦定理对新闻分类的技术并不成熟,准确性欠佳、分类易出错、灵活性差等现象一直存在,在很多情况下还需要人工进行分类。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种基于语义分析与多重余弦定理的新闻分类方法,词权重不再是单纯的TFIDF值,而是创新性地将TFIDF值、词性、词长等加权累加,且针对特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。本专利技术对现阶段的新闻分类方法进行改进,主要解决了现有技本文档来自技高网...
一种基于语义分析与多重余弦定理的新闻分类方法

【技术保护点】
一种基于语义分析与多重余弦定理的新闻分类方法,其特征在于:Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换等操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step3:选取关键词:以实意词xi...

【技术特征摘要】
1.一种基于语义分析与多重余弦定理的新闻分类方法,其特征在于:Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换等操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};Step3:选取关键词:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};Step4:对各预设新闻文本模板{P1,P2…Pq}同样进行如上步骤所述的预处理、求权重、选取关键词等操作,并将数据保存至数据库以备调用;其中,每个预设新闻文本模板Pi,i∈[1,q]对应一种新闻类别,即新闻共q个类别;Step4.1:计算实意词匹配度R(X,Pi),i∈[1,q]:以待分类新闻文本X的实意词集合X:{x1,x2…xm}和实意词权重集合Y:{y1,y2…ym},生成实意词特征向量FX={fx1,fx2…fxg},同样对预设新闻文本模板Pi,i∈[1,q]也以此生成实意词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的实意词匹配度R(X,Pi),i∈[1,q];Step4.2:计算关键词匹配度R(X',Pi),i∈[1,q]:以待分类新闻文本X的关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'},生成关键词特征向量FX'={fx'1,fx'2…fx'g},同样对预设新闻本文模板Pi,i∈[1,q]也以此生成关键词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的关键词匹配度R(X',Pi),i∈[1,q];Step5:对所有预设新闻文本模板{P1,P2…Pq},都依据Step4.1和Step4.2所计算实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q],因为一篇文章可能同属多类,故若1≥R(X,Pi)≥r,i∈[1,q]或r>R(X,Pi)≥(r-r'),i∈[1,q],且1≥R(X',Pi)≥r,i∈[1,q]则认为此待分类新闻文本X属于该预设新闻文本模板Pi,i∈[1,q]所属的新闻类。2.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step1中,特殊词项包括人名、地名、组织机构名称、专业术语。3.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step2中计算权重的公式为:其中,为词xi,i∈[1,m]的TFIDF值...

【专利技术属性】
技术研发人员:龙华祁俊辉邵玉斌杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1