一种新的基于特征向量的中文Web文档表示方法技术

技术编号:7506026 阅读:293 留言:0更新日期:2012-07-11 05:21
本发明专利技术公开了提出了一种新的基于特征向量的中文Web文档表示方法,该方法包括:将中文词典分词法进行算法扩展,使其能够通过拼接零散词的方式发现新词,并扩展分词词典;将词—文档向量矩阵扩展为词—事务向量矩阵,并利用关联规则挖掘算法,在词—事务向量矩阵中挖掘出置信度高于经验阈值的规则,将规则中的词聚为一类,降低了特征向量空间的维数。利用本发明专利技术,解决了目前中文Web文档的向量表示中,不能将新词表示出来的缺陷,同时还降低了文档向量表示的维度,大大节省了存储开销,降低了后续文本数据挖掘计算的时间复杂度。

【技术实现步骤摘要】

本方法属于信息检索

技术介绍
在信息社会中,计算机网络已经在人类的学习与生活中得到了普及。网络使各种信息资源得到共享,它将人类的交流空间和时间极大扩展,同时提高了人们的工作或学习效率。随着网络规模的不断扩大,网络资源不断丰富,信息检索成为人们获取知识的普遍手段,而如何实现准确、高效的搜索引擎成了信息科学领域研究的关键技术。Web文本信息检索的实质是对Web文档集合的检索,要实现这样的检索系统通常的做法是,首先对文本进行分词,然后去除停用词和低频词,最后建立倒排索引,用户在检索时实际是检索该倒排索引文件搜索自己关心的文档。更本质的说,每一个文档被表示成为一个基于词的向量,用户的查询也用一个向量来表达,通过向量的方式来计算查询与文档之间的相似度。其中文本分词部分,如果是英文文档可以通过词与词之间的空格进行分词,如果是中文文档,则需要对用特殊的分词手段,目前最流行也是公认最有效的中文分词方法是词典分词法。本专利技术仅针对中文文档的处理,并且是以词典分词法为基础的专利技术。另外,如果对大量文档做数据挖掘,比如聚类、分类,最常用的方法也是建立向量空间模型(Vector Space Model)。再对该模型进行矩阵运算。上面提到的这种通用的对文档处理流程有以下缺点1.词典分词器因为其有穷性的特点,对网络中层出不穷的新的热点词无能为力,比如 “三鹿奶粉”,词典分词器会将其分成三/鹿/奶粉。这些零散的词语将极大地影响热点词提取的准确性。2.向量空间模型存在一个突出的问题就是其高维特性。由于自然语言文本的复杂多样性,词汇量过于丰富,因此所形成的向量空间模型常常具有过高的维数,而给后期的挖掘过程带来很大困难,而且每篇文档并不是用一个真正的特征向量表示,这个特性被人们“维度灾难”。针对以上缺点,目前科研人员提出了很多方法进行改进,但能同时照顾到两个缺点改进又有效的方法并不多。
技术实现思路
本专利技术实施例提供了,用以解决现有技术存在的不能将发现网络中文新词作为特征和文档特征向量维度高的缺陷。一种中文Web新词汇的发现方法包括 将预处理和经过词典分词后的零散词进行拼接; 计算拼接后的词串的词频,达到阈值的被认为是新词; 将新词加入词典。一种利用关联规则算法发现同类词的方法包括将词一文档矩阵扩展为词一事务矩阵,形成二值矩阵;在二值矩阵上使用关联规则算法来发现置信度大于一定阈值的规则,将规则中的词归为一类;将词类作为一个特征维度,从而大大降低了文档特征向量的维度本专利技术实施例既弥补了词典分词不能发现网络新词的缺点,又能在发现新词之后将其收录入词典;通过关联规则将词归类,大大降低了文档特征向量维度,有利于文档聚类、分类等工作,也有利于提高信息检索的准确率。在此处键入
描述段落。 附图说明图1为现有基于特征向量的中文Web文档表示方法的示意图; 图2为本专利技术实施例提供的的示意3为本专利技术实施例提供的停用词过滤和规则过滤流程示意图; 图4为本专利技术实施例通过零散词拼接来发现新词的方法示意图; 图5为本专利技术实施例利用关联规则算法发现同类词的方法示意图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新的基于特征向量的中文Web文档表示方法,其特征在于,该方法包括 一种中文Web新词汇的发现方法;一种利用关联规则算法发现同类词的方法;通过以上两种方法,将中文Web文档更有效的表示为维度更低的特征向量。2.如权利要求1所述的方法,其特征在于,一种中文Web新词汇的发现方法,包括 对中文Web文档进行预处理;对分词后的零散词进行拼接成字符串,然后判断字符串是否属于新词,如果是新词,则新词还要加入分词词典。3.如权利要求2所述的方法,其特征在于,所述对中文Web文档进行预处理的步骤具体包括Web网页去噪声;中文词典分词;停用词过滤和规则过滤。4.如权利要求2所述的方法,其特征在于,所述通过零散词拼接来发现新词的方法具体包括定义零散词为长度小于或等于三的词汇,对2-3个连续的零散词进行拼接,使用长度为3的链表存储;设置词频阈值,即词在文档中出现的次数,达到阈值的词串,被认为是新词; 三个词构成的词串用“词1词2词3”表示,若词频(“词1”)>=词频阈值,那么若...

【专利技术属性】
技术研发人员:宫哲贺智铭蒋琴琴
申请(专利权)人:北京安码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术