一种新的基于特征向量的中文Web文档表示方法技术

技术编号：7506026 阅读：293 留言：0更新日期：2012-07-11 05:21

本发明专利技术公开了提出了一种新的基于特征向量的中文Web文档表示方法，该方法包括：将中文词典分词法进行算法扩展，使其能够通过拼接零散词的方式发现新词，并扩展分词词典；将词—文档向量矩阵扩展为词—事务向量矩阵，并利用关联规则挖掘算法，在词—事务向量矩阵中挖掘出置信度高于经验阈值的规则，将规则中的词聚为一类，降低了特征向量空间的维数。利用本发明专利技术，解决了目前中文Web文档的向量表示中，不能将新词表示出来的缺陷，同时还降低了文档向量表示的维度，大大节省了存储开销，降低了后续文本数据挖掘计算的时间复杂度。

全部详细技术资料下载

【技术实现步骤摘要】

本方法属于信息检索

技术介绍
在信息社会中，计算机网络已经在人类的学习与生活中得到了普及。网络使各种信息资源得到共享，它将人类的交流空间和时间极大扩展，同时提高了人们的工作或学习效率。随着网络规模的不断扩大，网络资源不断丰富，信息检索成为人们获取知识的普遍手段，而如何实现准确、高效的搜索引擎成了信息科学领域研究的关键技术。Web文本信息检索的实质是对Web文档集合的检索，要实现这样的检索系统通常的做法是，首先对文本进行分词，然后去除停用词和低频词，最后建立倒排索引，用户在检索时实际是检索该倒排索引文件搜索自己关心的文档。更本质的说，每一个文档被表示成为一个基于词的向量，用户的查询也用一个向量来表达，通过向量的方式来计算查询与文档之间的相似度。其中文本分词部分，如果是英文文档可以通过词与词之间的空格进行分词，如果是中文文档，则需要对用特殊的分词手段，目前最流行也是公认最有效的中文分词方法是词典分词法。本专利技术仅针对中文文档的处理，并且是以词典分词法为基础的专利技术。另外，如果对大量文档做数据挖掘，比如聚类、分类，最常用的方法也是建立向量空间模型(Vector Space Model)。再对该模型进行矩阵运算。上面提到的这种通用的对文档处理流程有以下缺点1.词典分词器因为其有穷性的特点，对网络中层出不穷的新的热点词无能为力，比如 “三鹿奶粉”，词典分词器会将其分成三/鹿/奶粉。这些零散的词语将极大地影响热点词提取的准确性。2.向量空间模型存在一个突出的问题就是其高维特性。由于自然语言文本的复杂多样性，词汇量过于丰富，因此所形成的向量空间模型常常...

【技术保护点】

【技术特征摘要】
1.一种新的基于特征向量的中文Web文档表示方法，其特征在于，该方法包括一种中文Web新词汇的发现方法；一种利用关联规则算法发现同类词的方法；通过以上两种方法，将中文Web文档更有效的表示为维度更低的特征向量。2.如权利要求1所述的方法，其特征在于，一种中文Web新词汇的发现方法，包括对中文Web文档进行预处理；对分词后的零散词进行拼接成字符串，然后判断字符串是否属于新词，如果是新词，则新词还要加入分词词典。3.如权利要求2所述的方法，其特征在于，所述对中文Web文档进行预处理的步骤具体包括Web网页去噪声；中文词典分词；停用词过滤和规则过滤。4.如权利要求2所述的方法，其特征在于，所述通过零散词拼接来发现新词的方法具体包括定义零散词为长度小于或等于三的词汇，对2-3个连续的零散词进行拼接，使用长度为3的链表存储；设置词频阈值，即词在文档中出现的次数，达到阈值的词串，被认为是新词；三个词构成的词串用“词1词2词3”表示，若词频(“词1”)>=词频阈值，那么若...

【专利技术属性】
技术研发人员：宫哲，贺智铭，蒋琴琴，
申请(专利权)人：北京安码科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人