面向互联网的有意义串的提取方法及装置制造方法及图纸

技术编号:4001364 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供的是一种面向互联网的有意义串的提取方法及装置。提取方法包括提取重复字符串,通过串内分析过滤所述字符串,通过串外分析过滤所述字符串,通过串间分析过滤所述字符串步骤;提取装置包括依次串接的重复串发现模块、串内分析模块、串外分析模块和串间分析模块。本发明专利技术能够有效的提取新闻网页和论坛上的有意义串。本发明专利技术可广泛应用于网络舆情管理、互联网智能信息处理等应用领域。

【技术实现步骤摘要】

本专利技术涉及的是一种利用计算机技术辅助网络信息智能分析或舆情管理的技术, 具体的讲是从海量的互联网网页和论坛信息中快速准确高效的提取有意义串的方法和系 统。
技术介绍
文本表示是基于内容的文本处理的首要步骤。文本表示中的特征项是影响文本分 类和聚类结果的重要因素。目前常用的文本特征项主要有字,词,短语,语义等。从理论上 讲,语义概念(语义集)高于短语(句法集),短语高于词(词语集),词高于字(字符集)。 通常语义概念可以借助于语义词典(同义词,近义词词典等)或进行潜在语义索引获取。然 而大规模、覆盖面广的语义资源较难获取,潜在语义索引的算法复杂度很高,从而限制了语 义概念在文本表示中的使用。目前最常用的文本表示模型是向量空间模型,向量空间模型 以词作为特征。以词作为特征的缺点在于它只简单地考虑一个词是否在文档中出现及其 出现频度,把特征看作是独立存在的,而完全忽略了文本上下文间的语义关系,也没有考虑 特征之间的先后次序。有意义串是具有独立语义,紧密耦合,具有广泛流通性的完整的语言 单元。有意义串实际上就是以短语为特征,以短语为特征的文本表示优于以词做特征的文 本表示。目前对有意义串的分析的研究主要有两大方向,串内分析和串外分析。串内分析 是通过分析本串的结构特征以及组成方式,来判断串是否满足有意义串的要求。目前常用 的串内分析方法主要是通过简单互信息,位置成词概率,相邻字对的耦合性来判断。简单互 信息比较了一个模式串及其部分子串的频度,它可以衡量模式串各部分之间的相关度。 当从该模式串所取的子串的长度过短时,由于统计较短子串的频次没有意义,此时简单互 信息的作用也失效了。位置成词概率表示某个汉字在某个位置(词首或词尾)出现的 概率。由于汉字用法比较丰富以及不规则新词的不断出现,不能完全采用某个汉字的位置 乘此概率来筛选模式串。在切分好的训练语料中扫描所有出现过的连续子对,统计出每组 字对出现的总次数以及该字对作为某个词子串的总次数,后者与前者的比称作相邻字对的 耦合度。如果耦合对比较大,表明该字对很可能出现在一个串中。当选取的词对为偶然 组合的无意义词对时,该字对作为某个词子串的总次数出现次数会很少,计算耦合度会过 滤掉一些实义的串。串外分析是分析紧邻串的上下文的信息,以判断串的语义环境是否丰富。目前常 用的串外分析主要是通过邻接类别,熵值,邻接对熵概念来判断。邻接类别是串上文和 下文中出现的不同字符数量的最大值。邻接类别只考虑字符串左边和右边的不同字符的种 类数量,而没有考虑每个种类的字符出现的频次。熵值可以反映出该串语用环境的 丰富程度,度量一个串的独立性,但是当串出现的频次整体都不多时效果不太明显,而且熵 值计算没有考虑上下文的组合关系。串的上文和下文的组合称为邻接对。邻接对熵是 对邻接对求熵值。如果邻接类别,熵值,邻接对熵都比较大,则一个串很有可能成为一个有意乂串。概括而言,已有的有意义串提取算法存在以下缺点1)串内分析中采用互信息作 为特征不能很好的筛选双字串,对于双字串来说,去掉首字和去尾字的串实际上是单字串, 计算单字出现的频次没有意义;2)串内分析和串外分析都没有考虑串和串之间的差异性, 提取的有意义串中会有很多串表征的内容相似,造成许多有意义串的语义相似和冗余。与本专利技术相关的公开报道主要包括胡吉祥.基于频繁模式的消息文本聚类研究.中科院研究生院硕士学位论 文.2006.44-46 ;贺敏.面向互联网的中文有意义串挖掘.中国科学院计算技术研究所硕士 论文 2007 ; 200710120755. 5,一种面向互联网的有意义串的挖掘方法和系统; haodi feng. Accessor Variety Criteria for Chinese Word Extraction. Computational Linguistics,30(1),2004。
技术实现思路
本专利技术的目的在于提供一种能够有效的提取新闻网页和论坛上的有意义串,并可 以应用于舆情监管系统中的面向互联网的有意义串的提取方法。本专利技术的目的还在于提供 一种面向互联网的有意义串的提取装置。本专利技术的目的是这样实现的本专利技术的面向互联网的有意义串的提取方法包括下列步骤步骤1 提取重复字符串;步骤2 通过串内分析过滤所述字符串;步骤3 通过串外分析过滤所述字符串;步骤4 通过串间分析过滤所述字符串。本专利技术的面向互联网的有意义串的提取方法还可以包括1、步骤1中所述提取重复字符串包括将网页语料处理得到规则化的文本,记录 文本中出现的重复串以及其出现的次数,过滤掉频次低于阈值的重复串和串长低于阈值的 重复串;具体步骤为步骤1. 1去除网页标签,将网页预处理得到规则化的文本格式,并把文本编码格 式转化成GB2312格式的编码;步骤1. 2根据GB2312编码格式,将汉字,英文,数字符号分别转化成其ID表示,并 将其他符号用空格的ASCII码代替;步骤1.3提取该文本的重复串,记录文本中出现的重复串和重复串的次数,过滤 出现次数小于一定阈值的重复串;步骤1.4如果提取的重复串中有空格,则以空格为分隔符把重复串拆成子串。步骤二中所述对字符串进行串内分析包括如果该串不是双字串,计算字符串的 互信息,判断互信息是否达到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;如 果该串是双字串,根据训练得到的双字串统计表和白名单以及双字串分词后的结果对双字 串进行过滤;具体步骤为步骤2. 1对训练语料进行训练,生成双字串词性统计表,双字串白名单;步骤2. 2如果字符串的长度大于2,转入步骤2. 3,否则转入步骤2. 5 ;步骤2. 3计算每个重复串的互信息,如果互信息达到阈值,则转入步骤3 ;步骤2. 4如果互信息没有达到阈值,则将该串过滤掉;步骤2. 5如果该串在双字串白名单里,则转入步骤3 ;步骤2. 6对该串用分词程序进行分词;步骤2. 7如果分词后的词性组合在双字串词性统计表里,则转入步骤3 ;步骤2. 8如果分词后的词性组合不在双字串词性统计表里,则过滤此串。步骤3中所述对字符串进行串外分析包括计算字符串的熵值,判断熵值是否达 到设定的阈值,根据判断结果过滤掉没有达到阈值的文本串;具体步骤为步骤3. 1计算字符串的熵值,判断熵值是否达到设定的阈值;步骤3. 2如果达到阈值,转入步骤4 ;步骤3. 3如果熵值未达到阈值,则将其过滤掉。步骤4中所述对字符串进行串间分析包括对所有字符串进行排序,计算排序后 的相邻两串之间的重合率,并根据串和串之间的组成关系,把重合率大于阈值的邻串对划 分成若干种类型,并分别对每种类型进行分析,并过滤掉不符合要求的字符串,进而得到有 意义串;具体步骤为步骤4. 1对所有字符串进行排序,计算排序后每一对相邻串的重合率;步骤4. 2如果重合率大于阈值,根据相邻两串之间的组合关系,将每一对相邻串 划分到其所属的类型;如果重合率小于阈值,则不统计该相邻串的类型;步骤4. 3如果该相邻串属于A-AB型数据,计算A串和AB串的频率比值;根据频率 比值的大小来确定如何对A串,AB串处理; 步骤4. 4如果连续两个相邻串属于A-AB-ABC型数据,根据A串,AB串,ABC串的频 次的组合关系来确定如何对A串,AB串,ABC串本文档来自技高网
...

【技术保护点】
一种面向互联网的有意义串的提取方法,其特征是包括下列步骤:步骤1:提取重复字符串;步骤2:通过串内分析过滤所述字符串;步骤3:通过串外分析过滤所述字符串;步骤4:通过串间分析过滤所述字符串。

【技术特征摘要】

【专利技术属性】
技术研发人员:王巍杨武苘大鹏董红臣
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1