一种面向有意义串挖掘的重复串提取方法及装置制造方法及图纸

技术编号:3935495 阅读:355 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供的是一种面向有意义串挖掘的重复串提取方法及装置。方法包括下列步骤:步骤A:语料预处理;步骤B:重复串提取;步骤C:重复串修剪。装置由语料预处理模块、重复串发现模块和重复串修剪模块连接组成。本发明专利技术提取的重复串可经过进一步深度分析以得到有意义串,可以广泛应用于网络舆情管理、互联网智能信息处理等应用领域。

【技术实现步骤摘要】

本专利技术涉及利用计算机技术辅助网络信息智能分析或舆情管理方法及装置。
技术介绍
随着互联网技术的迅猛发展,网络在传达社情民意方面的优势逐步显现出来。继传统的报纸、广播、电视之后,互联网已经确立了自己第四媒体的主导地位,并在表达民众心声、反映社会舆论方面发挥极其重要的作用。网络舆情是通过互联网传播的公众对现实生活中某些问题所持的有较强影响力、倾向性的观点和言论,是网民关注的热点,是民众讨论的焦点,集中反映一个时期网络舆论的中心。互联网已经成为中国社会各阶层利益表达、情感宣泄、思想碰撞的重要舆论渠道。在这样的背景下,如何从互联网网页文本中挖掘出有用信息就显得非常重要。有意义串是具有独立语义,紧密耦合,具有广泛流通性的完整的语言单元。有意义串实际上就是以短语为特征,以有意义串作为特征表示在文本聚类和分类上取得了良好的效果。提取有意义串首先需要提取重复串,在重复串的基础上对重复串进行深度分析便可以得到有意义串。 目前国内在重复串的预处理研究方面取得了一些研究成果.文献 在语料预处理中去除了停用词以及数字标点等非单词符号,目的是减少无用特征项对提取重复串的干扰。文献 在文档之间用特定的边界符号分隔,该边界符号不会出现在任何原始文档中,这样可以避免出现重复串跨文档的情况,因为跨越文档边界的字符串是没有意义的。文献 将每个单词被转换成一个ID,这样每个英语单词或中文汉字都可以被作为一个单元处理,可以避免提取的重复串中会出现半个汉字的情况并可以縮短重复串提取的时间。文献处理的数据为许多文档的集合,在语料预处理中将每个字符编号,然后记录每个下标对应字符所属的文档编号,在提取重复串时很容易判断出每个重复串究竟出现在哪几篇文档中。 本专利技术申请涉及到的相关的公开文件包括 黄玉兰,龚才春,许洪波,程学旗.基于局部性原理的有意义串提取方法.第四届全国信息检索与内容安全学术会议.2008-11-01 ; 龚才春.短文本语言计算的关键技术研究.中国科学院研究生院(计算技术研究所)博士论文 2008-04-01 ; 龚才春,贺敏,张华平,许洪波,程学旗.大规模语料的频繁模式快速发现算法 通信学报 2007-12-25 ; 胡吉祥,许洪波,刘悦,程学旗.重复串特征提取算法及其在文本聚类中的应用 计算机工程.2007-01-20 ; 胡吉祥,许洪波,刘悦,王斌,程学旗.基于重复串的短文本聚类研究.全国第八届计算语言学联合学术会议(JSCL-2005). 2005-08-01 ; 黄旭,朱艳琴,罗喜召.重复串特征提取算法在不良信息检测中的应用.第三届全国信息检索与内容安全学术会议.2007-11-01 ;4 张华平,贺敏. 一 种面向互联网的有意义串的挖掘方法和系 统 200710120755. 5. 2008-03-26 ; 邹纲,刘群. 一 种中文新词语的检测方法及其检测系 统 200410000651. 7. 2005-07-20。 通过对上述文献的总结和分析,发现目前的重复串提取方法中在预处理阶段存在 以下缺点1)停用词处理不当在语料预处理阶段中去除停用词会破坏语料的整体结构, 导致提取的重复串不准确以及提取重复串上下文时也不准确;2)对重复串的长度没有限 制如果提取的重复串长度过长,会导致提取的特征过于冗余和稠密,语义过于分散;3)重 复串的边界界定不清某些提取的重复串可能会跨越完整的语义单元,跨越标点符号以及 句子,造成提取的重复串是由不同语义单元的内容拼凑而成,该种重复串的组成具有偶然 性,无确切语义,没有实际价值。
技术实现思路
本专利技术的目的在于提供一种能够从海量语料中准确高效的提取重复串,为进一步 进行有意义串深度挖掘提供技术支持的一种面向有意义串挖掘的重复串提取方法。本专利技术 的目的还在于提供一种面向有意义串挖掘的重复串提取装置。 本专利技术的目的是这样实现的 本专利技术的面向有意义串挖掘的重复串提取方法包括下列步骤 步骤A:语料预处理; 步骤B:重复串提取; 步骤C:重复串修剪; 所述步骤A包括些下列步骤 步骤A1,将网页中的数据去除标签后格式化成文本形式,将文本中的特殊符号用 分隔符号代替,采用空格作为分隔符,然后将文本中出现的所有符号都转化成对应的ID表 示; 所述步骤B包括些下列步骤 步骤Bl,从文本中提取重复串,记录重复串以及其出现的次数,过滤掉频次低于阈值和长度小于阈值的重复串; 所述步骤C包括些下列步骤 步骤C1,对于长度大于阈值的重复串,利用对该串进行分词后的词性类别将该串分割成若干子串;对于含有空格的重复串,以空格为分隔符号把该串分割成若干子串;同时对重复串进行去停用词处理等其他修剪工作。 所述步骤A 1包括些下列步骤 步骤A11,去除网页标签,提取网页中的正文; 步骤A12,将网页编码转化成GB2312格式编码; 步骤A13,根据GB2312的编码格式保留文本中出现的汉字、英文、数字符号,将其 他符号用空格符代替。 步骤A14,去掉文本中首尾出现的空格;若文本中连续出现空格,则只保留一个空 格; 步骤A15,将文本中的汉字、英文、数字、空格符号分别转化成对应的ID值,ID值为其ASCII码的整数值。 所述步骤Bl包括些下列步骤 步骤Bll,提取该文本的重复串,记录文本中出现的重复串和重复串的次数,删除 频次低于阈值和长度小于阈值的重复串; 步骤B12,将重复串的ID组合形式转换成相对应的字符组合形式。 所述步骤Cl包括下列步骤 步骤C11,删除重复串中含有的停用词,如果删除后重复串的长度过短,则删除该 重复串; 步骤C12,去掉重复串首尾空格,并过滤掉长度小于阈值的重复串; 步骤C13,去除粘性字符; 步骤C14,以空格为分隔符号,把含有空格的重复串分割成若干子串,如果子串已 经在重复串集合中出现过,则删除该子串;否则统计该子串出现的频次,并将该子串加入到 重复串集合中; 步骤C15,如果重复串的长度小于阈值,则转入步骤C18 ;否则转入步骤16 ; 步骤C16,对长度大于阈值的重复串进行分词,并对分词后的词性结果进行扫描, 如果前一个词的词性是名词词性,后一个词的词性是非名词词性,则把此重复串拆分成两 个子串,其中把该名词、包括该名词本身之前的串当做一个子串,把该名词、不包括该名词 之后的串当做另一个子串; 步骤C17,以分词后词性结果中的特殊词性为分隔符号对步骤C15分割出的子串 再次进行分割; 步骤C18,删除不包含汉字的重复串,并对重复串进行去重工作。 本专利技术还提供了一种面向有意义串挖掘的重复串提取装置包括 语料预处理模块、重复串发现模块和重复串修剪模块连接组成, 语料预处理模块,将网页中的数据格式化成文本,把文本中的特殊符号用空格代替,然后将文本中出现的所有符号都转化成对应的ID表示; 重复串发现模块,从文本流中提取重复串,记录重复串以及其出现的次数,过滤掉 频次低于阈值和长度小于阈值的重复串; 重复串修剪模块,对长度大于阈值的重复串,利用对该串进行分词后的词性类别 将该串分割成若干子串。对于含有空格的重复串,以空格为分隔符号把其分割成若干子串; 同时对重复串进行去停用词等其他修剪工作,进一步对重复串进行筛选和修剪;在进行长 串分析和空格分析后,删除不包含汉字的重复串对重复本文档来自技高网
...

【技术保护点】
一种面向有意义串挖掘的重复串提取方法,包括下列步骤:步骤A:语料预处理;步骤B:重复串提取;步骤C:重复串修剪;其特征是:所述步骤A包括些下列步骤:步骤A1,将网页中的数据去除标签后格式化成文本形式,将文本中的特殊符号用分隔符号代替,采用空格作为分隔符,然后将文本中出现的所有符号都转化成对应的ID表示;所述步骤B包括些下列步骤:步骤B1,从文本中提取重复串,记录重复串以及其出现的次数,过滤掉频次低于阈值和长度小于阈值的重复串;所述步骤C包括些下列步骤:步骤C1,对于长度大于阈值的重复串,利用对该串进行分词后的词性类别将该串分割成若干子串;对于含有空格的重复串,以空格为分隔符号把该串分割成若干子串;同时对重复串进行去停用词处理等其他修剪工作。

【技术特征摘要】

【专利技术属性】
技术研发人员:王巍杨武苘大鹏董红臣
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1