The present invention provides a method for extracting meaning string, which comprises the following steps: obtaining the original data for processing; repeat extraction; after repeat with matching; filtering noise, generating meaningful string; meaningful string matching, to obtain the best matching meaningful string. Compared with the prior art, the invention by extracting coarse-grained meaningful string matching, a topic of key words, can let users in time of public opinion analysis, more quickly and more accurately to dig out the current hot topics occur, thus make the corresponding decision, guide the development of public opinion. In addition, the invention also provides a device for extracting the meaningful string for realizing the above method.
【技术实现步骤摘要】
一种提取有意义串的方法及装置
本专利技术涉及人工智能领域,特别是一种提取有意义串的方法及装置。
技术介绍
在舆情分析和话题挖掘中,模型的话题输出形式的粒度往往都是词语级,需要使用者作进一步的归纳总结,同时带有较强的主观色彩,容易产生歧义。现有技术中,在进行舆情分析时,挖掘热点话题的流程一般如下:1)对网络上抓取到的非结构化文本信息进行预处理;2)把预处理后的语料进行词向量化,映射到高维特征空间;3)将代表语料的特征进行话题聚类,得到若干个话题;4)从每个话题中,各自输出TopN个词语。然而,现有技术仍然存在以下的缺点和不足:话题的输出粒度是词语级,一个词语所包含的信息量比较少,而且词语之间的关系不明确,词语的词性也没有清晰地标注出来,当使用者对同一话题的词语作归纳总结时,不能够客观地理解话题的实际内容,容易造成歧义,对网络舆情的判断出现偏差。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供了一种提取有意义串的方法及装置。本专利技术通过以下的方案实现:一种提取有意义串的方法,包括以下步骤:获取原始语料并进行处理;提取重复串;对重复串的前后缀进行匹配;过 ...
【技术保护点】
一种提取有意义串的方法,其特征在于:包括以下步骤:获取原始语料并进行处理;提取重复串;对重复串的前后缀进行匹配;过滤噪声,生成有意义串;将有意义串进行匹配,获取匹配度最高的有意义串。
【技术特征摘要】
1.一种提取有意义串的方法,其特征在于:包括以下步骤:获取原始语料并进行处理;提取重复串;对重复串的前后缀进行匹配;过滤噪声,生成有意义串;将有意义串进行匹配,获取匹配度最高的有意义串。2.根据权利要求1所述提取有意义串的方法,其特征在于:所述步骤:获取原始语料并进行处理中,具体包括:从网络抓取需要进行分析的文本;对非结构化的文本进行预处理和词向量化;根据所述向量对网页进行聚类;将同一话题的原始语料集中到同一个文档中并进行分词。3.根据权利要求1所述提取有意义串的方法,其特征在于:所述步骤:提取重复串中,具体包括:依次导入同一话题且已预先分词的语料;统计非停用词的词频,并对语料中围绕在所述非停用词前后的词语,并分别赋予一个ID;对非停用词的词频进行判断,若词频小于阈值的,则过滤,否则认定为重复串。4.根据权利要求3所述提取有意义串的方法,其特征在于:所述步骤:对重复串的前后缀进行匹配中,具体包括:对重复串进行遍历;根据记录好的前缀ID和后缀ID,依次统计重复串前缀和后缀同一词语出现的频率。5.根据权利要求4所述提取有意义串的方法,其特征在于:所述步骤:过滤噪声,生成有意义串中,具体包括:计算紧密度,若紧密度大于阈值,则将前缀、后缀和重复串进行连接,构成一个有意义串,否则,进行过滤;所述紧密度为前缀、后缀的词频除以对应重复串的词频。6.根据权利要求1所述提取有意义串的方法,其特征在于:所述步骤:将有意义串进行匹配,获取匹配度最高的有意义串中,具体包括:通过textrank技术,计算每一篇文章的关键句,并抽取所有文章的标题;把关键句和标题存入数据库中,用抽取到的有意义串在所有关键句和标题中进行检索匹配;根据匹配数进行排序,获取匹配度最高的有意义串,并将该有意义串代表的话题进行展现。7.一种提取有意义串的装置,其特征在于:包括语料获取处理模块,用于获取原始语料并进行处理;提取模块,用于...
【专利技术属性】
技术研发人员:徐波,
申请(专利权)人:广州多益网络股份有限公司,多益网络有限公司,广东利为网络科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。