信息处理方法、装置及终端制造方法及图纸

技术编号:14521138 阅读:45 留言:0更新日期:2017-02-02 00:03
一种信息处理方法、装置及终端,信息处理方法包括:对待处理语料进行分词处理,以得到多个词语;对所述多个词语的至少一部分进行同义词替换,以得到新的语料;对所述新的语料进行关键词提取处理,以得到一个或多个关键词。本发明专利技术技术方案提高了关键词提取的准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其涉及一种信息处理方法、装置及终端。
技术介绍
现在提取关键词时,多是基于统计特征的方法(如词频统计),或者是基于文本排序(TextRank)的方法。基于统计特征的算法操作简单。基于文本排序的方法是根据词语的共现关系确定词语间的联系。但是,基于统计特征的算法会忽略出现频率不高或在文档中位置不重要但对于文档具有关键意义的词语。基于文本排序的方法缺乏语义理解,使得同一主题但不在同一窗口的词语无法关联。因此,如何提高关键词提取的准确性是一个亟待解决的问题。
技术实现思路
本专利技术解决的技术问题是如何提高关键词提取的准确性。为解决上述技术问题,本专利技术实施例提供一种信息处理方法,包括:对待处理语料进行分词处理,以得到多个词语;对所述多个词语的至少一部分进行同义词替换,以得到新的语料;对所述新的语料进行关键词提取处理,以得到一个或多个关键词。可选的,所述对所述多个词语的至少一部分进行同义词替换包括:根据预设同义词库确定所述多个词语的至少一部分中的至少一个同义词组,其中同义的词语列入同一同义词组中;对于每一同义词组,选取在所述待处理语料中词频最高的词语,并将其他词语替换为所述词频最高的词语,以得到所述新的语料。可选的,所述对所述多个词语的至少一部分进行同义词替换之后还包括:对所述新的语料进行筛选处理,以用于关键词提取处理。可选的,所述对所述多个词语的至少一部分进行同义词替换之前还包括:对所述多个词语进行筛选处理,以得到多个候选词。可选的,所述对所述多个词语的至少一部分进行同义词替换包括:根据预设同义词库确定所述多个候选词中的至少一个同义词组,其中同义的候选词列入同一同义词组中;对于每一同义词组,选取在所述待处理语料中词频最高的候选词,并将其他候选词替换为所述词频最高的候选词,以得到所述新的语料。可选的,采用以下一种或多种方式进行筛选处理:根据词性进行筛选,保留名词、形容词和动词;根据频次进行筛选,保留频次大于频次阈值的词语。可选的,所述对所述新的语料进行关键词提取处理包括:对所述新的语料进行统计,以得到所述新的语料在所述待处理语料中的词频和位置信息;将所述新的语料及其词频和位置信息输入TextRank算法,对所述待处理语料进行关键词提取。可选的,所述信息处理方法还包括:对提取得到的所述一个或多个关键词进行准确性验证,得到验证结果;根据所述验证结果对TextRank算法中各参数进行调整;利用参数调整后的TextRank算法再次提取所述关键词,直至所述关键词的验证结果符合预设要求。可选的,对待处理语料进行分词处理之前还包括:对所述待处理语料进行预处理,以得到格式统一的所述待处理语料。可选的,所述对所述待处理语料进行预处理包括:将所述待处理语料转换为文本格式,以得到文本数据;对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词;将过滤后的所述文本数据按照标点进行划分。可选的,采用以下一种或多种方式对所述待处理语料进行分词:字典双向最大匹配算法、VITERBI算法、HMM算法和CRF算法。为解决上述技术问题,本专利技术实施例还公开了一种信息处理装置,包括:分词单元,适于对待处理语料进行分词处理,以得到多个词语;同义词替换单元,适于对所述多个词语的至少一部分进行同义词替换,以得到新的语料;关键词提取单元,适于对所述新的语料进行关键词提取处理,以得到一个或多个关键词。可选的,所述同义词替换单元包括:第一同义词组确定子单元,适于根据预设同义词库确定所述多个词语的至少一部分中的至少一个同义词组,其中同义的词语列入同一同义词组中;第一替换子单元,适于对于每一同义词组,选取在所述待处理语料中词频最高的词语,并将其他词语替换为所述词频最高的词语,以得到所述新的语料。可选的,所述信息处理装置还包括:第一筛选单元,适于对所述新的语料进行筛选处理,以用于关键词提取处理。可选的,所述信息处理装置还包括:第二筛选单元,适于对所述多个词语进行筛选处理,以得到多个候选词。可选的,所述同义词替换单元包括:第二同义词组确定子单元,适于根据预设同义词库确定所述多个候选词中的至少一个同义词组,其中同义的候选词列入同一同义词组中;第二替换子单元,适于对于每一同义词组,选取在所述待处理语料中词频最高的候选词,并将其他候选词替换为所述词频最高的候选词,以得到所述新的语料。可选的,采用以下一种或多种方式进行筛选处理:根据词性进行筛选,保留名词、形容词和动词;根据频次进行筛选,保留频次大于频次阈值的词语。可选的,所述关键词提取单元包括:统计子单元,适于对所述新的语料进行统计,以得到所述新的语料在所述待处理语料中的词频和位置信息;提取子单元,适于将所述新的语料及其词频和位置信息输入TextRank算法,对所述待处理语料进行关键词提取。可选的,所述信息处理装置还包括:验证单元,适于对提取得到的所述一个或多个关键词进行准确性验证,得到验证结果;调整单元,适于根据所述验证结果对TextRank算法中各参数进行调整;提取单元,适于利用参数调整后的TextRank算法再次提取所述关键词,直至所述关键词的验证结果符合预设要求。可选的,所述信息处理装置还包括:预处理单元,适于对所述待处理语料进行预处理,以得到格式统一的所述待处理语料。可选的,所述预处理单元包括:格式转换子单元,适于将所述待处理语料转换为文本格式,以得到文本数据;过滤子单元,适于对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词;划分子单元,适于将过滤后的所述文本数据按照标点进行划分。可选的,所述分词单元采用以下一种或多种方式对所述待处理语料进行分词:字典双向最大匹配算法、VITERBI算法、HMM算法和CRF算法。为解决上述技术问题,本专利技术实施例还公开了一种终端,所述终端包括所述信息处理装置。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术技术方案对待处理语料进行分词处理,以得到多个词语;对所述多个词语的至少一部分进行同义词替换,以得到新的语料;对所述新的语料进行关键词提取处理,以得到一个或多个关键词。本专利技术技术方案在关键词提取处理之前,预先进行信息处理,也就是通过对分词后的所述多个词语的至少一部分进行同义词替换,使得在进行关键词提取处理时,可以包含同义词汇的语义特征,在确定关键词时计入同义词的贡献,避免忽略出现频率不高但对于文档具有关键意义的词语,进而提高了关键词提取的准确性。进一步,对所述新的语料进行统计,以得到所述新的语料在所述待处理语料中的词频和位置信息;将所述新的语料及其词频和位置信息输入TextRank算法,对所述待处理语料进行关键词提取。本专利技术技术方案基于TextRank算法进行关键词提取,可以避免忽略在文档中位置不重要但对于文档具有关键意义的词语;同时,通过包含同义词汇的语义特征,使得同一主题但不在同一窗口的词语可以关联,实现自动提取待处理语料的关键词,且准确率高。附图说明图1是本专利技术实施例一种信息处理方法的流程图;图2是本专利技术实施例另一种信息处理方法的流程图;图3是本专利技术实施例一种信息处理装置的结构示意图;图4是本专利技术实施例另一种信息处理装置的结构示意图。具体实施方式如
技术介绍
中所述,现有技术的基本文档来自技高网
...

【技术保护点】
一种信息处理方法,其特征在于,包括:对待处理语料进行分词处理,以得到多个词语;对所述多个词语的至少一部分进行同义词替换,以得到新的语料;对所述新的语料进行关键词提取处理,以得到一个或多个关键词。

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:对待处理语料进行分词处理,以得到多个词语;对所述多个词语的至少一部分进行同义词替换,以得到新的语料;对所述新的语料进行关键词提取处理,以得到一个或多个关键词。2.根据权利要求1所述的信息处理方法,其特征在于,所述对所述多个词语的至少一部分进行同义词替换包括:根据预设同义词库确定所述多个词语的至少一部分中的至少一个同义词组,其中同义的词语列入同一同义词组中;对于每一同义词组,选取在所述待处理语料中词频最高的词语,并将其他词语替换为所述词频最高的词语,以得到所述新的语料。3.根据权利要求1所述的信息处理方法,其特征在于,所述对所述多个词语的至少一部分进行同义词替换之后还包括:对所述新的语料进行筛选处理,以用于关键词提取处理。4.根据权利要求1所述的信息处理方法,其特征在于,所述对所述多个词语的至少一部分进行同义词替换之前还包括:对所述多个词语进行筛选处理,以得到多个候选词。5.根据权利要求4所述的信息处理方法,其特征在于,所述对所述多个词语的至少一部分进行同义词替换包括:根据预设同义词库确定所述多个候选词中的至少一个同义词组,其中同义的候选词列入同一同义词组中;对于每一同义词组,选取在所述待处理语料中词频最高的候选词,并将其他候选词替换为所述词频最高的候选词,以得到所述新的语料。6.根据权利要求3或4所述的信息处理方法,其特征在于,采用以下一种或多种方式进行筛选处理:根据词性进行筛选,保留名词、形容词和动词;根据频次进行筛选,保留频次大于频次阈值的词语。7.根据权利要求1所述的信息处理方法,其特征在于,所述对所述新的语料进行关键词提取处理包括:对所述新的语料进行统计,以得到所述新的语料在所述待处理语料中的词频和位置信息;将所述新的语料及其词频和位置信息输入TextRank算法,对所述待处理语料进行关键词提取。8.根据权利要求7所述的信息处理方法,其特征在于,还包括:对提取得到的所述一个或多个关键词进行准确性验证,得到验证结果;根据所述验证结果对TextRank算法中各参数进行调整;利用参数调整后的TextRank算法再次提取所述关键词,直至所述关键词的验证结果符合预设要求。9.根据权利要求1所述的信息处理方法,其特征在于,对待处理语料进行分词处理之前还包括:对所述待处理语料进行预处理,以得到格式统一的所述待处理语料。10.根据权利要求9所述的信息处理方法,其特征在于,所述对所述待处理语料进行预处理包括:将所述待处理语料转换为文本格式,以得到文本数据;对所述文本数据过滤预设词,其中所述预设词为以下一种或多种:脏词、敏感词和停用词;将过滤后的所述文本数据按照标点进行划分。11.根据权利要求1所述的信息处理方法,其特征在于,采用以下一种或多种方式对所述待处理语料进行分词:字典双向最大匹配算法、VITERBI算法、HMM算法和CRF算法。12.一种信息处理装置,其特征在于,包括:分词单元,适于对待处理语料进行分词处理,以得到多个词语;同义词替换单元,适于对所述...

【专利技术属性】
技术研发人员:张昊谢瑜朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1