信息处理方法、装置及终端制造方法及图纸

技术编号：14521138 阅读：45 留言：0更新日期：2017-02-02 00:03

一种信息处理方法、装置及终端，信息处理方法包括：对待处理语料进行分词处理，以得到多个词语；对所述多个词语的至少一部分进行同义词替换，以得到新的语料；对所述新的语料进行关键词提取处理，以得到一个或多个关键词。本发明专利技术技术方案提高了关键词提取的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，尤其涉及一种信息处理方法、装置及终端。
技术介绍
现在提取关键词时，多是基于统计特征的方法(如词频统计)，或者是基于文本排序(TextRank)的方法。基于统计特征的算法操作简单。基于文本排序的方法是根据词语的共现关系确定词语间的联系。但是，基于统计特征的算法会忽略出现频率不高或在文档中位置不重要但对于文档具有关键意义的词语。基于文本排序的方法缺乏语义理解，使得同一主题但不在同一窗口的词语无法关联。因此，如何提高关键词提取的准确性是一个亟待解决的问题。
技术实现思路
本专利技术解决的技术问题是如何提高关键词提取的准确性。为解决上述技术问题，本专利技术实施例提供一种信息处理方法，包括：对待处理语料进行分词处理，以得到多个词语；对所述多个词语的至少一部分进行同义词替换，以得到新的语料；对所述新的语料进行关键词提取处理，以得到一个或多个关键词。可选的，所述对所述多个词语的至少一部分进行同义词替换包括：根据预设同义词库确定所述多个词语的至少一部分中的至少一个同义词组，其中同义的词语列入同一同义词组中；对于每一同义词组，选取在所述待处理语料中词频最高的词语，并将其他词语替换为所述词频最高的词语，以得到所述新的语料。可选的，所述对所述多个词语的至少一部分进行同义词替换之后还包括：对所述新的语料进行筛选处理，以用于关键词提取处理。可选的，所述对所述多个词语的至少一部分进行同义词替换之前还包括：对所述多个词语进行筛选处理，以得到多个候选词。可选的，所述对所述多个词语的至少一部分进行同义词替换包括：根据预设同义词库确定所述多个候选词中的至少一个...

【技术保护点】
一种信息处理方法，其特征在于，包括：对待处理语料进行分词处理，以得到多个词语；对所述多个词语的至少一部分进行同义词替换，以得到新的语料；对所述新的语料进行关键词提取处理，以得到一个或多个关键词。

【技术特征摘要】
1.一种信息处理方法，其特征在于，包括：对待处理语料进行分词处理，以得到多个词语；对所述多个词语的至少一部分进行同义词替换，以得到新的语料；对所述新的语料进行关键词提取处理，以得到一个或多个关键词。2.根据权利要求1所述的信息处理方法，其特征在于，所述对所述多个词语的至少一部分进行同义词替换包括：根据预设同义词库确定所述多个词语的至少一部分中的至少一个同义词组，其中同义的词语列入同一同义词组中；对于每一同义词组，选取在所述待处理语料中词频最高的词语，并将其他词语替换为所述词频最高的词语，以得到所述新的语料。3.根据权利要求1所述的信息处理方法，其特征在于，所述对所述多个词语的至少一部分进行同义词替换之后还包括：对所述新的语料进行筛选处理，以用于关键词提取处理。4.根据权利要求1所述的信息处理方法，其特征在于，所述对所述多个词语的至少一部分进行同义词替换之前还包括：对所述多个词语进行筛选处理，以得到多个候选词。5.根据权利要求4所述的信息处理方法，其特征在于，所述对所述多个词语的至少一部分进行同义词替换包括：根据预设同义词库确定所述多个候选词中的至少一个同义词组，其中同义的候选词列入同一同义词组中；对于每一同义词组，选取在所述待处理语料中词频最高的候选词，并将其他候选词替换为所述词频最高的候选词，以得到所述新的语料。6.根据权利要求3或4所述的信息处理方法，其特征在于，采用以下一种或多种方式进行筛选处理：根据词性进行筛选，保留名词、形容词和动词；根据频次进行筛选，保留频次大于频次阈值的词语。7.根据权利要求1所述的信息处理方法，其特征在于，所述对所述新的语料进行关键词提取处理包括：对所述新的语料进行统计，以得到所述新的语料在所述待处理语料中的词频和位置信息；将所述新的语料及其词频和位置信息输入TextRank算法，对所述待处理语料进行关键词提取。8.根据权利要求7所述的信息处理方法，其特征在于，还包括：对提取得到的所述一个或多个关键词进行准确性验证，得到验证结果；根据所述验证结果对TextRank算法中各参数进行调整；利用参数调整后的TextRank算法再次提取所述关键词，直至所述关键词的验证结果符合预设要求。9.根据权利要求1所述的信息处理方法，其特征在于，对待处理语料进行分词处理之前还包括：对所述待处理语料进行预处理，以得到格式统一的所述待处理语料。10.根据权利要求9所述的信息处理方法，其特征在于，所述对所述待处理语料进行预处理包括：将所述待处理语料转换为文本格式，以得到文本数据；对所述文本数据过滤预设词，其中所述预设词为以下一种或多种：脏词、敏感词和停用词；将过滤后的所述文本数据按照标点进行划分。11.根据权利要求1所述的信息处理方法，其特征在于，采用以下一种或多种方式对所述待处理语料进行分词：字典双向最大匹配算法、VITERBI算法、HMM算法和CRF算法。12.一种信息处理装置，其特征在于，包括：分词单元，适于对待处理语料进行分词处理，以得到多个词语；同义词替换单元，适于对所述...

【专利技术属性】
技术研发人员：张昊，谢瑜，朱频频，
申请(专利权)人：上海智臻智能网络科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人