核心短语的提取方法、装置及可读存储介质制造方法及图纸

技术编号:19691956 阅读:30 留言:0更新日期:2018-12-08 11:12
本发明专利技术提供的核心短语的提取方法、装置及可读存储介质,通过对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语的方式,可从大量的评论信息中准确挖掘和提取到有效的核心短语,为企业提升产品质量和服务质量提供了基础。

【技术实现步骤摘要】
核心短语的提取方法、装置及可读存储介质
本专利技术涉及数据处理技术,尤其涉及一种核心短语的提取方法、装置及可读存储介质。
技术介绍
随着信息时代的到来和互联网技术的发展,及时获取并分析用户对产品的反馈成为企业在提高产品质量和优化企业服务过程中并不缺少的环节。在很多场景下,企业会通过各种渠道收集用户对服务或产品产生的反馈或建议等评论信息。但是,这些评论信息的数据量庞大,信息内容丰富,如何能够准确的挖掘到评论信息的核心短语成为企业为用户提升产品质量和服务质量时所需解决的重要技术问题。
技术实现思路
针对上述提及的如何能够准确的挖掘到评论信息的核心短语的技术问题,本专利技术提供了一种核心短语的提取方法、装置及可读存储介质。一方面,本专利技术提供了一种核心短语的提取方法,包括:对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;;根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。在其中一种可选的实施方式中,所述短语分析方法包括情感分析方法;当采用情感分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语。在其中一种可选的实施方式中,所述短语分析方法包括句法分析方法;当采用句法分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语。在其中一种可选的实施方式中,所述短语分析方法包括序列化标注分析方法;当采用序列化标注分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:利用预设的长短期记忆模型对所述评论信息的文本进行处理,获得所述评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;根据所述评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语;相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同分析短语方法时得到的候选短语,具体包括:根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。在其中一种可选的实施方式中,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理之前,还包括:根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理;其中,所述字面特征包括短语长度、短语热度、短语构词法。另一方面,本专利技术还提供了一种核心短语的提取装置,包括:短语提取模块,用于对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;去噪模块,用于根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;核心短语处理模块,用于统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。在其中一种可选的实施方式中,所述短语提取模块包括情感分析方法提取单元、句法分析方法提取单元和序列化标注分析方法提取单元中的至少两种;其中,所述情感分析方法提取单元用于对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;相应的,所述去噪模块具体用于根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语;所述句法分析方法提取单元用于根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;相应的,所述去噪模块具体用于根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语;所述序列化标注分析方法提取单元用于利用预设的长短期记忆模型对所述评论信息的文本进行处理,分别获得所述评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;根据各评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语;相应的,所述去噪模块具体用于根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。在其中一种可选的实施方式中,该核心短语的提取装置还包括预处理模块;所述预处理模块用于在去噪模块根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理之前,根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理;其中,所述字面特征包括短语长度、短语热度、短语构词法。再一方面,本专利技术提供了一种核心短语的提取装置,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1-5任一项所述的方法。最后一方面,本专利技术提供了一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行权利要求1-5任一项所述的方法。本专利技术提供的核心短语的提取方法、装置及可读存储介质,通过对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法本文档来自技高网...

【技术保护点】
1.一种核心短语的提取方法,其特征在于,包括:对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。

【技术特征摘要】
1.一种核心短语的提取方法,其特征在于,包括:对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。2.根据权利要求1所述的核心短语的提取方法,其特征在于,所述短语分析方法包括情感分析方法;当采用情感分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语。3.根据权利要求1所述的核心短语的提取方法,其特征在于,所述短语分析方法包括句法分析方法;当采用句法分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语。4.根据权利要求1所述的核心短语的提取方法,其特征在于,所述短语分析方法包括序列化标注分析方法;当采用序列化标注分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:利用预设的长短期记忆模型对所述评论信息的文本进行处理,获得所述评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;根据所述评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语;相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同分析短语方法时得到的候选短语,具体包括:根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。5.根据权利要求1-4任一项所述的核心短语的提取方法,其特征在于,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处...

【专利技术属性】
技术研发人员:洪婉玲
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1