分析文本话题点的方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:18426500 阅读:19 留言:0更新日期:2018-07-12 02:02
本发明专利技术提供一种分析文本话题点的方法、装置、设备和计算机存储介质,所述方法包括:获取文本数据;从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。通过本发明专利技术所提供的技术方案,能够实现所获取的话题点具有重要、通顺且不转义的特点,能够准确表达原文本数据的核心语义,从而提高文本话题点分析的准确性。

Method, device, device and computer storage medium for analyzing text topic points

The present invention provides a method, a device, a device, and a computer storage medium for analyzing the topic of a text. The method includes: obtaining text data, extracting important words from the text data, parsing the text data, and according to the grammatical structure content related to the important words in the text data, Get the topic of the text data. Through the technical scheme provided by this invention, the topic points obtained can be realized with the characteristics of important, smooth and not turning, and can accurately express the core semantics of the original text data, thus improving the accuracy of the text topic point analysis.

【技术实现步骤摘要】
分析文本话题点的方法、装置、设备和计算机存储介质
本专利技术涉及自然语言处理,尤其涉及一种分析文本话题点的方法、装置、设备和计算机存储介质。
技术介绍
现有技术在分析文本话题点时,通常是基于主题模型进行文本主题的预测。但是,现有技术存在以下缺点:由于主题模型实际上是在特定主题类别上的分类模型,因此仅能够分析得到特定的主题类别,类别数量有限;由主题模型分析得到的主题高度抽象,难以准确描述文本的核心语义。因此,亟需提供一种能够准确分析文本话题点的方法。
技术实现思路
有鉴于此,本专利技术提供了一种分析文本话题点的方法、装置、设备和计算机存储介质,用于提高文本话题点分析的准确性。本专利技术为解决技术问题所采用的技术方案是提供一种分析文本话题点的方法,所述方法包括:获取文本数据;从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。根据本专利技术一优选实施例,从所述文本数据中提取重要词包括:从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,确定所述文本数据中各词语的重要性得分,提取满足预设的得分要求的词语作为重要词。根据本专利技术一优选实施例,所述确定所述文本数据中各词语的重要性得分包括:基于词语在大规模数据中的统计指标,确定所述文本数据中各词语的重要性得分;或者将所述文本数据中的各词语输入预先训练的词语排序模型,依据词语排序模型输出的结果,确定所述文本数据中各词语的重要性得分。根据本专利技术一优选实施例,所述词语排序模型是采用以下方式预先训练得到的:获取训练数据,所述训练数据包括标注有各词语重要性得分的文本数据;将训练数据中文本数据的各词语作为输入,将文本数据中各词语的重要性得分作为输出,训练深度学习模型,得到词语排序模型。根据本专利技术一优选实施例,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点包括:获取所述文本数据的语法树;根据所获取的语法树,确定与所述重要词相关的语法结构内容;将确定出的语法结构内容进行组合,得到所述文本数据的话题点。根据本专利技术一优选实施例,所述将确定出的语法结构内容进行组合包括:从确定出的语法结构内容中选择满足预设语法结构要求的内容进行组合。本专利技术为解决技术问题所采用的技术方案是提供一种分析文本话题点的装置,所述装置包括:获取单元,用于获取文本数据;提取单元,用于从所述文本数据中提取重要词;处理单元,用于对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。根据本专利技术一优选实施例,所述提取单元在用于从所述文本数据中提取重要词时,具体执行:从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,确定所述文本数据中各词语的重要性得分,提取满足预设的得分要求的词语作为重要词。根据本专利技术一优选实施例,所述提取单元在用于确定所述文本数据中各词语的重要性得分时,具体执行:基于词语在大规模数据中的统计指标,确定所述文本数据中各词语的重要性得分;或者将所述文本数据中的各词语输入预先训练的词语排序模型,依据词语排序模型输出的结果,确定所述文本数据中各词语的重要性得分。根据本专利技术一优选实施例,所述装置还包括训练单元,用于采用以下方式预先训练得到词语排序模型:获取训练数据,所述训练数据包括标注有各词语重要性得分的文本数据;将训练数据中文本数据的各词语作为输入,将文本数据中各词语的重要性得分作为输出,训练深度学习模型,得到词语排序模型。根据本专利技术一优选实施例,所述处理单元在用于根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点时,具体执行:获取所述文本数据的语法树;根据所获取的语法树,确定与所述重要词相关的语法结构内容;将确定出的语法结构内容进行组合,得到所述文本数据的话题点。根据本专利技术一优选实施例,所述处理单元在将确定出的语法结构内容进行组合时,具体执行:从确定出的语法结构内容中选择满足预设语法结构要求的内容进行组合。由以上技术方案可以看出,本专利技术通过提取对应原文本数据的重要词,然后基于原文本数据的语法结构以及重要词,获取原文本数据的话题点,因此能够实现所获取的话题点具有重要、通顺且不转义的特点,能够准确表达原文本数据的核心语义,从而提高文本话题点分析的准确性。【附图说明】图1为本专利技术一实施例提供的分析文本话题点的方法流程图;图2为本专利技术一实施例提供的文本数据的语法结构的示意图;图3为本专利技术一实施例提供的分析文本话题点的装置结构图;图4为本专利技术一实施例提供的计算机系统/服务器的框图。【具体实施方式】为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。图1为本专利技术一实施例提供的分析文本话题点的方法流程图,如图1中所示,所述方法包括:在101中,获取文本数据。在本步骤中,所获取的文本数据可以为单个字符串的文本,也可以为由多个字符串构成的文本。在中文领域中该文本数据可以是句子、短语等。其中,所获取的文本数据可以为文本格式的文本数据,也可以为在获取语音、图像等非文本格式后进行转换得到的文本数据。在102中,从所述文本数据中提取重要词。在本步骤中,根据预设的提取要求,从步骤101所获取的文本数据中提取对应该文本数据的重要词。具体地,在提取文本数据的重要词时,可以采用以下方式:对文本数据进行切词处理,获取文本数据的切词结果;根据文本数据的切词结果,将其中满足预设的提取要求的词语作为该文本数据的重要词进行提取。其中,本步骤中预设的提取要求包括:预设的词性要求或者预设的得分要求中的至少一种。具体地,在从文本数据中提取重要词时,可以采用以下几种方式:(1)提取文本数据中满足预设的词性要求的词语作为重要词。其中,预设的词性要求可以为实词,例如普通名词、专有名词、有实际需求的动词等。在使用该种方式提取文本数据中的重要词时,可以通过词性分析技术确定文本数据中各词语的词性,然后根据预设的词性要求,提取满足要求的词语作为文本数据的重要词。例如,若预设的词性要求为名词,所获取的文本数据为“我爱A”,该文本数据对应的切词结果为“我”、“爱”以及“A”,其中若“A”表示城市名,则“A”的词性为名词,则提取“A”作为该文本数据的重要词。(2)提取文本数据中满足预设的得分要求的词语作为重要词。本文档来自技高网...

【技术保护点】
1.一种分析文本话题点的方法,其特征在于,所述方法包括:获取文本数据;从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。

【技术特征摘要】
1.一种分析文本话题点的方法,其特征在于,所述方法包括:获取文本数据;从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。2.根据权利要求1所述的方法,其特征在于,从所述文本数据中提取重要词包括:从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,确定所述文本数据中各词语的重要性得分,提取满足预设的得分要求的词语作为重要词。3.根据权利要求2所述的方法,其特征在于,确定所述文本数据中各词语的重要性得分包括:基于词语在大规模数据中的统计指标,确定所述文本数据中各词语的重要性得分;或者将所述文本数据中的各词语输入预先训练的词语排序模型,依据词语排序模型输出的结果,确定所述文本数据中各词语的重要性得分。4.根据权利要求3所述的方法,其特征在于,所述词语排序模型是采用以下方式预先训练得到的:获取训练数据,所述训练数据包括标注有各词语重要性得分的文本数据;将训练数据中文本数据的各词语作为输入,将文本数据中各词语的重要性得分作为输出,训练深度学习模型,得到词语排序模型。5.根据权利要求1所述的方法,其特征在于,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点包括:获取所述文本数据的语法树;根据所获取的语法树,确定与所述重要词相关的语法结构内容;将确定出的语法结构内容进行组合,得到所述文本数据的话题点。6.根据权利要求5所述的方法,其特征在于,所述将确定出的语法结构内容进行组合包括:从确定出的语法结构内容中选择满足预设语法结构要求的内容进行组合。7.一种分析文本话题点的装置,其特征在于,所述装置包括:获取单元,用于获取文本数据;提取单元,用于从所述文本数据中提取重要词;处理单元,用于对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。8....

【专利技术属性】
技术研发人员:郭振吴文权刘占一
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1