The present invention provides a method, a device, a device, and a computer storage medium for analyzing the topic of a text. The method includes: obtaining text data, extracting important words from the text data, parsing the text data, and according to the grammatical structure content related to the important words in the text data, Get the topic of the text data. Through the technical scheme provided by this invention, the topic points obtained can be realized with the characteristics of important, smooth and not turning, and can accurately express the core semantics of the original text data, thus improving the accuracy of the text topic point analysis.
【技术实现步骤摘要】
分析文本话题点的方法、装置、设备和计算机存储介质
本专利技术涉及自然语言处理,尤其涉及一种分析文本话题点的方法、装置、设备和计算机存储介质。
技术介绍
现有技术在分析文本话题点时,通常是基于主题模型进行文本主题的预测。但是,现有技术存在以下缺点:由于主题模型实际上是在特定主题类别上的分类模型,因此仅能够分析得到特定的主题类别,类别数量有限;由主题模型分析得到的主题高度抽象,难以准确描述文本的核心语义。因此,亟需提供一种能够准确分析文本话题点的方法。
技术实现思路
有鉴于此,本专利技术提供了一种分析文本话题点的方法、装置、设备和计算机存储介质,用于提高文本话题点分析的准确性。本专利技术为解决技术问题所采用的技术方案是提供一种分析文本话题点的方法,所述方法包括:获取文本数据;从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。根据本专利技术一优选实施例,从所述文本数据中提取重要词包括:从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,确定所述文本数据中各词语的重要性得分,提取满足预设的得分要求的词语作为重要词。根据本专利技术一优选实施例,所述确定所述文本数据中各词语的重要性得分包括:基于词语在大规模数据中的统计指标,确定所述文本数据中各词语的重要性得分;或者将所述文本数据中的各词语输入预先训练的词语排序模型,依据词语排序模型输出的结果,确定所述文本数据中各词语的重要性得分。根据本专利技术一优选实施例,所述词语排序模型是采用以下方式预先训练得到的:获取训练数据, ...
【技术保护点】
1.一种分析文本话题点的方法,其特征在于,所述方法包括:获取文本数据;从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。
【技术特征摘要】
1.一种分析文本话题点的方法,其特征在于,所述方法包括:获取文本数据;从所述文本数据中提取重要词;对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。2.根据权利要求1所述的方法,其特征在于,从所述文本数据中提取重要词包括:从所述文本数据中提取满足预设的词性要求的词语作为重要词;和/或,确定所述文本数据中各词语的重要性得分,提取满足预设的得分要求的词语作为重要词。3.根据权利要求2所述的方法,其特征在于,确定所述文本数据中各词语的重要性得分包括:基于词语在大规模数据中的统计指标,确定所述文本数据中各词语的重要性得分;或者将所述文本数据中的各词语输入预先训练的词语排序模型,依据词语排序模型输出的结果,确定所述文本数据中各词语的重要性得分。4.根据权利要求3所述的方法,其特征在于,所述词语排序模型是采用以下方式预先训练得到的:获取训练数据,所述训练数据包括标注有各词语重要性得分的文本数据;将训练数据中文本数据的各词语作为输入,将文本数据中各词语的重要性得分作为输出,训练深度学习模型,得到词语排序模型。5.根据权利要求1所述的方法,其特征在于,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点包括:获取所述文本数据的语法树;根据所获取的语法树,确定与所述重要词相关的语法结构内容;将确定出的语法结构内容进行组合,得到所述文本数据的话题点。6.根据权利要求5所述的方法,其特征在于,所述将确定出的语法结构内容进行组合包括:从确定出的语法结构内容中选择满足预设语法结构要求的内容进行组合。7.一种分析文本话题点的装置,其特征在于,所述装置包括:获取单元,用于获取文本数据;提取单元,用于从所述文本数据中提取重要词;处理单元,用于对所述文本数据进行语法分析,根据所述文本数据中与所述重要词相关的语法结构内容,获取所述文本数据的话题点。8....
【专利技术属性】
技术研发人员:郭振,吴文权,刘占一,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。