文本分析方法及装置制造方法及图纸

技术编号:22076139 阅读:64 留言:0更新日期:2019-09-12 14:16
本发明专利技术实施例提出一种文本分析方法及装置。所述方法包括:获取文本的关注点;根据所述关注点,获取所述文本中关于所述关注点的子句集合;根据所述子句集合,获得关于所述关注点的子句情感倾向分类;根据所述情感倾向分类,获得关于所述关注点的情感倾向。本发明专利技术实施例能够对文本中的关注点进行情感倾向分析,方便读者对文本产生更加全面深刻的认识和了解。同时,本发明专利技术实施例采用神经网络建立分析模型,能够不断学习和优化,具有较高的分析性能。

Text Analysis Method and Device

【技术实现步骤摘要】
文本分析方法及装置
本专利技术涉及互联网
,尤其涉及一种文本分析方法及装置。
技术介绍
现阶段,随着网络的发展,网络文章也越来越多。每个文章都有一定的关注点,并在文章中表达对该关注点的情感倾向。文本情感倾向,表示一段文本的情感倾向和感情色彩。情感倾向可以是积极的、消极的、中性的,也可以是具体的情感,例如喜悦、愤怒、痛苦等。文本情感倾向分析是情感分析研究的重要组成部分,其在话题监控、产品口碑分析、舆情分析等领域具有十分重要的研究和应用价值。新闻文本是当前网络上最为常见的一种特殊的文本形式,其情感分析也具备很多特殊性。新闻文本通常由多个新闻关注点以及对该关注点的描述构成。不同的新闻作者对于关注点的情感倾向也存在差异。
技术实现思路
本专利技术实施例提供一种文本分析方法及装置,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种文本分析方法,包括:获取文本的关注点;根据所述关注点,获取所述文本中关于所述关注点的子句集合;根据所述子句集合,获得关于所述关注点的子句情感倾向分类;根据所述情感倾向分类,获得关于所述关注点的情感倾向。在一种实施方式中,根据所述关注点,获取文本中关于所述关注点的子句集合,包括:提取文本中关于所述关注点的候选子句;若所述候选子句包含所述关注点,则将所述候选子句加入所述关注点的子句集合;若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句;若所述修正后的候选子句包含所述关注点,则将所述修正后的候选子句加入所述关注点的子句集合。在一种实施方式中,对所述候选子句进行指代消解包括:采用监督分类模型或者依据预设规则,对所述候选子句进行指代消解。在一种实施方式中,获取文本的关注点,包括:获取所述文本的关注点集合;对所述关注点集合中的元素进行归一化,获得所述文本的关注点。在一种实施方式中,获取所述文本的关注点集合,包括:对所述文本进行搜索查询,获得关注点集合的元素;或,抽取所述文本子句中的实体,得到候选项,对所述候选项进行计算,获得关注点集合包括的各元素。在一种实施方式中,根据所述子句集合,获得关于所述关注点的子句情感倾向分类,包括:利用情感倾向分析模型,学习所述子句的分词嵌入到向量空间中的向量表示;将所述子句的所有分词的向量表示拼接,获得所述子句的拼接向量表示;根据所述拼接向量表示,获得所述子句的情感倾向分类。在一种实施方式中,所述情感倾向分析模型基于长短期记忆LSTM(LongShort-TermMemory)模型或者卷积神经网络CNN(ConvolutionalNeuralNetworks)构建。第二方面,本专利技术实施例提供了一种文本分析装置,包括:关注点获取模块:用于获取文本的关注点;子句集合获取模块:用于根据所述关注点,获取所述文本中关于所述关注点的子句集合;情感倾向分类获取模块:用于根据所述子句集合,获得关于所述关注点的子句情感倾向分类;情感倾向获取模块:用于根据所述情感倾向分类,获得关于所述关注点的情感倾向。在一种实施方式中,所述子句集合获取模块包括:候选子句提取单元:用于提取文本中关于所述关注点的候选子句;第一判定单元:用于若所述候选子句包含所述关注点,则将所述候选子句加入所述关注点的子句集合;第二判定单元:用于若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句;第三判定单元:用于若所述修正后的候选子句包含所述关注点,则将所述修正后的候选子句加入所述关注点的子句集合。在一种实施方式中,所述第二判定单元还用于:采用监督分类模型或者依据预设规则,对所述候选子句进行指代消解。在一种实施方式中,所述关注点获取模块包括:关注点集合获取单元:用于获取所述文本的关注点集合;关注点集合归一化单元:用于对所述关注点集合中的元素进行归一化,获得所述文本的关注点。在一种实施方式中,所述关注点集合获取单元包括:搜索查询子单元:用于对所述文本进行搜索查询,获得关注点集合的元素;和/或,抽实体子单元:用于抽取所述文本子句中的实体,得到候选项,对所述候选项进行计算,获得关注点集合包括的各元素。在一种实施方式中,所述情感倾向分类获取模块包括:子句学习单元:用于利用情感倾向分析模型,学习所述子句的分词嵌入到向量空间中的向量表示;拼接单元:用于将所述子句的所有分词的向量表示拼接,获得所述子句的拼接向量表示;拼接向量分析单元:用于根据所述拼接向量表示,获得所述子句的情感倾向分类。在一种实施方式中,所述情感倾向分析模型基于长短期记忆LSTM模型或者卷积神经网络CNN构建。第三方面,本专利技术实施例提供了一种文本分析设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述文本分析方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储文本分析装置所用的计算机软件指令,其包括用于执行上述文本分析方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:本专利技术实施例提供的文本分析方法,能够基于关注点获得文本中的情感倾向,方便读者对文本产生更加全面深刻的认识和了解。同时,本专利技术实施例的情感倾向分析模型可基于LSTM或者CNN构建,从而能够通过深度学习的方式进行优化,有效融合关注点和文本描述的语义关系、关注点和篇章的关系,从而在情感倾向分析时具有更好的性能。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1示出根据本专利技术实施例的文本分析方法的流程图。图2示出根据本专利技术实施例的文本分析方法的流程图。图3示出根据本专利技术实施例的文本分析方法的步骤细节流程图。图4示出根据本专利技术实施例的文本模型数据分析示意图。图5示出根据本专利技术实施例的文本分析装置的结构框图。图6示出根据本专利技术实施例的文本分析装置的结构框图。图7示出根据本专利技术实施例的文本分析设备的结构框图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。图1示出根据本专利技术实施例的文本分析方法的流程图。如图1所示,该文本分析方法包括:步骤S11:获取文本的关注点。步骤S12:根据所述关注点,获取所述文本中关于所述关注点的子句集合。步骤S13:根据所述子句集合,获得关于所述关注点的子句情感倾向分类。步骤S14:根据所述情感倾向分类,获得关于所述关注点的情感倾向。在本专利技术实施例中,文本可以包括新闻文本、小说文本、广告文本本文档来自技高网...

【技术保护点】
1.一种文本分析方法,其特征在于,包括:获取文本的关注点;根据所述关注点,获取所述文本中关于所述关注点的子句集合;根据所述子句集合,获得关于所述关注点的子句情感倾向分类;根据所述情感倾向分类,获得关于所述关注点的情感倾向。

【技术特征摘要】
1.一种文本分析方法,其特征在于,包括:获取文本的关注点;根据所述关注点,获取所述文本中关于所述关注点的子句集合;根据所述子句集合,获得关于所述关注点的子句情感倾向分类;根据所述情感倾向分类,获得关于所述关注点的情感倾向。2.根据权利要求1所述的方法,其特征在于,根据所述关注点,获取文本中关于所述关注点的子句集合,包括:提取文本中关于所述关注点的候选子句;若所述候选子句包含所述关注点,则将所述候选子句加入所述关注点的子句集合;若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句;若所述修正后的候选子句包含所述关注点,则将所述修正后的候选子句加入所述关注点的子句集合。3.根据权利要求2所述的方法,其特征在于,对所述候选子句进行指代消解包括:采用监督分类模型或者依据预设规则,对所述候选子句进行指代消解。4.根据权利要求1所述的方法,其特征在于,获取文本的关注点,包括:获取所述文本的关注点集合;对所述关注点集合中的元素进行归一化,获得所述文本的关注点。5.根据权利要求4所述的方法,其特征在于,获取所述文本的关注点集合,包括:对所述文本进行搜索查询,获得关注点集合的元素;或,抽取所述文本子句中的实体,得到候选项,对所述候选项进行计算,获得关注点集合包括的各元素。6.根据权利要求1所述的方法,其特征在于,根据所述子句集合,获得关于所述关注点的子句情感倾向分类,包括:利用情感倾向分析模型,学习所述子句的分词嵌入到向量空间中的向量表示;将所述子句的所有分词的向量表示拼接,获得所述子句的拼接向量表示;根据所述拼接向量表示,获得所述子句的情感倾向分类。7.根据权利要求6所述的方法,其特征在于,所述情感倾向分析模型基于长短期记忆LSTM模型或者卷积神经网络CNN构建。8.一种文本分析装置,其特征在于,包括:关注点获取模块:用于获取文本的关注点;子句集合获取模块:用于根据所述关注点,获取所述文本中关于所述关注点的子句集合;情感倾向分类获取模块:用于根据所述子句集合,获得关于所述关注点的子句情感倾向分类;情感倾向获取模块:用于根据所述情感倾向分类,获得关于...

【专利技术属性】
技术研发人员:刘昊何伯磊肖欣延
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1