一种知识驱动的特定话题的立场分析方法技术

技术编号:38010706 阅读:13 留言:0更新日期:2023-06-30 10:31
本发明专利技术提供了一种知识驱动的特定话题的立场分析方法,包括:对待处理的语料进行预处理,待处理的语料包括一个或多个文本;将文本中的指示代词解析为指代的实体;从文本中提取实体,并将实体链接到知识图谱;检查文本中实体之间的组合,判断实体之间的关系;将提取的实体和关系形成知识图谱片段;计算文本中出现的实体表达的情感,并将不同文本中的实体的情感汇总成支持和反对的立场;利用实体之间的关系,将知识图谱中已知实体的观点传播给未知实体,知识图谱中已存储的实体为已知实体,未存储的实体为未知实体;根据文本中每个实体的立场,计算每个文本的整体立场。计算每个文本的整体立场。计算每个文本的整体立场。

【技术实现步骤摘要】
一种知识驱动的特定话题的立场分析方法


[0001]本专利技术涉及知识图谱和自然语言处理领域,尤其涉及一种知识驱动的特定话题的立场分析方法。

技术介绍

[0002]立场检测是自然语言处理的一个分支,其目的是将评论或者作者针对某一话题的言论中的观点自动分类为支持、反对或中立。立场检测在民意调查、市场趋势分析和谣言检测等方面有着广泛的应用。
[0003]传统的立场检测主要基于机器学习的方法和基于深度学习的方法,其中基于机器学习的方法受限于人工抽取特征的价值,而基于深度学习的方法受限于数据集的质量和计算量。
[0004]现有的方法主要采用浅层的语义知识或者可解释性差的预训练模型,立场分析需要有可解释的证据支撑,因此,随着近年来知识图谱技术在自然语言处理领域取得了巨大进展,使用知识图谱技术处理立场检测十分有必要。

技术实现思路

[0005]本专利技术为克服上述现有技术所述的至少一种缺陷,提供一种知识驱动的特定话题的立场分析方法。
[0006]为了达到上述技术效果,本专利技术的技术方案如下:一种知识驱动的特定话题的立场分析方法,包括:S10,对待处理的语料进行预处理,待处理的语料包括一个或多个文本;将文本中的指示代词解析为指代的实体;S20,从文本中提取实体,并将实体链接到知识图谱;S30,检查文本中实体之间的组合,判断实体之间的关系;S40,将提取的实体和关系形成知识图谱片段;S50,计算文本中出现的实体表达的情感,并将不同文本中的实体的情感汇总成支持和反对的立场;S60,利用实体之间的关系,将知识图谱中已知实体的观点传播给未知实体,知识图谱中已存储的实体为已知实体,未存储的实体为未知实体;S70,根据文本中每个实体的立场,计算每个文本的整体立场。
[0007]进一步的,S10具体包括:S101,通过Harvesttext对文本进行清洗,去除特殊字符,停用词等;S102,Huggingface中的neuralcoref包将文本中的指示代词依次解析为其所指代的对象,即实体。
[0008]进一步的,S20具体包括:S201,通过StanfordNLP工具对文本中提到的实体、观点词等进行提取;知识图谱
为DBPedia3;S202,使用DBPedia Spotlight工具将抽取出的实体链接到知识图谱中。
[0009]进一步的,S30具体包括:将任意两个实体的每个排列作为CNN卷积神经网络和BERT预训练语言模型混合模型的输入;使用CNN和BERT的编码器提取实体间的关系。
[0010]进一步的,S40具体包括:使用RDF描述框架将知识图谱描述为包括主语、谓语、宾语的三元组,主语、宾语为实体,谓语为关系;主语和宾语都包括对特定实体的支持或反对的立场。
[0011]进一步的,S50具体包括:S501,使用预训练模型TextBlob分析计算每个实体的情感;S502,将每个实体的情感标准化到[

1,1]区间,

1表示绝对反对,1表示绝对支持;S503,根据观点词和实体间的距离,将实体的情感聚合为实体的立场,实体的立场为实体在支持立场的值、反对立场的值的向量。距离即观点词和实体之间间隔的字符数;所述S60具体包括:首先计算实体之间OKG关系的概率,然后使用实体之间关系的概率将已知实体的观点传播到未知实体;为每个实体存储一个单独的立场。
[0012]进一步的,S70具体包括:S701,计算每个文本中的实体集合;S702,基于实体集合中的实体的立场及实体在当前文本中的词性依赖关系,再次计算每个实体的立场;S703,将S702计算出的实体立场与实体交集中的OKG关系的立场进行综合,计算出每个文本最终的立场,立场包括支持,反对和中立。
[0013]本专利技术具有如下有益效果:本方案结合了深度学习和规则的情感传播方法计算文本中的立场,为立场分析方法提供了直观可解释的过程。本方案可以扩展到医学等需要可解释性强的文本理解任务中,具有很好的实用性。同时,本方案引入的知识图谱可以充分利用句子中未出现的实体和关系信息提升立场分析的性能,该方法同样可以推广相应的文本理解任务。使用知识图谱进行立场分析可以帮助人们更好地理解某一主题或问题的不同立场,从而更好地进行思考、讨论和决策。知识图谱可以使用自然语言处理和机器学习算法来分析和推断不同立场的特点和趋势,帮助用户更好地理解立场的本质和背景。知识图谱可以根据已有的数据和分析结果,预测未来可能出现的立场和趋势,帮助用户更好地做出决策和规划。
附图说明
[0014]图1为本专利技术实施例的知识驱动的特定话题的立场分析方法流程示意图。
[0015]图2为本专利技术实施例的知识驱动的特定话题的立场分析方法的整体框架图。
具体实施方式
[0016]在本专利技术的描述中,需要理解的是,此处所描述的具体实施例仅仅用于解释本发
明,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅展示出与本专利技术相关的部分而非全部结构。
[0017]应当提到的是,一些示例性实施例被描述成为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理,但是其中的许多步骤可以并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排,当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图内的其他步骤。处理可以对应于方法、函数、规程、子规程、子程序等。
[0018]本专利技术实施例的知识驱动的特定话题的立场分析方法,图1为方法流程示意图,图2为方法的整体框架图。本实施例的方法具体包括如下步骤:在步骤S10中,针对输入的特定领域语料中的文本(或称为句子)进行预处理,清洗语料,去除特殊字符和停用词等,并将文本中的指示代词解析为指代的对象。
[0019]S101,通过Harvesttext对文本进行清洗,去除特殊字符,停用词等;S102,用Huggingface中的neuralcoref包将每个句子中的指示代词依次解析为其所指代的对象。
[0020]在步骤S20中,将根据S10中处理好的的所有句子中提取实体、观点词,并将实体链接到现有的知识图谱。本实施例的知识图谱为DBPedia3,观点词是例如“好”、“坏”等词。
[0021]S201,通过自动实体链接工具对文本中提到的实体进行抽取;S202,使用DBPedia Spotlight工具将实体链接到知识库中。
[0022]在步骤S30中,检查每个句子中两个实体的每个排列,预测它们之间是否存在关系以及关系是什么。
[0023]S301,使用CNN和BERT的编码器提取实体间的关系。关系抽取使用OpenNREmake,OpenNREmake是使用CNN和BERT的编码器抽取关系,S302,将两个实体的每个排列作为CNN和BERT混合模型的输入。
[0024]在步骤S40中,将提取的实体和关系形成一个知识图谱片段。
[0025]S401 使用修改版的RDF将知识图谱描述为一组三元组,包括主语、谓语和宾语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识驱动的特定话题的立场分析方法,其特征在于,包括如下步骤:S10,对待处理的语料进行预处理,待处理的语料包括一个或多个文本;将文本中的指示代词解析为指代的实体;S20,从文本中提取实体,并将实体链接到知识图谱;S30,检查文本中实体之间的组合,判断实体之间的关系;S40,将提取的实体和关系形成知识图谱片段;S50,计算文本中出现的实体表达的情感,并将不同文本中的实体的情感汇总成支持和反对的立场;S60,利用实体之间的关系,将知识图谱中已知实体的观点传播给未知实体,知识图谱中已存储的实体为已知实体,未存储的实体为未知实体;S70,根据文本中每个实体的立场,计算每个文本的整体立场。2.如权利要求1所述的知识驱动的特定话题的立场分析方法,其特征在于,所述S10具体包括:S101,通过Harvesttext对文本进行清洗,去除特殊字符,停用词;S102,Huggingface中的neuralcoref包将文本中的指示代词依次解析为其所指代的对象,即实体。3.如权利要求1所述的知识驱动的特定话题的立场分析方法,其特征在于,所述S20具体包括:S201,通过StanfordNLP工具对文本中提到的实体、观点词等进行提取;S202,使用DBPedia Spotlight工具将抽取出的实体链接到知识图谱中;知识图谱为DBPedia3。4.如权利要求1所述的知识驱动的特定话题的立场分析方法,其特征在于,所述S30具体为:将任意两个实体的每个排列作为CNN卷积神经网络和BERT预训练语言模型混合模型的输入;使用CNN和BERT的编码器提取实体间的关系。5.如权利要求1所述的知识驱动的特定话题的立场分析...

【专利技术属性】
技术研发人员:金震宇树华伟
申请(专利权)人:大汉软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1