一种基于词向量句子链的文章论点论据自动检测划分方法技术

技术编号:26259799 阅读:17 留言:0更新日期:2020-11-06 17:54
本发明专利技术提出了一种基于词向量句子链的文章论点论据自动检测划分方法,涉及自然语言处理领域。一种基于词向量句子链的文章论点论据自动检测划分方法,包含:基于大量语料进行预训练,得到词向量模型,词向量模型为使用多组数据通过机器学习训练得到,其中,多组数据的每组均包含词语及标记词语的语义的词向量;获取文章,并将文章进行分词以分别提取每句的若干个词语,将若干个词语分别输入词向量模型以根据各词语确认词向量;获取问题,并根据问题提取若干个关键词,将若干个上述关键词分别输入词向量模型以根据各上述关键词确认词向向。本发明专利技术能够基于文章的问题查找文章中的论点和论据,并且解决人工去标注大量样本造成耗力的问题。

【技术实现步骤摘要】
一种基于词向量句子链的文章论点论据自动检测划分方法
本专利技术涉及自然语言处理领域,具体而言,涉及一种基于词向量句子链的文章论点论据自动检测划分方法。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能的一个重要研究领域,其基本目标技术为使计算机具备听、说、读、写等人类的语言功能,而词语语义相似度计算技术又是自然语言处理领域的关键技术。目前,词语语义相似度计算技术主要包括基于语料库统计的方法、基于词典的相似度计算方法和基于词向量的相似度计算方法。其中,采用机器学习可以自动识别文章的论点论据,目前主流使用监督学习的分类方法。该方法的大致做法如下:1)标注大量文章的论点、论据样本;2)从论点论据样本中提取特征,如文章结构特征(如段首,短尾等),词汇特征,句法特征,指示词特征等;3)基于以上特征和论点论据标签,训练一个监督式的二分类模型;4)根据训练好的模型,对新的文章语句进行分类预测并给出分类结果。以上方法存在的主要问题是:1)大多数样本的标注耗时耗力,且不同行业的标注样本复用、迁移效果不佳;2)更多的是从句法、词法的角度出发,而没有考虑句子语义本身的关联性,从而分类结果信息损失较大。
技术实现思路
本专利技术的目的在于提供一种基于词向量句子链的文章论点论据自动检测划分方法,其能够基于文章的问题查找文章中的论点和论据,并且解决人工去标注大量样本造成耗力的问题。本专利技术的实施例是这样实现的:本申请实施例提供一种基于词向量句子链的文章论点论据自动检测划分方法,包含:S1:基于大量语料进行预训练,得到词向量模型,词向量模型为使用多组数据通过机器学习训练得到,其中,多组数据的每组均包含词语及标记词语的语义的词向量;S2:获取文章,并将文章进行分词以分别提取每句的若干个词语,将若干个词语分别输入词向量模型以根据各词语确认词向量;S3:获取问题,并根据问题提取若干个关键词,将若干个上述关键词分别输入词向量模型以根据各上述关键词确认词向量;S4:根据词向量计算文章中每句的若干个词语的词向量与若干个上述关键词的词向量计算平均相似度,根据平均相似度确认文章中的句子为论点;S5:根据论点前后提取一定范围的若干个句子,根据论点前后的各个句子中的若干个词语的词向量与若干个上述关键词的词向量计算平均相似度,并根据平均相似度的变化绘制若干个句子的趋势图;S6:根据趋势图将平均相似度超出预设阈值的论点前后的两个点作为两个断点,从而将两个断点之间的内容作为论据。相对于现有技术,本专利技术的实施例至少具有如下优点或有益效果:一种基于词向量句子链的文章论点论据自动检测划分方法,包含:S1:基于大量语料进行预训练,得到词向量模型,词向量模型为使用多组数据通过机器学习训练得到,其中,多组数据的每组均包含词语及标记词语的语义的词向量;S2:获取文章,并将文章进行分词以分别提取每句的若干个词语,将若干个词语分别输入词向量模型以根据各词语确认词向量;S3:获取问题,并根据问题提取若干个关键词,将若干个上述关键词分别输入词向量模型以根据各上述关键词确认词向量;S4:根据词向量计算文章中每句的若干个词语的词向量与若干个上述关键词的词向量计算平均相似度,根据平均相似度确认文章中的句子为论点;S5:根据论点前后提取一定范围的若干个句子,根据论点前后的各个句子中的若干个词语的词向量与若干个上述关键词的词向量计算平均相似度,并根据平均相似度的变化绘制若干个句子的趋势图;S6:根据趋势图将平均相似度超出预设阈值的论点前后的两个点作为两个断点,从而将两个断点之间的内容作为论据。本专利技术通过对语料进行训练得到词向量模型,从而使用无监督的学习方法替代了人工标注大量样本的方式,并且通过大量语料训练,能够提高词向量模型的复用性和可迁移性;词向量模型中包含词语及标记词语的语义的词向量,从而计算出不同词语之间的语义相似程度;通过获取文章,并对文章进行分词以分别提取文章中每个句子的若干个词语,并且将词语分别输入词向量模型以确认词向量,从而能够根据词向量得到词语的语义信息;通过获取问题,并根据问题提取若干个关键词,并且将关键词输入词向量模块以确认词向量,从而能够根据词向量得到关键词的语义信息,通过问题中各个关键词的词向量与文章中每个句子的各个词语的词向量可以计算出相似度,从而得到文章中每句的各个词语分别与问题中若干个关键词的平均相似度,进而利用平均相似度获取文章中与问题关联性最大的句子即查找到文章中提出的关于问题的论点;通过论点提取一定范围内的若干个句子,从而通过论点查找论据,通过各个句子的若干个词语的词向量与问题中各个关键词的词向量计算相似度,并根据相似度得到各个句子与问题的平均相似度,进而根据平均相似度绘制趋势图,由于论点前后的句子均比论点所在句子的平均相似度低,因此可以依据预设阈值判断出当平均相似度在一定阈值范围内时句子为论据,将趋势图中超出预设阈值的论点前后的两个点作为两个断点而划分论据的范围,从而根据两个断点之间的内容查找到论据,使得查找论点和论据的结果准确性高。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例基于词向量句子链的文章论点论据自动检测划分方法的流程示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。需要说明的是,在本文中,诸如S1和S2等之类的步骤标注仅仅用来将一个操作与另一个操作区分开来,而不一定要求或者暗示这些操作之间存在任何这种实际的关系或者顺序。而且,术语“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。实施例请参阅图1,图1所示为本申请实施例提供本文档来自技高网...

【技术保护点】
1.一种基于词向量句子链的文章论点论据自动检测划分方法,其特征在于,包含:/nS1:基于大量语料进行预训练,得到词向量模型,词向量模型为使用多组词向量数据通过机器学习训练得到,其中,多组词向量数据的每组均包含词语及标记词语的语义的词向量;/nS2:获取文章,并将文章进行分词以分别提取每句的若干个词语,将若干个词语分别输入词向量模型以根据各词语确认词向量;/nS3:获取问题,并根据问题提取若干个关键词,将若干个所述关键词分别输入词向量模型以根据各所述关键词确认词向量;/nS4:根据词向量计算文章中每句的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度,根据平均相似度确认文章中的句子为论点;/nS5:根据论点前后提取一定范围的若干个句子,根据论点前后的各个句子中的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度,并根据平均相似度的变化绘制若干个句子的趋势图;/nS6:根据趋势图将平均相似度超出预设阈值的论点前后的两个点作为两个断点,从而将两个断点之间的内容作为论据。/n

【技术特征摘要】
1.一种基于词向量句子链的文章论点论据自动检测划分方法,其特征在于,包含:
S1:基于大量语料进行预训练,得到词向量模型,词向量模型为使用多组词向量数据通过机器学习训练得到,其中,多组词向量数据的每组均包含词语及标记词语的语义的词向量;
S2:获取文章,并将文章进行分词以分别提取每句的若干个词语,将若干个词语分别输入词向量模型以根据各词语确认词向量;
S3:获取问题,并根据问题提取若干个关键词,将若干个所述关键词分别输入词向量模型以根据各所述关键词确认词向量;
S4:根据词向量计算文章中每句的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度,根据平均相似度确认文章中的句子为论点;
S5:根据论点前后提取一定范围的若干个句子,根据论点前后的各个句子中的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度,并根据平均相似度的变化绘制若干个句子的趋势图;
S6:根据趋势图将平均相似度超出预设阈值的论点前后的两个点作为两个断点,从而将两个断点之间的内容作为论据。


2.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法,其特征在于,所述S1中,将大量语料通过预处理后得到词语并进行预训练,所述预处理包含过滤垃圾数据、文本分词、停用词、低频词和词根归一化中的任意一种或多种。


3.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法,其特征在于,所述S2中,先将所述文章拆分成多个句子,并通过中文分词将各句子拆分成若干个词语。


4.如权利要求3所述的基于词向量句子链的文章论点论据自动检测划分方法,其特征在于...

【专利技术属性】
技术研发人员:张云蔡博克张京鹏贲忠奇冷若冰阚野
申请(专利权)人:混沌时代北京教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1