一种基于词向量句子链的文章论点论据自动检测划分方法技术

技术编号：26259799 阅读：17 留言：0更新日期：2020-11-06 17:54

本发明专利技术提出了一种基于词向量句子链的文章论点论据自动检测划分方法，涉及自然语言处理领域。一种基于词向量句子链的文章论点论据自动检测划分方法，包含：基于大量语料进行预训练，得到词向量模型，词向量模型为使用多组数据通过机器学习训练得到，其中，多组数据的每组均包含词语及标记词语的语义的词向量；获取文章，并将文章进行分词以分别提取每句的若干个词语，将若干个词语分别输入词向量模型以根据各词语确认词向量；获取问题，并根据问题提取若干个关键词，将若干个上述关键词分别输入词向量模型以根据各上述关键词确认词向向。本发明专利技术能够基于文章的问题查找文章中的论点和论据，并且解决人工去标注大量样本造成耗力的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词向量句子链的文章论点论据自动检测划分方法
本专利技术涉及自然语言处理领域，具体而言，涉及一种基于词向量句子链的文章论点论据自动检测划分方法。
技术介绍
自然语言处理(NaturalLanguageProcessing，NLP)是人工智能的一个重要研究领域，其基本目标技术为使计算机具备听、说、读、写等人类的语言功能，而词语语义相似度计算技术又是自然语言处理领域的关键技术。目前，词语语义相似度计算技术主要包括基于语料库统计的方法、基于词典的相似度计算方法和基于词向量的相似度计算方法。其中，采用机器学习可以自动识别文章的论点论据，目前主流使用监督学习的分类方法。该方法的大致做法如下：1)标注大量文章的论点、论据样本；2)从论点论据样本中提取特征，如文章结构特征(如段首，短尾等)，词汇特征，句法特征，指示词特征等；3)基于以上特征和论点论据标签，训练一个监督式的二分类模型；4)根据训练好的模型，对新的文章语句进行分类预测并给出分类结果。以上方法存在的主要问题是：1)大多数样本的标注耗时耗力，且不同行业的标注样本复用、迁移效果不佳；2)更多的是从句法、词法的角度出发，而没有考虑句子语义本身的关联性，从而分类结果信息损失较大。
技术实现思路
本专利技术的目的在于提供一种基于词向量句子链的文章论点论据自动检测划分方法，其能够基于文章的问题查找文章中的论点和论据，并且解决人工去标注大量样本造成耗力的问题。本专利技术的实施例是这样实现的：本申请实施例提供一种基于词向量句子链...

【技术保护点】
1.一种基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，包含：/nS1:基于大量语料进行预训练，得到词向量模型，词向量模型为使用多组词向量数据通过机器学习训练得到，其中，多组词向量数据的每组均包含词语及标记词语的语义的词向量；/nS2：获取文章，并将文章进行分词以分别提取每句的若干个词语，将若干个词语分别输入词向量模型以根据各词语确认词向量；/nS3：获取问题，并根据问题提取若干个关键词，将若干个所述关键词分别输入词向量模型以根据各所述关键词确认词向量；/nS4：根据词向量计算文章中每句的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度，根据平均相似度确认文章中的句子为论点；/nS5：根据论点前后提取一定范围的若干个句子，根据论点前后的各个句子中的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度，并根据平均相似度的变化绘制若干个句子的趋势图；/nS6：根据趋势图将平均相似度超出预设阈值的论点前后的两个点作为两个断点，从而将两个断点之间的内容作为论据。/n

【技术特征摘要】
1.一种基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，包含：
S1:基于大量语料进行预训练，得到词向量模型，词向量模型为使用多组词向量数据通过机器学习训练得到，其中，多组词向量数据的每组均包含词语及标记词语的语义的词向量；
S2：获取文章，并将文章进行分词以分别提取每句的若干个词语，将若干个词语分别输入词向量模型以根据各词语确认词向量；
S3：获取问题，并根据问题提取若干个关键词，将若干个所述关键词分别输入词向量模型以根据各所述关键词确认词向量；
S4：根据词向量计算文章中每句的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度，根据平均相似度确认文章中的句子为论点；
S5：根据论点前后提取一定范围的若干个句子，根据论点前后的各个句子中的若干个词语的词向量与若干个所述关键词的词向量计算平均相似度，并根据平均相似度的变化绘制若干个句子的趋势图；
S6：根据趋势图将平均相似度超出预设阈值的论点前后的两个点作为两个断点，从而将两个断点之间的内容作为论据。

2.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S1中，将大量语料通过预处理后得到词语并进行预训练，所述预处理包含过滤垃圾数据、文本分词、停用词、低频词和词根归一化中的任意一种或多种。

3.如权利要求1所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于，所述S2中，先将所述文章拆分成多个句子，并通过中文分词将各句子拆分成若干个词语。

4.如权利要求3所述的基于词向量句子链的文章论点论据自动检测划分方法，其特征在于...

【专利技术属性】
技术研发人员：张云，蔡博克，张京鹏，贲忠奇，冷若冰，阚野，
申请(专利权)人：混沌时代北京教育科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人