【技术实现步骤摘要】
基于人工智能的文章主旨提取方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种基于人工智能的文章主旨提取的方法、装置及计算机可读存储介质。
技术介绍
目前多数文章的主旨都依靠专业的行业人士进行分析,如人工阅读研究企业发展报告,然后总结出主旨让高层领导决策,学术报告被相关人士进行总结后简化出主旨供其他人学习等,这种模式特别耗时耗力。另外有基于传统的朴素贝叶斯算法进行的文章主旨摘取,但由于朴素贝叶斯算法计算资源大,且摘取的主旨错误率较高,无法满足实际要求。
技术实现思路
本专利技术提供一种基于人工智能的文章主旨提取方法、装置及计算机可读存储介质,其主要目的是根据用户输入的文章进行智能化的主旨提取。为实现上述目的,本专利技术提供的一种基于人工智能的文章主旨提取方法,包括:接收文本数据集,对所述文本数据集进行包括词语切分及合并操作得到单词文本集;将所述单词文本集进行编码操作后转为单词矩阵集,将所述单词矩阵集输入至词向量转化模型中训练得到单词向量集;将 ...
【技术保护点】
1.一种基于人工智能的文章主旨提取方法,其特征在于,所述方法包括:/n接收文本数据集,对所述文本数据集进行包括词语切分及合并操作得到单词文本集;/n将所述单词文本集进行编码操作后转为单词矩阵集,将所述单词矩阵集输入至词向量转化模型中训练得到单词向量集;/n将所述单词向量集进行降维操作后输入至卷积神经网络模型中训练得到训练值,判断所述训练值与预设阈值的大小,若所述训练值大于所述预设阈值,所述卷积神经网络模型继续训练,若所述训练值小于所述预设阈值,所述卷积神经网络模型完成训练;/n接收用户输入的文本数据,将所述用户输入的文本数据转为单词向量后输入至完成训练的所述卷积神经网络模型 ...
【技术特征摘要】
1.一种基于人工智能的文章主旨提取方法,其特征在于,所述方法包括:
接收文本数据集,对所述文本数据集进行包括词语切分及合并操作得到单词文本集;
将所述单词文本集进行编码操作后转为单词矩阵集,将所述单词矩阵集输入至词向量转化模型中训练得到单词向量集;
将所述单词向量集进行降维操作后输入至卷积神经网络模型中训练得到训练值,判断所述训练值与预设阈值的大小,若所述训练值大于所述预设阈值,所述卷积神经网络模型继续训练,若所述训练值小于所述预设阈值,所述卷积神经网络模型完成训练;
接收用户输入的文本数据,将所述用户输入的文本数据转为单词向量后输入至完成训练的所述卷积神经网络模型中,得到文章主旨并输出。
2.如权利要求1所述的基于人工智能的文章主旨提取方法,其特征在于,所述合并操作包括:
遍历所述文本数据集中的每个文本数据,按照段落划分所述文本数据得到若干个段落;
将所述若干个段落中出现次数大于等于两次的词语预设为假设主语,构建所述若干个段落中每个句子与所述假设主语的条件概率模型;
构建对数似然函数,并基于所述对数似然函数优化所述条件概率模型得到所述每个句子的主语,将主语相同的若干个句子合并为一个句子,完成所述合并操作。
3.如权利要求2所述的基于人工智能的文章主旨提取方法,其特征在于,所述条件概率模型为:
其中,y1,…,yN,yi为所述假设主语,N为所述假设主语的个数,D为所述段落,j为所述段落的编号,s为所述段落内的句子,P(yi|s)为假设主语yi为句子s的主语的概率,s(i,yi)表示所述句子i的假设主语为yi。
4.如权利要求1至3项中任意一项所述的基于人工智能的文章主旨提取方法,其特征在于,所述编码操作包括:
将所述单词文本集内的每个单词进行数字编号并得到最大的数字编号;
创建与所述最大的数字编号维度相同的编码矩阵,依次遍历所述单词文本集内的句子,将所述句子都映射到所述编码矩阵;
依据所述单词文本集内的每个单词的数字编号对所述编码矩阵进行处理得到单词矩阵集。
5.如权利要求4所述的基于人工智能的文章主旨提取方法,其特征在于,所述降维操作包括:
计算所述单词向量集中各单词向量的协方差;
去除协方差中绝对值大于预设协方差阈值的单词向量,得到降维后的单词向量集。
6.一种基于人工智能的文章主旨提取装置,其特征在于,所述装置包括存储器和处理器...
【专利技术属性】
技术研发人员:陈一峰,周骏红,汪伟,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。