一种基于文本结构的文本分析方法、系统、设备和介质技术方案

技术编号:33771350 阅读:22 留言:0更新日期:2022-06-12 14:23


【技术实现步骤摘要】
一种基于文本结构的文本分析方法、系统、设备和介质


[0001]本专利技术涉及数据挖掘领域,具体涉及文本分析领域,特别是涉及一种基于文本结构的文本分析方法、系统、设备和介质。

技术介绍

[0002]利用各类公开信息进行数据挖掘一直以来都是自然语言处理领域研究发展的重要方向。但是从作者撰写的公开文本到最终的预测结果,其中长篇幅文章的处理复杂性、作者撰写时的主观随意性都给预测的准确性带来了巨大挑战。项目前期的考察表明,不考虑长篇幅文章的组织结构,直接对长文本内容建模,得到的预测结果并非理想的解决方法。这类思路的有些方法尽管取得了一些看似比较理想的预测准确性,但其算法忽略了长文本的组织结构,只考虑文本内容,在结果的可解释性上难以服众。
[0003]相较于用户评论等短文本数据,长文本的篇幅大大增加,处理的复杂度、困难度也随之增加。在短文本建模处理中表现优秀的模型,在长文本处理中往往表现平平,有的“抓不住要点”,有的算法复杂度太高、耗时耗力。
[0004]目前有许多工作研究如何设计更好的模型以高效、恰当地处理长文本数据,下面分别介绍:
[0005]基于长短期记忆算法(Long Short

Term Memory)的改造模型在机器阅读领域取得了不错成绩,如长短期记忆神经网络(Cheng等,2016)。多时间尺度长短时记忆神经网络(Multi

Timescale Long Short

Term Memory Neural Network,Liu等,2015)是长文本建模领域的先驱,该模型不仅解决了LSTM模型处理长文本效率很低的缺陷,而且还能捕捉到文本中相隔较远的词语间的联系,是对LSTM在长文本机器阅读领域的优秀改造。但是该模型结构简单,只能依照文本词汇的前后顺序学习,缺乏对文本结构化理解的能力。
[0006]文本卷积神经网络(Text Convolutional Neural Networks,Kim,2014)是对CNN在文本领域的改造,使之能够处理不定长的文本数据,在数据集上取得了很好的效果,从结构上也可以看作动态卷积神经网络(Dynamic Convolutional Neural Networks,Kalchbrenner等,2014)的简化版本。但是这样的模型结构依然忽视了文章作者写作时划分的段落层次,不能很好地理解文本。
[0007]注意力机制在长文本机器阅读领域也有着巨大的贡献。分级注意网络(Hierarchical attention networks,Yang等,2016)关注长文本的结构属性,将文章分为:文章、句、词三个等级,在每一句中着重关注权重最高的词,再在文章层面着重关注权重高的句子,从而完成机器对文章的理解。这种方法从思路上非常接近人类阅读的习惯,具有极强的可解释性。这种模型结构的缺点是:没有在应用场景下展示出其优越性,也就是说,尽管它做到了基于文本结构的理解,但是并没有找到很好的应用场景来表现这种基于文本结构理解的优势。
[0008]自Google于2018年提出BERT以来,其在文本处理领域的强悍有目共睹。在长文本机器阅读领域的各式改造版本也应运而生。自适应注意网络(Sukhbaatar等,2019)改造了
BERT模型(Devlin等,2018)计算全局自注意力的缺陷,改为学习一定窗口跨度内的,大大节约了算力。但是,这一模型再度忽视了文本结构,人为指定的窗口跨度依然生硬地切割文本,造成理解的偏差。
[0009]长文本Transformer(Longformer,Beltagy等,2020)继续改造BERT中的注意力机制,先后使用滑窗机制、空洞滑窗机制、融合全局信息的滑窗机制,大幅降低了自注意力机制的计算量和内存消耗,且取得了不错的效果。但是这一模型对文本结构的重视依然不够,对高度结构化的文章,模型的表现依然不尽理想。

技术实现思路

[0010]针对传统长文本机器阅读忽视文本结构的问题,本专利技术的目的是提供一种基于文本结构的文本分析方法、系统、设备和介质,通过挖掘文本结构中蕴含的信息,结合文本内容进行预测,能够有效提高预测精度。
[0011]为实现上述目的,本专利技术采取以下技术方案:
[0012]第一方面,本专利技术提供一种基于文本结构的文本分析方法,其包括以下步骤:
[0013]对获取的待分析文本进行解析,得到其文本结构;
[0014]分别对待分析文本的各文本结构进行机器阅读,得到各文本结构所对应的嵌入向量;
[0015]将得到的各嵌入向量进行融合,得到融合的文章嵌入向量;
[0016]基于融合得到的文章嵌入向量以及预先构件的预测网络模型,得到文本分析结果。
[0017]进一步,所述对待分析文本进行解析,得到其文本结构的方法,包括:
[0018]从网站上爬取待分析文本的原始html文件;
[0019]遍历原始html文件的每个节点;
[0020]判断原始html文件中是否有<a

sum>标签,如果有则将<a

sum>标签下面的内容作为文章的摘要;
[0021]再判断原始html文件是否具有<header>标签,如果有则将<header>标签下面的内容作为段落标题,否则将单独成一行的加粗内容作为段落标题;
[0022]提取段落标题下的文本内容作为段落内容;
[0023]将段落标题和段落内容按顺序编号,得到段落标题及与其匹配的段落内容。
[0024]进一步,所述对待分析文本的各文本结构进行机器阅读的方法,包括:
[0025]将得到的摘要部分输入预先构建的第一Transformer网络,得到摘要的嵌入向量;
[0026]将各段落标题分别输入预先构建的第二Transformer网络,得到各段落标题的嵌入向量;
[0027]将各段落标题对应的段落内容分别输入到预先构建的Longformer网络,得到段落内容对应的嵌入向量。
[0028]进一步,所述将得到的各嵌入向量进行融合,得到融合的文章嵌入向量的方法,包括:
[0029]将段落标题与对应的段落内容的嵌入向量进行融合,得到段落嵌入向量;
[0030]将各段落嵌入向量进行融合,得到文章内容嵌入向量;
[0031]将摘要嵌入向量与文章内容嵌入向量进行融合,得到整个待分析文本的文章向量。
[0032]进一步,所述将段落标题与对应的段落内容的嵌入向量进行融合的方法,包括:
[0033]将段落标题的嵌入向量与段落内容的嵌入向量对位取平均数完成融合,得到段落嵌入向量。
[0034]进一步,所述将各段落嵌入向量进行融合,得到文章内容嵌入向量的方法,包括:
[0035]对各段落嵌入向量进行融合时,将各段落嵌入向量对位取平均值完成融本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本结构的文本分析方法,其特征在于包括以下步骤:对获取的待分析文本进行解析,得到其文本结构;分别对待分析文本的各文本结构进行机器阅读,得到各文本结构所对应的嵌入向量;将得到的各嵌入向量进行融合,得到融合的文章嵌入向量;基于融合得到的文章嵌入向量以及预先构件的预测网络模型,得到文本分析结果。2.如权利要求1所述的一种基于文本结构的文本分析方法,其特征在于,所述对待分析文本进行解析,得到其文本结构的方法,包括:从网站上爬取待分析文本的原始html文件;遍历原始html文件的每个节点;判断原始html文件中是否有<a

sum>标签,如果有则将<a

sum>标签下面的内容作为文章的摘要;再判断原始html文件是否具有<header>标签,如果有则将<header>标签下面的内容作为段落标题,否则将单独成一行的加粗内容作为段落标题;提取段落标题下的文本内容作为段落内容;将段落标题和段落内容按顺序编号,得到段落标题及与其匹配的段落内容。3.如权利要求1所述的一种基于文本结构的文本分析方法,其特征在于,所述对待分析文本的各文本结构进行机器阅读的方法,包括:将得到的摘要部分输入预先构建的第一Transformer网络,得到摘要的嵌入向量;将各段落标题分别输入预先构建的第二Transformer网络,得到各段落标题的嵌入向量;将各段落标题对应的段落内容分别输入到预先构建的Longformer网络,得到段落内容对应的嵌入向量。4.如权利要求3所述的一种基于文本结构的文本分析方法,其特征在于,所述将得到的各嵌入向量进行融合,得到融合的文章嵌入向量的方法,包括:将段落标题与对应的段落内容的嵌入向量进行...

【专利技术属性】
技术研发人员:许伟杜玮王明明徐顿
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1