一种基于文本结构的文本分析方法、系统、设备和介质技术方案

技术编号：33771350 阅读：22 留言：0更新日期：2022-06-12 14:23

‑

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本结构的文本分析方法、系统、设备和介质

[0001]本专利技术涉及数据挖掘领域，具体涉及文本分析领域，特别是涉及一种基于文本结构的文本分析方法、系统、设备和介质。

技术介绍

[0002]利用各类公开信息进行数据挖掘一直以来都是自然语言处理领域研究发展的重要方向。但是从作者撰写的公开文本到最终的预测结果，其中长篇幅文章的处理复杂性、作者撰写时的主观随意性都给预测的准确性带来了巨大挑战。项目前期的考察表明，不考虑长篇幅文章的组织结构，直接对长文本内容建模，得到的预测结果并非理想的解决方法。这类思路的有些方法尽管取得了一些看似比较理想的预测准确性，但其算法忽略了长文本的组织结构，只考虑文本内容，在结果的可解释性上难以服众。
[0003]相较于用户评论等短文本数据，长文本的篇幅大大增加，处理的复杂度、困难度也随之增加。在短文本建模处理中表现优秀的模型，在长文本处理中往往表现平平，有的“抓不住要点”，有的算法复杂度太高、耗时耗力。
[0004]目前有许多工作研究如何设计更好的模型以高效、恰当地处理长文本数据，下面分别介绍：
[0005]基于长短期记忆算法(Long Short
‑
Term Memory)的改造模型在机器阅读领域取得了不错成绩，如长短期记忆神经网络(Cheng等，2016)。多时间尺度长短时记忆神经网络(Multi
‑
Timescale Long Short
‑
Term Memory Neural Network,Liu等，2...

【技术保护点】

【技术特征摘要】
1.一种基于文本结构的文本分析方法，其特征在于包括以下步骤：对获取的待分析文本进行解析，得到其文本结构；分别对待分析文本的各文本结构进行机器阅读，得到各文本结构所对应的嵌入向量；将得到的各嵌入向量进行融合，得到融合的文章嵌入向量；基于融合得到的文章嵌入向量以及预先构件的预测网络模型，得到文本分析结果。2.如权利要求1所述的一种基于文本结构的文本分析方法，其特征在于，所述对待分析文本进行解析，得到其文本结构的方法，包括：从网站上爬取待分析文本的原始html文件；遍历原始html文件的每个节点；判断原始html文件中是否有<a
‑
sum>标签，如果有则将<a
‑
sum>标签下面的内容作为文章的摘要；再判断原始html文件是否具有<header>标签，如果有则将<header>标签下面的内容作为段落标题，否则将单独成一行的加粗内容作为段落标题；提取段落标题下的文本内容作为段落内容；将段落标题和段落内容按顺序编号，得到段落标题及与其匹配的段落内容。3.如权利要求1所述的一种基于文本结构的文本分析方法，其特征在于，所述对待分析文本的各文本结构进行机器阅读的方法，包括：将得到的摘要部分输入预先构建的第一Transformer网络，得到摘要的嵌入向量；将各段落标题分别输入预先构建的第二Transformer网络，得到各段落标题的嵌入向量；将各段落标题对应的段落内容分别输入到预先构建的Longformer网络，得到段落内容对应的嵌入向量。4.如权利要求3所述的一种基于文本结构的文本分析方法，其特征在于，所述将得到的各嵌入向量进行融合，得到融合的文章嵌入向量的方法，包括：将段落标题与对应的段落内容的嵌入向量进行...

【专利技术属性】
技术研发人员：许伟，杜玮，王明明，徐顿，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人