基于长文本的信息抽取方法、装置、计算机设备及介质制造方法及图纸

技术编号：34173847 阅读：22 留言：0更新日期：2022-07-17 11:25

本发明专利技术公开了一种基于长文本的信息抽取方法、装置、计算机设备及介质，其中，该基于长文本的信息抽取方法包括：获取长文本段；采用逻辑分割符号分割长文本段生成至少两个短文本；根据每一短文本获取序列片段和片段链接信息；基于序列片段和片段链接信息，生成与长文本对应的逻辑信息；根据长文本段的内容中存在的逻辑信息以及客户端的查询请求，提供与查询请求相关的内容给客户端。该方法能够很好地将满足参加或的复杂的准入条件解析出来并基于这些解析结果，方便地应用于下游任务。方便地应用于下游任务。方便地应用于下游任务。

全部详细技术资料下载

【技术实现步骤摘要】
基于长文本的信息抽取方法、装置、计算机设备及介质

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于长文本的信息抽取方法、装置、计算机设备及介质。

技术介绍

[0002]组织者组织活动、发布项目或者第三方发布的优惠政策等经常需要参与活动的社会组织或者个人需满足一定的准入条件才可加入。这些不同的准入条件或者说准入标准一般都以文字形式公开，用于满足条件的社会组织或者个人基于自身条件进行条件匹配。只有满足准入条件即可申报对应的活动、项目或者第三方发布的优惠政策等。比如，学龄前儿童报名上小学，需要满足学校发布的入学条件，年满7周岁，学龄前注射完所有的学龄前一类疫苗等；企业申报优惠政策，也是需要企业基于自身的企业画像与项目所需的申报条件的内容进行匹配，来判断是否能够入围这些优惠政策。
[0003]各种活动、项目或者第三方发布的优惠政策等的准入条件形成的内容一般存在一些内在逻辑关系，如何快速厘清各种准入条件的内在逻辑关系，便于帮助社会组织还是个人有效判定是否与各种准入条件相匹配成为亟待解决的问题。
专利技术内容
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于长文本的信息抽取方法，其特征在于，包括：获取长文本段；采用逻辑分割符号分割所述长文本段生成至少两个短文本；根据每一所述短文本获取序列片段和片段链接信息；基于所述序列片段和片段链接信息，生成与所述长文本对应的逻辑信息；根据所述长文本段的内容中存在的所述逻辑信息以及客户端的查询请求，提供与所述查询请求相关的内容给所述客户端。2.根据权利要求1所述的基于长文本的信息抽取方法，其特征在于，所述逻辑信息包括至少两个条件单元；所述生成与所述长文本对应的逻辑信息，包括：获取所有所述短文本之间的第一与或关系；基于所述第一与或关系，获取所有所述条件单元之间的第二与或关系。3.根据权利要求2所述的基于长文本的信息抽取方法，其特征在于，所述条件单元包括短文本序号和条件单元序号；所述基于所述第一与或关系，获取所有所述条件单元之间的第二与或关系，包括：通过所述短文本序号对所述第一与或关系进行编码，形成第一编码；基于所述第二与或关系，将所述第一编码中的所有所述短文本序号替换为所述条件单元序号。4.根据权利要求1所述的基于长文本的信息抽取方法，其特征在于，在所述获取长文本段之前，还包括：采用基于自注意力机制的bert
‑
crf模型，获取命名实体识别ner；通过在bert输出层构建逻辑关系矩阵，从而识别每一所述短文本之间的片段链接，并表达逻辑关系；通过所述命名实体识别ner与所述逻辑关系进行相加，获取模型损失函数，并通过梯度下降算法最小化所述模型损失函数，获取最小化损失函数；基于所述最小化损失函数，训练出条件单元抽取模型，所述条件单元抽取模型用于提取所述序列片段对应的逻辑信息。5.根据权利要求1所述的基于长文本的信息抽取方法，其特征在于，在所述获取长文本段之前，还包括：获取所述长文本段的一般分割符号和逻辑...

【专利技术属性】
技术研发人员：邹伟东，黄威威，蔡子哲，
申请(专利权)人：企知道网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人