基于自然语言处理的文档分析方法及系统技术方案

技术编号:43333869 阅读:36 留言:0更新日期:2024-11-15 20:30
本发明专利技术涉及文档处理技术领域,是基于自然语言处理的文档分析方法及系统,具体方法包括:通过训练完成的AI大语言模型将待分析文档按段落切分为一组独立的文本片段;识别待分析文档中的实体信息,并提取各类实体信息的卷积特征,完成待分析文档的实体信息抽取处理;建立二维平面坐标系,评估每个实体与实体信息中心的初始关系强度值,将各个实体信息标注至平面坐标系中;识别待分析文档中的连接词汇,根据所述连接特征数据反馈确认每个实体信息之间的关系优化系数;将实体信息有序排列,并输出待分析文档的二维框架概况图。本发明专利技术解决了现有技术中,文档中知识点之间的关联关系复杂导致文档的阅读者阅读文档时产生理解误差的问题。

【技术实现步骤摘要】

本专利技术涉及文档处理,是基于自然语言处理的文档分析方法及系统


技术介绍

1、目前word或pdf文档,内容的结构主要靠章节标题的级别来区分,或由文档阅读者通篇阅览后进行总结归纳,如果文档篇幅很大,或者文档中知识点之间的关联关系非常复杂,或者文档内容的编写者没有严格按照一定的逻辑编排方式来编写文档,文档的阅读者就不易理解文档中的内容,甚至产生理解误差。

2、在现有已公开的专利技术技术中,如申请公开号为cn117708315a的专利公开了一种基于层级化生成的长文档简化处理方法及系统,包括将获取的文档进行筛选处理,利用大语言模型提供接口构建长文档简化提示框架;对输入文档进行句法分析,将文档划分为多个段落,存储在列表中,进行初次段落级别简化,对进行初次段落级别简化后得到的文档,进行二次词法级别简化;通过构建的提示框架对句子中的表达进行最终简化,得到长文档简化处理结果,验证简化处理效果。

3、上述专利缺少对实体信息之间连接词的提取,尽管利用大语言模型提供接口构建长文档简化提示框架,但对于文本的语义理解仍存在一定限制,简化过程可能无法充分考本文档来自技高网...

【技术保护点】

1.基于自然语言处理的文档分析方法,其特征在于:所述方法包括如下具体步骤:

2.根据权利要求1所述的基于自然语言处理的文档分析方法,其特征在于,S1包括如下具体步骤:

3.根据权利要求2所述的基于自然语言处理的文档分析方法,其特征在于,S2中,所述实体信息提示词包括:人名、地名、组织机构名称、时间、数量、专有技术名词、事件活动名称及其他类别名词,共有R类实体信息;

4.根据权利要求3所述的基于自然语言处理的文档分析方法,其特征在于,S3包括如下具体步骤:

5.根据权利要求4所述的基于自然语言处理的文档分析方法,其特征在于,S4包括如下具体步...

【技术特征摘要】

1.基于自然语言处理的文档分析方法,其特征在于:所述方法包括如下具体步骤:

2.根据权利要求1所述的基于自然语言处理的文档分析方法,其特征在于,s1包括如下具体步骤:

3.根据权利要求2所述的基于自然语言处理的文档分析方法,其特征在于,s2中,所述实体信息提示词包括:人名、地名、组织机构名称、时间、数量、专有技术名词、事件活动名称及其他类别名词,共有r类实体信息;

4.根据权利要求3所述的基于自然语言处理的文档分析方法,其特征在于,s3包括如下具体步骤:

5.根据权利要求4所述的基于自然语言处理的文档分析方法,其特征在于,s4包括如下具体步骤:

6.根据权利要求5所...

【专利技术属性】
技术研发人员:杨偲栋罗宇阳姜海波张德生李伟张渊
申请(专利权)人:上海烜翊科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1