【技术实现步骤摘要】
本专利技术涉及文档处理,是基于自然语言处理的文档分析方法及系统。
技术介绍
1、目前word或pdf文档,内容的结构主要靠章节标题的级别来区分,或由文档阅读者通篇阅览后进行总结归纳,如果文档篇幅很大,或者文档中知识点之间的关联关系非常复杂,或者文档内容的编写者没有严格按照一定的逻辑编排方式来编写文档,文档的阅读者就不易理解文档中的内容,甚至产生理解误差。
2、在现有已公开的专利技术技术中,如申请公开号为cn117708315a的专利公开了一种基于层级化生成的长文档简化处理方法及系统,包括将获取的文档进行筛选处理,利用大语言模型提供接口构建长文档简化提示框架;对输入文档进行句法分析,将文档划分为多个段落,存储在列表中,进行初次段落级别简化,对进行初次段落级别简化后得到的文档,进行二次词法级别简化;通过构建的提示框架对句子中的表达进行最终简化,得到长文档简化处理结果,验证简化处理效果。
3、上述专利缺少对实体信息之间连接词的提取,尽管利用大语言模型提供接口构建长文档简化提示框架,但对于文本的语义理解仍存在一定限制,简
...【技术保护点】
1.基于自然语言处理的文档分析方法,其特征在于:所述方法包括如下具体步骤:
2.根据权利要求1所述的基于自然语言处理的文档分析方法,其特征在于,S1包括如下具体步骤:
3.根据权利要求2所述的基于自然语言处理的文档分析方法,其特征在于,S2中,所述实体信息提示词包括:人名、地名、组织机构名称、时间、数量、专有技术名词、事件活动名称及其他类别名词,共有R类实体信息;
4.根据权利要求3所述的基于自然语言处理的文档分析方法,其特征在于,S3包括如下具体步骤:
5.根据权利要求4所述的基于自然语言处理的文档分析方法,其特征在于
...【技术特征摘要】
1.基于自然语言处理的文档分析方法,其特征在于:所述方法包括如下具体步骤:
2.根据权利要求1所述的基于自然语言处理的文档分析方法,其特征在于,s1包括如下具体步骤:
3.根据权利要求2所述的基于自然语言处理的文档分析方法,其特征在于,s2中,所述实体信息提示词包括:人名、地名、组织机构名称、时间、数量、专有技术名词、事件活动名称及其他类别名词,共有r类实体信息;
4.根据权利要求3所述的基于自然语言处理的文档分析方法,其特征在于,s3包括如下具体步骤:
5.根据权利要求4所述的基于自然语言处理的文档分析方法,其特征在于,s4包括如下具体步骤:
6.根据权利要求5所...
【专利技术属性】
技术研发人员:杨偲栋,罗宇阳,姜海波,张德生,李伟,张渊,
申请(专利权)人:上海烜翊科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。