基于自然语言识别的文档分析方法及系统技术方案

技术编号：41857566 阅读：28 留言：0更新日期：2024-06-27 18:32

本发明专利技术涉及自然语言处理技术领域，提出了基于自然语言识别的文档分析方法及系统，包括：根据需要进行长命名实体识别的文档获取文档的语句数据序列，建立历史数据库；获取基础词共存剥离权重，获取共现表征强度，进而获取长实体依存系数；获取词语的命名左方向倾斜度和命名右方向倾斜度；根据历史数据库、命名左方向倾斜度和命名右方向倾斜度，建立词语方向分类模型，使用词语方向分类模型获取词语的最优命名方向，建立语句数据序列的无向图，对无向图的节点进行节点选取，划分出语句数据序列的长实体，实现基于自然语言识别的文档分析。本发明专利技术解决实体的边界不易识别导致的长命名实体识别不准确的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，具体涉及基于自然语言识别的文档分析方法及系统。

技术介绍

1、随着现在互联网的迅猛发展，各种智能设备的普及，各行各业的信息广泛传播，越来越多的数据资源不断涌现。对海量的文档文本数据资源进行有效整合，可以实现对不同来源的文档文本数据资源的重点信息提取和分析。因此，从海量数据资源进行关键信息提取变得尤为重要。自动文摘技术能从文档文本中提取关键信息，并将关键信息汇聚成摘要文本，实现文档文本中关键信息的重点提取，提升文档文本分类的准确性。

2、为了实现对文档文本的自动文摘，需要进行长命名实体识别，识别和分类文本中的长实体。基于svm的长命名实体识别算法原理简单、易实现，可以识别和分类文本中的长实体，但文档文本的数据量庞大、特征维度偏高，同时，实体的边界交织重叠难以识别，使svm的训练效率降低，影响长实体的识别准确率。

技术实现思路

1、本专利技术提供基于自然语言识别的文档分析方法及系统，以解决实体的边界不易识别导致的长命名实体识别不准确的问题，所采用的技术方案具体如下：

本文档来自技高网...

【技术保护点】

1.基于自然语言识别的文档分析方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于自然语言识别的文档分析方法，其特征在于，所述计算词语的全局信息量，包括的具体方法为：

3.根据权利要求2所述的基于自然语言识别的文档分析方法，其特征在于，所述不同词语之间的基础词共存剥离权重，获取的具体方法为：

4.根据权利要求1所述的基于自然语言识别的文档分析方法，其特征在于，所述根据词间隔距离和文档中不同词语在同一语句数据序列中同时出现的频次，获取两个不同词语之间的共现表征强度，具体的表达式为：

5.根据权利要求1所述的基于自然语言识别的文...

【技术特征摘要】

1.基于自然语言识别的文档分析方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于自然语言识别的文档分析方法，其特征在于，所述计算词语的全局信息量，包括的具体方法为：

3.根据权利要求2所述的基于自然语言识别的文档分析方法，其特征在于，所述不同词语之间的基础词共存剥离权重，获取的具体方法为：

5.根据权利要求1所述的基于自然语言识别的文档分析方法，其特征在于，所述进而获取两个不同词语之间的长实体依存系数，包括的具体方法为：

6.根据权利要求1所述的基于自然语言识别的文档分析方法，其特征在于，所述根据词...

【专利技术属性】
技术研发人员：刘义辉，
申请(专利权)人：北京尚博信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人