【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体涉及基于自然语言识别的文档分析方法及系统。
技术介绍
1、随着现在互联网的迅猛发展,各种智能设备的普及,各行各业的信息广泛传播,越来越多的数据资源不断涌现。对海量的文档文本数据资源进行有效整合,可以实现对不同来源的文档文本数据资源的重点信息提取和分析。因此,从海量数据资源进行关键信息提取变得尤为重要。自动文摘技术能从文档文本中提取关键信息,并将关键信息汇聚成摘要文本,实现文档文本中关键信息的重点提取,提升文档文本分类的准确性。
2、为了实现对文档文本的自动文摘,需要进行长命名实体识别,识别和分类文本中的长实体。基于svm的长命名实体识别算法原理简单、易实现,可以识别和分类文本中的长实体,但文档文本的数据量庞大、特征维度偏高,同时,实体的边界交织重叠难以识别,使svm的训练效率降低,影响长实体的识别准确率。
技术实现思路
1、本专利技术提供基于自然语言识别的文档分析方法及系统,以解决实体的边界不易识别导致的长命名实体识别不准确的问题,所采用的技术方
本文档来自技高网...【技术保护点】
1.基于自然语言识别的文档分析方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述计算词语的全局信息量,包括的具体方法为:
3.根据权利要求2所述的基于自然语言识别的文档分析方法,其特征在于,所述不同词语之间的基础词共存剥离权重,获取的具体方法为:
4.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述根据词间隔距离和文档中不同词语在同一语句数据序列中同时出现的频次,获取两个不同词语之间的共现表征强度,具体的表达式为:
5.根据权利要求1所述的
...【技术特征摘要】
1.基于自然语言识别的文档分析方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述计算词语的全局信息量,包括的具体方法为:
3.根据权利要求2所述的基于自然语言识别的文档分析方法,其特征在于,所述不同词语之间的基础词共存剥离权重,获取的具体方法为:
4.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述根据词间隔距离和文档中不同词语在同一语句数据序列中同时出现的频次,获取两个不同词语之间的共现表征强度,具体的表达式为:
5.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述进而获取两个不同词语之间的长实体依存系数,包括的具体方法为:
6.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述根据词...
【专利技术属性】
技术研发人员:刘义辉,
申请(专利权)人:北京尚博信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。