自然语言处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:24331641 阅读:49 留言:0更新日期:2020-05-29 19:52
本公开涉及一种自然语言处理方法、装置、存储介质及电子设备,所述方法包括:接收待分析文本数据和分析指令,分析指令用于指示对待分析文本数据进行的分析模式和分析结果格式;若分析模式指示对待分析文本数据进行句法依存分析,则对待分析文本数据进行分词处理,获得分词数据;根据分词数据对待分析文本数据进行词性标注,获得分词词性数据;对分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;根据分词词性数据和实体识别数据进行句法依存分析,获得句法依存数据;根据分析结果格式确定文本数据分析结果,输出文本数据分析结果,文本数据分析结果包括分词数据、分词词性数据、实体识别数据和句法依存数据中的一者或多者。

Natural language processing methods, devices, storage media and electronic equipment

【技术实现步骤摘要】
自然语言处理方法、装置、存储介质及电子设备
本公开涉及计算机
,具体地,涉及一种自然语言处理方法、装置、存储介质及电子设备。
技术介绍
随着计算机技术的发展,自然语言处理技术也随之兴起。如,在税务领域、医学领域等,均可以通过自然语言处理技术从而对该领域中的文本进行标准化处理,降低用户的工作量。然而,在现有技术中,该自然语言处理的不同技术通常是被单独的在各智能平台及自然语言处理工具中提供,这样往往会导致各种重复性计算问题。如用户在使用实体识别功能时需要重新进行分词和词性标注工作,浪费了大量的运算时间。
技术实现思路
本公开的目的是提供一种准确地自然语言处理方法、装置、存储介质和电子设备。为了实现上述目的,根据本公开的第一方面,提供一种自然语言处理方法,包括:接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;r>根据所述分词数据本文档来自技高网...

【技术保护点】
1.一种自然语言处理方法,其特征在于,所述方法包括:/n接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;/n若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;/n根据所述分词数据对所述待分析文本数据进行词性标注,获得分词词性数据;/n对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;/n根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据;/n根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,其中,所述文本数据分析结果包...

【技术特征摘要】
1.一种自然语言处理方法,其特征在于,所述方法包括:
接收待分析文本数据和分析指令,其中,所述分析指令用于指示对所述待分析文本数据进行的分析模式和分析结果格式;
若所述分析模式指示对所述待分析文本数据进行句法依存分析,则对所述待分析文本数据进行分词处理,获得分词数据;
根据所述分词数据对所述待分析文本数据进行词性标注,获得分词词性数据;
对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据;
根据所述分词词性数据和所述实体识别数据进行句法依存分析,获得句法依存数据;
根据所述分析结果格式确定文本数据分析结果,并输出所述文本数据分析结果,其中,所述文本数据分析结果包括所述分词数据、所述分词词性数据、所述实体识别数据和所述句法依存数据中的一者或多者。


2.根据权利要求1所述的方法,其特征在于,所述对所述待分析文本数据进行分词处理,获得分词数据,包括:
将所述待分析文本数据输入分词模型,获得初始分词数据,其中所述分词模型为隐马尔科夫链模型;
针对所述初始分词数据中的各个初始词语,计算该初始词语对应的词内紧密度;
针对待分析文本数据的每句对应的分词数据,若该句对应的分词数据中的最小的词内紧密度小于预设阈值,分别确定该最小的词内紧密度对应的初始词语与初始该词语的相邻词语之间的词间紧密度;
将最大的词间紧密度对应的初始词语合并为新的分词词语,获得所述分词数据,其中,所述分词数据包括所述初始分词数据中未进行合并的初始词语和所述新的分词词语。


3.根据权利要求2所述的方法,其特征在于,所述针对所述初始分词数据中的各个初始词语,通过以下公式,计算该初始词语对应的词内紧密度:



其中,pmi(C)表示该初始词语对应的词内紧密度;
p(C)表示该初始词语对应的出现概率;
p(Ci)表示第i个初始词语对应的出现概率;
n表示所述分词数据中该初始词语所在句包含的初始词语的总个数。


4.根据权利要求2所述的方法,其特征在于,所述对所述分词词性数据中的名词词性的分词词语进行实体识别,获得实体识别数据,包括:
将所述名词词性的分词词语输入实体识别模型,获得所述实体识别数据,其中,所述实体识别模型为基于实体词典、隐马尔科夫链、和通过长短期记忆神经网络对所述新的分词词语进行训练获得的。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户上传的实体扩展词典;
所述对所述分词词性数据中的名词词性...

【专利技术属性】
技术研发人员:刘振宇王志刚王泽皓王亚平刘雅婷刘芬邓应强
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1