文本处理方法及装置、计算机存储介质、电子设备制造方法及图纸

技术编号:25522642 阅读:21 留言:0更新日期:2020-09-04 17:12
本公开涉及计算机技术领域,提供了一种文本处理方法、文本处理装置、计算机存储介质、电子设备,其中,文本处理方法包括:对获取到的目标文本进行分词处理得到多个分词片段;从多个分词片段中,确定具有句法依存关系、且在目标文本中连续的分词片段,构成组合词片段;根据组合词片段的词频信息和每个分词片段的词频信息,确定组合词片段的成词判决值;若成词判决值大于预设阈值,将组合词片段作为标准词添加至分词词典中。本公开中的文本处理方法能够在标记语料缺失的情况下凭借有限的词库,快速准确的完成分词任务,避免语义歧义,提高分词准确度。

【技术实现步骤摘要】
文本处理方法及装置、计算机存储介质、电子设备
本公开涉及计算机
,特别涉及一种文本处理方法、文本处理装置、计算机存储介质及电子设备。
技术介绍
随着科学技术的发展,对文本智能化处理的要求越来越高。分词就是将连续的文本按照语言规范切分成一些字词序列的过程。分词技术是自然语言处理的基础,分词的好坏直接决定了对文本内容解析的准确度。目前,一般是通过人工建立不同粒度的词库,并进行大量的语料标记形成字典数据,并根据字典数据训练分词模型以进行分词处理。然而,经常会出现语义丢失或语义歧义的现象,分词准确度较低。鉴于此,本领域亟需开发一种新的文本处理方法及装置。需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解。
技术实现思路
本公开的目的在于提供一种文本处理方法、文本处理装置、计算机存储介质及电子设备,进而至少在一定程度上避免了相关技术中准确度较低的缺陷。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的第一方面,提供一种文本处理方法,包括:对获取到的目标文本进行分词处理得到多个分词片段;从所述多个分词片段中,确定具有句法依存关系、且在所述目标文本中连续的分词片段,构成组合词片段;根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值;若所述成词判决值大于预设阈值,将所述组合词片段作为标准词添加至分词词典中。在本公开的示例性实施例中,在将所述组合词片段作为标准词添加至分词词典中之后,所述方法还包括:从多个所述标准词中,确定具有句法依存关系、且在所述目标文本中连续的标准词,构成新的组合词片段;根据所述新的组合词片段的词频信息和每个所述标准词的词频信息,确定所述新的组合词片段的成词判决值;若所述成词判决值大于预设阈值,根据所述新的组合词片段更新所述分词词典。在本公开的示例性实施例中,所述根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值,包括:获取每个所述分词片段的词频信息的乘积;将所述组合词片段的词频信息与所述乘积的比值确定为所述组合词片段的成词判决值。在本公开的示例性实施例中,在对获取到的目标文本进行分词处理得到多个分词片段之后,所述方法还包括:对所述分词片段进行词性标注,得到词性标注结果;根据所述词性标注结果对所述多个分词片段进行依存句法分析,得到所述多个分词片段之间的句法依存关系。在本公开的示例性实施例中,所述对所述分词片段进行词性标注,得到词性标注结果,包括:构建所述分词片段对应的语义向量;将所述语义向量输入训练好的词性标注模型中,根据所述词性标注模型的输出,得到所述分词片段的词性标注结果;其中,所述词性标注模型用于对所述语义向量进行解码,以确定所述分词片段的所述词性标注结果。在本公开的示例性实施例中,所述方法还包括:获取每个分词片段在所述目标文本中的出现次数,以及,获取所述目标文本的总字数;根据每个所述分词片段在所述目标文本中的出现次数和所述目标文本的总字数的比值,确定每个所述分词片段的词频信息。在本公开的示例性实施例中,所述方法还包括:对获取到的目标领域的词库文件进行预处理,所述预处理包括格式转换和文本去重处理;基于爬虫技术获取所述目标领域的关联文本;将所述预处理之后的词库文件和所述关联文本确定为所述目标文本。根据本公开的第二方面,提供一种文本处理装置,包括:分词处理模块,用于对获取到的目标文本进行分词处理得到多个分词片段;组合模块,用于从所述多个分词片段中,确定具有句法依存关系、且在所述目标文本中连续的分词片段,构成组合词片段;成词判决模块,用于根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值;添加模块,用于若所述成词判决值大于预设阈值,将所述组合词片段作为标准词添加至分词词典中。根据本公开的第三方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的文本处理方法。根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的文本处理方法。由上述技术方案可知,本公开示例性实施例中的文本处理方法、文本处理装置、计算机存储介质及电子设备至少具备以下优点和积极效果:在本公开的一些实施例所提供的技术方案中,一方面,对获取到的目标文本进行分词处理得到多个分词片段,从所述多个分词片段中,确定具有句法依存关系、且在所述目标文本中连续的分词片段,构成组合词片段,从而,能够加粗分词粒度,从句法结构维度简单高效的确定出候选的组合词,解决相关技术中分词粒度过小导致语义歧义或语义丢失的技术问题,最大程度的保留文本语义。另一方面,根据组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值,若所述成词判决值大于预设阈值,将所述组合词片段作为标准词添加至分词词典中,能够从上述候选组合词中筛选出更符合实际情况的标准词,还能根据标准词创建出与各个领域相对应的分词词典,有很好的跨领域性,提高得到的标准词的准确度。本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出本公开一示例性实施例中文本处理方法的子流程示意图;图2示出本公开一示例性实施例中文本处理方法的流程示意图;图3示出本公开一示例性实施例中文本处理方法的子流程示意图;图4示出本公开一示例性实施例中文本处理方法的子流程示意图;图5示出本公开一示例性实施例中文本处理方法的子流程示意图;图6示出本公开示例性实施例中文本处理装置的结构示意图;图7示出本公开示例性实施例中计算机存储介质的结构示意图;图8示出本公开示例性实施例中电子设备的结构示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。本说明书中使用用语“一本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n对获取到的目标文本进行分词处理得到多个分词片段;/n从所述多个分词片段中,确定具有句法依存关系、且在所述目标文本中连续的分词片段,构成组合词片段;/n根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值;/n若所述成词判决值大于预设阈值,将所述组合词片段作为标准词添加至分词词典中。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
对获取到的目标文本进行分词处理得到多个分词片段;
从所述多个分词片段中,确定具有句法依存关系、且在所述目标文本中连续的分词片段,构成组合词片段;
根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值;
若所述成词判决值大于预设阈值,将所述组合词片段作为标准词添加至分词词典中。


2.根据权利要求1所述的方法,其特征在于,在将所述组合词片段作为标准词添加至分词词典中之后,所述方法还包括:
从多个所述标准词中,确定具有句法依存关系、且在所述目标文本中连续的标准词,构成新的组合词片段;
根据所述新的组合词片段的词频信息和每个所述标准词的词频信息,确定所述新的组合词片段的成词判决值;
若所述成词判决值大于预设阈值,根据所述新的组合词片段更新所述分词词典。


3.根据权利要求2所述的方法,其特征在于,所述根据所述组合词片段的词频信息和每个所述分词片段的词频信息,确定所述组合词片段的成词判决值,包括:
获取每个所述分词片段的词频信息的乘积;
将所述组合词片段的词频信息与所述乘积的比值确定为所述组合词片段的成词判决值。


4.根据权利要求1或2所述的方法,其特征在于,在对获取到的目标文本进行分词处理得到多个分词片段之后,所述方法还包括:
对所述分词片段进行词性标注,得到词性标注结果;
根据所述词性标注结果对所述多个分词片段进行依存句法分析,得到所述多个分词片段之间的句法依存关系。


5.根据权利要求4所述的方法,其特征在于,所述对所述分词片段进行词性标注,得到词性标注结果,包括:
构建所述分词片段对应的语义向量;
将所述语义向量输入训练好的词性标注模型中...

【专利技术属性】
技术研发人员:李永峰齐梓辰倪旻赵文鹏赵丽
申请(专利权)人:泰康保险集团股份有限公司泰康人寿保险有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1