一种文本分词方法、装置、存储介质及电子设备制造方法及图纸

技术编号:29461317 阅读:13 留言:0更新日期:2021-07-27 17:31
本申请提出一种文本分词方法、装置、存储介质及电子设备,首先,依据输入文本中的标识符号,对输入文本进行分割,以获得预分词集合,其中,预分词集合包括至少一组待确认短语,待确认短语为输入文本的一部分;依据标准词性链条集合和待确认短语的词性链,从待确认短语中筛选出目标短语,其中,标准词性链条集合包括至少一条标准词性链,目标短语的词性链为标准词性链,目标短语为待确认短语中的连续的一部分。基于原始分词基础通过标准词性链上再加工,准确的把较为完整的短语提取出来,更准确的提取文本短语信息。将目标短语作为最终的分词结果,以获得文本中原本想表达的意思,保障了分词结果对用户的可用性和准确性。

【技术实现步骤摘要】
一种文本分词方法、装置、存储介质及电子设备
本申请涉及自然语言处理
,具体而言,涉及一种文本分词方法、装置、存储介质及电子设备。
技术介绍
随着互联网的发展,越来越多的人开始使用,互联网用户的数量急速增长。用户习惯在互联网上通过文本进行沟通和分享,当下互联网用户的数量巨大,也伴随着互联网上的文本数量巨大。如何对数量巨大的文本进行有效信息提取,成为了当下需要解决的问题。
技术实现思路
本申请的目的在于提供一种文本分词方法、装置、存储介质及电子设备,以至少部分改善上述问题。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供一种文本分词方法,所述方法包括;依据输入文本中的标识符号,对所述输入文本进行分割,以获得预分词集合,其中,所述预分词集合包括至少一组待确认短语,所述待确认短语为所述输入文本的一部分;依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语,其中,所述标准词性链条集合包括至少一条标准词性链,所述目标短语的词性链为所述标准词性链,所述目标短语为所述待确认短语中的连续的一部分。第二方面,本申请实施例提供一种文本分词装置,所述装置包括;第一分词单元,用于依据输入文本中的标识符号,对所述输入文本进行分割,以获得预分词集合,其中,所述预分词集合包括至少一组待确认短语,所述待确认短语为所述输入文本的一部分;第二分词单元,用于依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语,其中,所述标准词性链条集合包括至少一条标准词性链,所述目标短语的词性链为所述标准词性链,所述目标短语为所述待确认短语中的连续的一部分。第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。第四方面,本申请实施例提供一种电子设备,所述电子设备包括:处理器和存储器,所述存储器用于存储一个或多个程序;当所述一个或多个程序被所述处理器执行时,实现上述的方法。相对于现有技术,本申请实施例所提供的一种文本分词方法、装置、存储介质及电子设备,首先,依据输入文本中的标识符号,对输入文本进行分割,以获得预分词集合,其中,预分词集合包括至少一组待确认短语,待确认短语为输入文本的一部分;依据标准词性链条集合和待确认短语的词性链,从待确认短语中筛选出目标短语,其中,标准词性链条集合包括至少一条标准词性链,目标短语的词性链为标准词性链,目标短语为待确认短语中的连续的一部分。基于原始分词基础通过标准词性链上再加工,准确的把较为完整的短语提取出来,更准确的提取文本短语信息。将目标短语作为最终的分词结果,以获得文本中原本想表达的意思,保障了分词结果对用户的可用性和准确性。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。图1为本申请实施例提供的电子设备的结构示意图;图2为本申请实施例提供的文本分词方法的流程示意图;图3为本申请实施例提供的S30的子步骤示意;图4为本申请实施例提供的S30的又一子步骤示意;图5为本申请实施例提供的文本分词方法的又一流程示意图;图6为本申请实施例提供的文本分词方法的效果示意图;图7为本申请实施例提供的文本分词装置的单元示意图。图中:10-处理器;11-存储器;12-总线;13-通信接口;201-第一分词单元;202-第二分词单元。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。随着人工智能技术的发展,自然语言处理技术(NLP)也取得了重大的进步,NLP的性能和准确性都逐步达到了可以商用的标准。本申请实施例所使用的分词工具包基于HanLP,但适用于所有基于词性分词的算法。HanLP(HanLanguageProcessing)为一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。本申请实施例基于生产环境中的一个具体需求,例如业务方定向给顾客发放了大量调研问卷,其中包含有开放性问答题,在收到用户反馈的信息后,需要量化的将顾客的开放性反馈做数据统计。当前已有基本分词算法,如:HMM、感知机、CRF,都用于本文档来自技高网...

【技术保护点】
1.一种文本分词方法,其特征在于,所述方法包括;/n依据输入文本中的标识符号,对所述输入文本进行分割,以获得预分词集合,其中,所述预分词集合包括至少一组待确认短语,所述待确认短语为所述输入文本的一部分;/n依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语,其中,所述标准词性链条集合包括至少一条标准词性链,所述目标短语的词性链为所述标准词性链,所述目标短语为所述待确认短语中的连续的一部分。/n

【技术特征摘要】
1.一种文本分词方法,其特征在于,所述方法包括;
依据输入文本中的标识符号,对所述输入文本进行分割,以获得预分词集合,其中,所述预分词集合包括至少一组待确认短语,所述待确认短语为所述输入文本的一部分;
依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语,其中,所述标准词性链条集合包括至少一条标准词性链,所述目标短语的词性链为所述标准词性链,所述目标短语为所述待确认短语中的连续的一部分。


2.如权利要求1所述的文本分词方法,其特征在于,所述依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语的步骤,包括:
判断所述待确认短语的词性链的长度是否大于第一长度,其中,所述第一长度为最长的标准词性链的长度;
若小于或等于,则判断所述待确认短语的词性链是否与任意一组标准词性链相同;
若相同,则确定所述待确认短语为所述目标短语;
若不同,则去除所述待确认短语的词性链中首位或末尾词性对应的词汇,以得到新的待确认短语;
重复判断待确认短语的词性链是否与任意一组标准词性链相同,直至所述待确认短语的词性链为空。


3.如权利要求2所述的文本分词方法,其特征在于,所述依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语的步骤,还包括:
若所述待确认短语的词性链的长度大于所述第一长度,则从所述待确认短语中提取第一子短语,其中,所述第一子短语的词性链长度为所述第一长度,所述第一子短语中的第一个词汇为所述待确认短语中的第一个词汇;
判断所述第一子短语的词性链是否与任意一组标准词性链相同;
若相同,则将所述第一子短语作为一组目标短语;
判断第一分割词汇对应的词性与所述待确认短语的词性链的末端之间的长度是否大于所述第一长度,其中,所述第一分割词汇为所述待确认短语中与所述第一子短语末端相邻的词汇;
若大于,则将所述第一分割词汇作为新的第一子短语的第一个词汇;
重复判断所述第一子短语的词性链是否与任意一组标准词性链相同,直至新的第一分割词汇对应的词性与所述待确认短语的词性链的末端之间的长度小于或等于所述第一长度;
若小于或等于,则将所述第一分割词汇到所述待确认短语的末端作为新的待确认短语;
重复判断待确认短语的词性链是否与任意一组标准词性链相同,直至所述待确认短语的词性链为空。


4.如权利要求3所述的文本分词方法,其特征在于,所述依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语的步骤,还包括:
若所述第一子短语的词性链与任意一组标准词性链均不同,判断第二分割词汇对应的词性与所述待确认短语的词性链的末端之间的长度是否大于所述第一长度,其中,所述第二分割词汇为所述第一子短语中的第二位词汇;
若大于,则将所述第二分割词汇作为新的第一子短语的第一个词汇;
重复判断所述第一子短语的词性链是否与任意一组标准词性链相同,直至新的第二分割词汇对应的词性与所...

【专利技术属性】
技术研发人员:徐欢春
申请(专利权)人:多点深圳数字科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1