【技术实现步骤摘要】
一种文本分词方法、装置、存储介质及电子设备
本申请涉及自然语言处理
,具体而言,涉及一种文本分词方法、装置、存储介质及电子设备。
技术介绍
随着互联网的发展,越来越多的人开始使用,互联网用户的数量急速增长。用户习惯在互联网上通过文本进行沟通和分享,当下互联网用户的数量巨大,也伴随着互联网上的文本数量巨大。如何对数量巨大的文本进行有效信息提取,成为了当下需要解决的问题。
技术实现思路
本申请的目的在于提供一种文本分词方法、装置、存储介质及电子设备,以至少部分改善上述问题。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供一种文本分词方法,所述方法包括;依据输入文本中的标识符号,对所述输入文本进行分割,以获得预分词集合,其中,所述预分词集合包括至少一组待确认短语,所述待确认短语为所述输入文本的一部分;依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语,其中,所述标准词性链条集合包括至少一条标准词性链,所述目标短语的词性链为所述标准词性链,所述目标短语为所述待确认短语中的连续的一部分。第二方面,本申请实施例提供一种文本分词装置,所述装置包括;第一分词单元,用于依据输入文本中的标识符号,对所述输入文本进行分割,以获得预分词集合,其中,所述预分词集合包括至少一组待确认短语,所述待确认短语为所述输入文本的一部分;第二分词单元,用于依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛 ...
【技术保护点】
1.一种文本分词方法,其特征在于,所述方法包括;/n依据输入文本中的标识符号,对所述输入文本进行分割,以获得预分词集合,其中,所述预分词集合包括至少一组待确认短语,所述待确认短语为所述输入文本的一部分;/n依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语,其中,所述标准词性链条集合包括至少一条标准词性链,所述目标短语的词性链为所述标准词性链,所述目标短语为所述待确认短语中的连续的一部分。/n
【技术特征摘要】
1.一种文本分词方法,其特征在于,所述方法包括;
依据输入文本中的标识符号,对所述输入文本进行分割,以获得预分词集合,其中,所述预分词集合包括至少一组待确认短语,所述待确认短语为所述输入文本的一部分;
依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语,其中,所述标准词性链条集合包括至少一条标准词性链,所述目标短语的词性链为所述标准词性链,所述目标短语为所述待确认短语中的连续的一部分。
2.如权利要求1所述的文本分词方法,其特征在于,所述依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语的步骤,包括:
判断所述待确认短语的词性链的长度是否大于第一长度,其中,所述第一长度为最长的标准词性链的长度;
若小于或等于,则判断所述待确认短语的词性链是否与任意一组标准词性链相同;
若相同,则确定所述待确认短语为所述目标短语;
若不同,则去除所述待确认短语的词性链中首位或末尾词性对应的词汇,以得到新的待确认短语;
重复判断待确认短语的词性链是否与任意一组标准词性链相同,直至所述待确认短语的词性链为空。
3.如权利要求2所述的文本分词方法,其特征在于,所述依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语的步骤,还包括:
若所述待确认短语的词性链的长度大于所述第一长度,则从所述待确认短语中提取第一子短语,其中,所述第一子短语的词性链长度为所述第一长度,所述第一子短语中的第一个词汇为所述待确认短语中的第一个词汇;
判断所述第一子短语的词性链是否与任意一组标准词性链相同;
若相同,则将所述第一子短语作为一组目标短语;
判断第一分割词汇对应的词性与所述待确认短语的词性链的末端之间的长度是否大于所述第一长度,其中,所述第一分割词汇为所述待确认短语中与所述第一子短语末端相邻的词汇;
若大于,则将所述第一分割词汇作为新的第一子短语的第一个词汇;
重复判断所述第一子短语的词性链是否与任意一组标准词性链相同,直至新的第一分割词汇对应的词性与所述待确认短语的词性链的末端之间的长度小于或等于所述第一长度;
若小于或等于,则将所述第一分割词汇到所述待确认短语的末端作为新的待确认短语;
重复判断待确认短语的词性链是否与任意一组标准词性链相同,直至所述待确认短语的词性链为空。
4.如权利要求3所述的文本分词方法,其特征在于,所述依据标准词性链条集合和所述待确认短语的词性链,从所述待确认短语中筛选出目标短语的步骤,还包括:
若所述第一子短语的词性链与任意一组标准词性链均不同,判断第二分割词汇对应的词性与所述待确认短语的词性链的末端之间的长度是否大于所述第一长度,其中,所述第二分割词汇为所述第一子短语中的第二位词汇;
若大于,则将所述第二分割词汇作为新的第一子短语的第一个词汇;
重复判断所述第一子短语的词性链是否与任意一组标准词性链相同,直至新的第二分割词汇对应的词性与所...
【专利技术属性】
技术研发人员:徐欢春,
申请(专利权)人:多点深圳数字科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。