一种字符串分词方法、装置、设备及存储介质制造方法及图纸

技术编号:24576467 阅读:72 留言:0更新日期:2020-06-21 00:27
本发明专利技术实施例公开了一种字符串分词方法、装置、设备及存储介质。该方法包括:从目标字符串中读取首字符,并从预先构造的分词词典树中哈希查找所述目标字符串首字符对应的第一根节点;从所述目标字符串中依次读取后续字符,并根据所述第一根节点关联的子节点,获取后续字符对应子节点的字符状态;根据字符状态,判断是否拆分所述目标字符串,以获取所述目标字符串的分词结果。通过运行本发明专利技术实施例所提供的技术方案,可以解决采用直接查找的方式,从词库中依次查找字符串的首字符以及判断由首字符构成的词语是否出现在词库,增加了分词复杂度的问题,达到了降低字符串分词的复杂度,节省分词时间的效果。

A method, device, device and storage medium of string segmentation

【技术实现步骤摘要】
一种字符串分词方法、装置、设备及存储介质
本专利技术实施例涉及计算机技术,尤其涉及一种字符串分词方法、装置、设备及存储介质。
技术介绍
目前,许多领域中需要对字符串进行分词以获取有用信息,例如在物流领域中,将地址字符串拆分,以获取正确的寄件收件地址。在现有技术中,往往采用直接查找的方式,从词库中依次查找字符串的首字符,因此搜索次数与词库大小正相关,而继续判断由首字符构成的词语是否出现在词库,进一步增加了分词复杂度。
技术实现思路
本专利技术实施例提供一种字符串分词方法、装置、设备及存储介质,以实现降低字符串分词的复杂度,节省分词时间的效果。第一方面,本专利技术实施例提供了一种字符串分词方法,该方法包括:从目标字符串中读取首字符,并从预先构造的分词词典树中哈希查找所述目标字符串首字符对应的第一根节点;从所述目标字符串中依次读取后续字符,并根据所述第一根节点关联的子节点,获取后续字符对应子节点的字符状态;根据字符状态,判断是否拆分所述目标字符串,以获取所述目标字符串的分词结果。第二本文档来自技高网...

【技术保护点】
1.一种字符串分词方法,其特征在于,包括:/n从目标字符串中读取首字符,并从预先构造的分词词典树中哈希查找所述目标字符串首字符对应的第一根节点;/n从所述目标字符串中依次读取后续字符,并根据所述第一根节点关联的子节点,获取后续字符对应子节点的字符状态;/n根据字符状态,判断是否拆分所述目标字符串,以获取所述目标字符串的分词结果。/n

【技术特征摘要】
1.一种字符串分词方法,其特征在于,包括:
从目标字符串中读取首字符,并从预先构造的分词词典树中哈希查找所述目标字符串首字符对应的第一根节点;
从所述目标字符串中依次读取后续字符,并根据所述第一根节点关联的子节点,获取后续字符对应子节点的字符状态;
根据字符状态,判断是否拆分所述目标字符串,以获取所述目标字符串的分词结果。


2.根据权利要求1所述的方法,其特征在于,所述分词词典树的构建过程,包括:
从词条字符串中读取首字符,作为分词词典树的根节点;
从所述词条字符串中依次读取后续字符,并依次判断所述分词词典树中是否已经存在后续字符对应的子节点;
若否,则将所述词条字符串中的字符作为子节点依次插入所述分词词典树,并确定插入字符的字符状态。


3.根据权利要求1或2所述的方法,其特征在于,所述字符状态,包括:
继续状态、延伸状态和终止状态。


4.根据权利要求3所述的方法,其特征在于,根据字符状态,判断是否拆分所述目标字符串,以获取所述目标字符串的分词结果,包括:
若字符状态为终止状态,则拆分所述目标字符串中首字符至终止状态的字符,构成字符拆分结果;
判断所述目标字符串是否拆分结束;
若是,则确定所述字符拆分结果为所述分词结果。


5.根据权利要求4所述的方法,其特征在于,在判读所述目标字符串是否拆分结束之后,还包括:
若否,则从拆分后目标字符串读取首字符,并从预先构造的分词词典树中哈希查找所述拆分后目标字符串首字符对应的第二根节点;
从所述拆分后目标字符串中依次读取后续字符,并根据所述第二根节点关联的子节点,获取后续字符对应子节点的字符状态;

【专利技术属性】
技术研发人员:陈旭明林楚荣朱祖恩程莹赵伟
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1