当前位置: 首页 > 专利查询>王举范专利>正文

一种文本分词方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:38014912 阅读:25 留言:0更新日期:2023-06-30 10:39
本文涉及信息处理领域,提供了一种文本分词方法、装置、设备及计算机存储介质,方法包括:获取待处理文本的词语切分非负权重的有向无环图;根据有向无环图,将始发节点加入至源节点集中并确定源节点集中源节点的相连信息及关联信息;判断源节点集是否为空,若是,则根据记录的路径信息确定分词结果,若否,则利用移动步长更新各源节点的关联信息;根据各源节点更新后关联信息,确定可达目标节点及其源节点,记录经源节点至可达目标节点的路径信息,根据可达目标节点的邻接边及源节点的未处理邻接边,确定源节点集及所述源节点集中源节点的相连信息及关联信息,本文能够降低时间复杂度,提高文本分词效率。提高文本分词效率。提高文本分词效率。

【技术实现步骤摘要】
一种文本分词方法、装置、设备及计算机存储介质


[0001]本文涉及信息处理领域,尤其涉及一种文本分词方法、装置、设备及计算机存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing,NLP)是人工智能(Artificial Intelligence,AI)中一项重要的技术,通过自然语言处理使得计算机能够分析、理解人类语言,其应用场景非常广泛,如语言翻译、文本文档信息摘要提取、人机交互、搜索引擎、数据库数据检索等。尤其是非分词语言,如汉语、日语和泰语,没有空格或分隔符,大多数单词是连续书写的,难以找到每个单词的精确边界。分词是非分段语言分析处理中首要解决的问题。
[0003]常见中文分词方法有基于匹配的词典分词、基于标注的机器学习算法及基于理解的深度学习算法,其中基于匹配的词典分词又分为最大匹配分词算法及最短路径分词算法。最大匹配分词算法虽然可以在O(N)时间对文本(如句子、段落等)进行分词,但是效果很差,工业界几乎不会直接使用此类方法作为分词模块的实现方法。
[0004]最短路径分词本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分词方法,其特征在于,所述方法包括:S1,获取待处理文本的词语切分非负权重的有向无环图;S2,根据所述有向无环图,将始发节点加入至源节点集中并确定源节点集中源节点的相连信息及关联信息,所述源节点的相连信息包括待处理邻接边及目标节点,所述待处理邻接边为源节点权重最小的未处理邻接边,所述目标节点为所述待处理邻接边邻接的非源节点,所述源节点的关联信息反映源节点与目标节点间邻接边的可移动权重信息;S3,判断所述源节点集是否为空,若是,则根据记录的路径信息确定分词结果,若否,则执行步骤S4;S4,根据所述源节点集中源节点的关联信息计算移动步长,并利用移动步长更新各源节点的关联信息;S5,根据各源节点更新后关联信息,确定可达目标节点及其源节点,记录经源节点至可达目标节点的路径信息,根据可达目标节点的邻接边及源节点的未处理邻接边,确定所述源节点集及所述源节点集中源节点的相连信息及关联信息,跳转到步骤S3。2.如权利要求1所述的方法,其特征在于,根据可达目标节点的邻接边及源节点的未处理邻接边,确定所述源节点集及所述源节点集中源节点的相连信息及关联信息,包括:判断可达目标节点的依权重升序排列的邻接边线性表中是否存在邻接边,若是,则将可达目标节点加入至所述源节点集中并确定新增节点的相连信息及关联信息;判断源节点的依权重升序排列的邻接边线性表中是否存在待处理邻接边的下一邻接边,若是,则根据下一邻接边确定源节点的相连信息及关联信息,若否,则将源节点移出所述源节点集。3.如权利要求2所述的方法,其特征在于,判断可达目标节点的依权重升序排列的邻接边线性表中是否存在邻接边之前还包括:对当前迭代中确定出的可达目标节点进行去重处理;判断可达目标节点的依权重升序排列的邻接边线性表中存在邻接边之后还包括:计算可达目标节点已加入至所述源节点集中次数,若次数小于预定值,则将该可达目标节点加入至所述源节点集中,若次数大于或等于预定值,则不将该可达目标节点加入至所述源节点集中。4.如权利要求1所述的方法,其特征在于,还包括:计算源节点集中各源节点的目标节点to
i
的预测路径数量R
i
,其中,预测路径数量R
i
为目标节点to
i
对应的多个源节点所具有的不同剩余权重值的数量与目标节点to
i
已确定的不同权重值的路径数量之和;判断预测路径数量R
i
是否大于预定值,若是,则为目标节点to
i
的最大剩余权重的源节点重新查找未处理邻接边,直到所述预测路径数量R
i
等于预定值。5.如权利要求4所述的方法,其特征在于,还包括:根据所述有向无环图,确定所有路径均经过的关键节点;所述预测路径数量R
i
采用如下公式计算得到:预测路径数量R
i
=目标节点to
i
对应的多个源节点所具有的不同...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:王举范
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1