分词识别词库构建方法、中文分词方法和装置制造方法及图纸

技术编号:24207928 阅读:32 留言:0更新日期:2020-05-20 15:29
本发明专利技术公开了一种分词识别词库构建方法、中文分词方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:针对训练文本集中的短句,执行:为短句去重,并为去重后的短句中的每一个字构建对应的神经元,其中,神经元指示的信号类型与神经元对应的字相匹配;根据短句中每两个字之间的相对位置和出现频次,为每两个字所对应的两个神经元之间构建链接关系,以构成短句对应的短句神经网络,其中,链接关系指示链接系数和信号传递方向;将各个短句神经网络融合,以构成分词识别词库。该实施方式能够有效地提高词库的词语量以及分词的准确性。

Construction method, Chinese word segmentation method and device of word segmentation recognition lexicon

【技术实现步骤摘要】
分词识别词库构建方法、中文分词方法和装置
本专利技术涉及计算机
,尤其涉及一种分词识别词库构建方法、中文分词方法和装置。
技术介绍
基于词库进行中文分词是目前比较常用的分词方式之一。因此,构建和维护词库,是实现分词的基础。现有的词库主要采用人工方式构建和维护,即人工方式收集现有的一些词语如《现代汉语规范词典》内的词语、网络中出现的一些新的词语等,并将收集的这些词语存储到词库。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:相比于网络中海量的文本数据,人工方式收集到的词语是十分有限的,导致词库内存储的词语量十分有限。那么,在基于人工方式构建或维护的词库进行分词时,词库内存储的词语量往往不能满足分词需求。
技术实现思路
有鉴于此,本专利技术实施例提供一种分词识别词库构建方法、中文分词方法和服务器,能够有效地提高词库的词语量以及分词的准确性。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种分词识别词库构建方法,包括:针对训练文本集中的短句,执行:为短本文档来自技高网...

【技术保护点】
1.一种分词识别词库构建方法,其特征在于,包括:/n针对训练文本集中的短句,执行:/n为所述短句去重,并为去重后的短句中的每一个字构建对应的神经元,其中,所述神经元指示的信号类型与所述神经元对应的字相匹配;/n根据所述短句中每两个字之间的相对位置和出现频次,为所述每两个字所对应的两个神经元之间构建链接关系,以构成所述短句对应的短句神经网络,其中,所述链接关系指示链接系数和信号传递方向;/n将各个所述短句神经网络融合,以构成分词识别词库。/n

【技术特征摘要】
1.一种分词识别词库构建方法,其特征在于,包括:
针对训练文本集中的短句,执行:
为所述短句去重,并为去重后的短句中的每一个字构建对应的神经元,其中,所述神经元指示的信号类型与所述神经元对应的字相匹配;
根据所述短句中每两个字之间的相对位置和出现频次,为所述每两个字所对应的两个神经元之间构建链接关系,以构成所述短句对应的短句神经网络,其中,所述链接关系指示链接系数和信号传递方向;
将各个所述短句神经网络融合,以构成分词识别词库。


2.根据权利要求1所述的分词识别词库构建方法,其特征在于,
所述分词识别词库包括主神经网络以及所述主神经网络中的神经元所链接的链接器;
所述将各个所述短句神经网络融合,包括:
针对每一个所述短句神经网络执行:
将所述短句神经网络中的每一个所述神经元链接到所述链接器;
通过所述链接器遍历所述短句神经网络中的每一个所述神经元;
当遍历的结果为所述主神经网络与所述短句神经网络之间存在信号类型相同的神经元,将所述短句神经网络中,所述信号类型相同的神经元删除,并将所述信号类型相同的神经元相关的链接关系连接到所述主神经网络。


3.根据权利要求2所述的分词识别词库构建方法,其特征在于,
当遍历的结果为所述主神经网络与所述短句神经网络之间存在信号传递方向相同的链接关系时,
根据所述信号传递方向相同的链接关系指示的链接系数,更新所述主神经网络上所述信号传递方向相同的链接关系指示的链接系数。


4.根据权利要求2所述的分词识别词库构建方法,其特征在于,进一步包括:
获取到新增短句;
针对所述新增短句中的每一个增加字,执行:
将所述增加字转换为对应的神经元;
在所述主神经网络上,通过所述链接器查找与所述增加字对应的神经元相匹配的第一神经元,并激活所述第一神经元;
当两个所述第一神经元之间存在第一链接关系时,利用预设的激活函数,计算所述第一链接关系对应的第一链接系数;
利用计算出的所述第一链接系数更新所述第一链接关系指示的链接系数。


5.根据权利要求4所述的分词识别词库构建方法,其特征在于,进一步包括:
为所述神经元设置激活态和抑制态,其中,所述激活态指示为所述神经元被使用,所述抑制态指示为所述神经元未被使用;
当获取到恢复信号,将所述神经元的激活态转换为抑制态。


6.根据权利要求5所述的分词识别词库构建方法,其特征在于,
所述神经元进一步指示信号强度;
所述查找与所述增加字对应的神经元相匹配的第一神经元,包括:
查找与所述增加字对应的神经元指示的信号类型相匹配的第一神经元;
当所述增加字对应的神经元指示的信号强度不小于预设的阈值时,激活所述第一神经元。


7.根据权利要求1至4、5、6任一所述的分词识别词库构建方法,其特征在于,进一步包括:
针对训练文本集中的每一个短句,执行:
计算所述短句对应的md5码;
判断所述md5码是否已经被记录过,如果是,则忽略所述短句,否则,记录所述md5码,并执行所述为所述短句去重,并为去重后的短句中的每一个字构建对应的神经元的步骤。


8.根据权利要求1至4、5、6任一所述的分词识别词库构建方法,其特征在于,进一步包括:
为所述链接关系和所述神经元分别设置对应的衰减周期;
在所述分词识别词库被使用时,
所述链接关系处于抑制态的时长达到所述链接关系对应的衰减周期时,删除所述链接关系;
所述神经元处于抑制态的时长达到所述神经元对应的衰减周期时,删除所述神经元以及所述神经元所链接到的链接关系。


9.根据权利要求8所述的分词识别词库构建方法,其特征在于,进一步包括:
根据当前时间、所述当前时间所对应的上一次被激活的时间以及预设的衰减函数,计算所述当前时间对应的第二链接系数;
利用计算出的所述第二链接系数,更新所述链接关系指示的链接系数。


10.根据权利要求1至4、5、6任一所述的分词识别词库构建方法,其特征在于,进一步包括:
针对确定性的词语序列所对应的至少一个第二链接关系,执行:
利用预设的链接常数更新每一个所述第二链接关系指示的链接系数。


11.根据权利要求1至4、5、6任一...

【专利技术属性】
技术研发人员:李胤文
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1