【技术实现步骤摘要】
标准词库分词方法、装置、设备及计算机可读存储介质
本专利技术主要涉及数据处理
,具体地说,涉及一种标准词库分词方法、装置、设备及计算机可读存储介质。
技术介绍
NLP(NaturalLanguageProcessing,自然语言处理)是人工智能的一个子领域,目前NLP主要通过已有的分词库进行计算,分词库可以通过字典或人工辅助标注方式进行。通过字典或人工辅助标注方式对标准词库进行分词时,由于字典或人工辅助标注有限,无法准确的对标准词库进行分词,使得标准词库的分词不满足NLP在特定领域,如医学领域中的应用,需要对已有的标准词库进行重新分词。因此,如何提高标准词库的分词准确率是目前亟待解决的问题。
技术实现思路
本专利技术的主要目的是提供一种标准词库分词方法、装置、设备及计算机可读存储介质,旨在解决现有技术中如何提高标准词库的分词准确率的问题。为实现上述目的,本专利技术提供一种标准词库分词方法,所述标准词库分词方法包括以下步骤:将待分词标准词库中的标准词拆分为单个汉字,形成汉字库,并生成所述汉字库中每两个汉字之间的临近频率;根据所述临近频率对所述汉字库中的各汉字进行合 ...
【技术保护点】
1.一种标准词库分词方法,其特征在于,所述标准词库分词方法包括以下步骤:将待分词标准词库中的标准词拆分为单个汉字,形成汉字库,并生成所述汉字库中每两个汉字之间的临近频率;根据所述临近频率对所述汉字库中的各汉字进行合并操作,生成汉字组,并对经合并操作后的所述汉字库中各汉字之间的临近频率进行更新操作;判断经更新操作后的所述汉字库中各汉字之间临近频率中的频率最大值是否小于预设阈值;若所述频率最大值大于或等于所述预设阈值,则执行根据所述临近频率对所述汉字库中的各汉字进行合并操作的步骤;若所述频率最大值小于所述预设阈值,则将各所述汉字组形成所述待分词标准词库的标准分词。
【技术特征摘要】
1.一种标准词库分词方法,其特征在于,所述标准词库分词方法包括以下步骤:将待分词标准词库中的标准词拆分为单个汉字,形成汉字库,并生成所述汉字库中每两个汉字之间的临近频率;根据所述临近频率对所述汉字库中的各汉字进行合并操作,生成汉字组,并对经合并操作后的所述汉字库中各汉字之间的临近频率进行更新操作;判断经更新操作后的所述汉字库中各汉字之间临近频率中的频率最大值是否小于预设阈值;若所述频率最大值大于或等于所述预设阈值,则执行根据所述临近频率对所述汉字库中的各汉字进行合并操作的步骤;若所述频率最大值小于所述预设阈值,则将各所述汉字组形成所述待分词标准词库的标准分词。2.如权利要求1所述的标准词库分词方法,其特征在于,所述根据所述临近频率对所述汉字库中的各汉字进行合并操作,生成汉字组的步骤包括:从所述汉字库中查找所述临近频率最大的两个汉字作为待合并汉字,并对所述待合并汉字进行合并,形成待验证汉字组;将所述待验证汉字组和各所述标准词进行对比,判断所述待验证汉字组是否存在于任意所述标准词中;若所述待验证汉字组存在于任意所述标准词中,则将所述待验证汉字组形成为汉字组。3.如权利要求2所述的标准词库分词方法,其特征在于,所述判断所述待验证汉字组是否存在于任意所述标准词中的步骤之后包括:若所述待验证汉字组不存在于任意所述标准词中,则对所述待验证汉字组中两个待合并汉字的位置顺序进行调换操作,并将经调换操作后的所述待验证汉字组形成汉字组。4.如权利要求2所述的标准词库分词方法,其特征在于,所述对经合并操作后的所述汉字库中各汉字之间的临近频率进行更新操作的步骤包括:读取所述待合并汉字与所述汉字库中除所述待合并汉字之外的其他汉字之间的待更新临近频率,并将所述待更新临近频率配置为所述汉字组与所述其他汉字之间的临近频率;将所述待合并汉字从所述汉字库中删除,并将所述汉字组作为一个汉字存储在所述汉字库中,以对所述汉字库中的汉字以及各汉字之间的临近频率进行更新。5.如权利要求4所述的标准词库分词方法,其特征在于,所述若所述频率最大值大于或等于所述预设阈值,则执行根据所述临近频率对所述汉字库中的各汉字进行合并操作的步骤的步骤包括:若所述频率最大值大于或等于所述预设阈值,则判断所述频率最大值对应的两个汉字之中是否存在任意一个汉字为汉字组;若所述频率最大值对应的两个汉字之中存在任意一个汉字为汉字组,则判断所述汉字组所包含的汉字数量是否达到预设数量;若所述汉字组所包含的汉字数量达到预设数量,则将各所述汉字组形成所述待分词标准词...
【专利技术属性】
技术研发人员:黄越,陈明东,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。