分词方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:28839223 阅读:14 留言:0更新日期:2021-06-11 23:37
本申请公开了一种分词方法、装置、电子设备和可读存储介质,该方法包括:接收输入第一字符的第一输入;在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型;基于第三分词模型对第一字符分词,由于第三分词模型中语义特征维度包含了目标字符对应的语义特征维度,因此,在对第一字符进行分词时,可以充分考虑到目标字符对分词结果的影响,故得到的分词结果与实际词的偏差减小,提高了分词的准确性。

【技术实现步骤摘要】
分词方法、装置、电子设备和可读存储介质
本申请属于分词
,具体涉及一种分词方法、装置、电子设备和可读存储介质。
技术介绍
中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。由于计算机不能识别中文文本的语义,所以必须将文本进行分词。在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多。但由于人们认识水平的不同,对词和短语的边界很难去区分,因此,存在部分词并未被收录起来,而上述词在进行分词时会被划分开,最终造成分词后所得到的词与实际词存在偏差,影响分词的准确性。申请内容本申请实施例的目的是提供一种分词方法、装置、电子设备和可读存储介质,能够解决相关技术方案中分词不准确的问题。为了解决上述技术问题,本申请是这样实现的:第一方面,本申请实施例提供了一种分词方法,该方法包括:接收输入第一字符的第一输入;在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型;基于第三分词模型对第一字符分词。第二方面,本申请实施例提供了一种分词装置,包括:接收单元,用于接收输入第一字符的第一输入;筛选单元,用于在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;确定单元,用于基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型;分词单元,用于基于第三分词模型对第一字符分词。第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的分词方法的步骤。第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面的分词方法的步骤。第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面中的分词方法的步骤。在本申请实施例中,在接收到输入第一字符的第一输入时,首先判断第一字符是否包含目标字符,若包含目标字符,则对第一分词模型中的语义特征维度进行筛选,以得到第二分词模型,其中,第二分词模型中所包含的第一语义特征维度的数量小于第一分词模型中的语义特征维度的数量,因此,在后期确定的第三分词模型对第一字符进行分词时,可以减少计算语义特征维度时所需要处理的数据量,通过在第一语义特征维度的基础上增加目标字符对应的第二语义特征维度,进而得到第三分词模型,并使用第三分词模型对第一字符进行分词。由于第三分词模型中语义特征维度包含了目标字符对应的语义特征维度,因此,在对第一字符进行分词时,可以充分考虑到目标字符对分词结果的影响,故得到的分词结果与实际词的偏差减小,提高了分词的准确性。附图说明图1为实现本申请实施例的分词方法的流程示意图之一;图2为实现本申请实施例的基于第三分词模型对第一字符分词的流程示意图;图3为实现本申请实施例的分词方法的流程示意图之二;图4为实现本申请实施例中对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型在实际应用过程中的流程示意图;图5为实现本申请实施例的分词方法的流程示意图之三;图6为实现本申请实施例的分词方法的流程示意图之四;图7为实现本申请实施例的分词方法的流程示意图之五;图8为实现本申请实施例的数据处理示意图;图9为实现本申请实施例的分词装置的示意框图;图10为实现本申请实施例的一种电子设备的硬件结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的分词方法、装置、电子设备和可读存储介质进行详细地说明。在本申请的一个实施例中,如图1所示,提出了一种分词方法,该方法包括:步骤102,接收输入第一字符的第一输入。在本申请的一个实施例中,输入第一字符的第一输入可以是对拍摄得到的图像进行文字识别得到第一字符,其中,文字识别的方式可以是基于OCR文字识别原理进行识别。在本申请的一个实施例中,输入第一字符的第一输入可以是直接输入第一字符,如通过键盘、触控屏等输入设备进行输入第一字符。步骤104,在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型。在步骤104中,第一分词模型可以是基于BERT模型的分词模型,其中,BERT(BidirectionalEncoderRepresentationsfromTransformers,一种新型的语言模型),通常情况下,BERT模型中表征每一字符采用768个维度,就如上述所记载的,若直接在768个维度的基础上增加目标字符的第二语义特征维度,则对第一字符进行分词时,所需要处理的数据量过大,基于此,本申请实施例中对第一分词模型中的维度进行筛选,以丢弃一些无用的冗余的信息,进而得到关注字符与字符之间连续性的维度信息,最终得到第二分词模型。步骤106,基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型。在步骤106中,通过在第一语义特征维度的基础上增加目标字符对应的第二语义特征维度,以获取第三分词模型,其中,增加目标字符对应的第二语义特征维度的形式可以是在第一语义特征维度的末尾直接增加目标字符对应的第二语义特征维度。步骤108,基于第三分词模型对第一字符分词。在本申请实施例中,由于第三分词模型中语义特征维度包含了目标字符对应的语义特征维度,因此,在对第一字符进行分词时,可以充分考虑到目标字符对分词结果的影响,故得到的分词结果与实际词的偏差较小,提高了分词的准确性。具体地,如图2所示,基于第三分词模型对第一字符分词,具体包括:步骤202,基于第三分词模型对第一字符进行标注;步骤204,根据标注结果对第一字符进行分词。在其中一个实施例中,使用CRF判别模型对第一字符进行标注,以得到第一字符与至少一个标签对应的概率值,并根据至少一个标签对本文档来自技高网...

【技术保护点】
1.一种分词方法,其特征在于,包括:/n接收输入第一字符的第一输入;/n在所述第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;/n基于所述第一语义特征维度增加所述目标字符对应的第二语义特征维度,获得第三分词模型;/n基于所述第三分词模型对所述第一字符分词。/n

【技术特征摘要】
1.一种分词方法,其特征在于,包括:
接收输入第一字符的第一输入;
在所述第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;
基于所述第一语义特征维度增加所述目标字符对应的第二语义特征维度,获得第三分词模型;
基于所述第三分词模型对所述第一字符分词。


2.根据权利要求1所述的分词方法,其特征在于,所述对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型,包括:
确定所述第一分词模型中第N个语义特征维度的特征值与第M个语义特征维度的特征值的第一差值,其中N不等于M;
在所述第一差值的绝对值大于或等于第一预设值的情况下,删除所述第N个语义特征维度;
基于删除后的语义特征维度筛选第一语义特征维度,获得包括第一语义特征维度的第二分词模型。


3.根据权利要求1所述的分词方法,其特征在于,所述对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型,包括:
确定所述第一分词模型的语义特征维度的平均特征值;
确定所述平均特征值与所述第一分词模型中每个语义特征维度的特征值的第二差值;
基于所述第二差值筛选得到第一语义特征维度,获得包括第一语义特征维度的第二分词模型。


4.根据权利要求1所述的分词方法,其特征在于,所述对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型,包括:获取所述目标字符对应的第二语义特征维度的平均特征值;
确定所述平均特征值与所述第一分词模型中每个语义特征维度的特征值的第三差值;
基于所述第三差值筛选得到第一语义特征维度,获得包括第一维度的第二分词模型。


5.根据权利要求1至4中任一项所述的分词方法,其特征在于,所述基于所述第三分词模型对所述第一字符分词,具体包括:
基于所述第三分词模型对所述第一字符进行标注;
根据标注结果对所述第一字符进行分词。


6.一种分词装置,其特征在于,包括:
接收单元,用于接收输入第一字符的第一输入;
筛选单元...

【专利技术属性】
技术研发人员:郑国凯
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1