分词方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：28839223 阅读：14 留言：0更新日期：2021-06-11 23:37

本申请公开了一种分词方法、装置、电子设备和可读存储介质，该方法包括：接收输入第一字符的第一输入；在第一字符包括目标字符的情况下，对第一分词模型的语义特征维度进行筛选，得到包括第一语义特征维度的第二分词模型；基于第一语义特征维度增加目标字符对应的第二语义特征维度，获得第三分词模型；基于第三分词模型对第一字符分词，由于第三分词模型中语义特征维度包含了目标字符对应的语义特征维度，因此，在对第一字符进行分词时，可以充分考虑到目标字符对分词结果的影响，故得到的分词结果与实际词的偏差减小，提高了分词的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
分词方法、装置、电子设备和可读存储介质
本申请属于分词
，具体涉及一种分词方法、装置、电子设备和可读存储介质。
技术介绍
中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。由于计算机不能识别中文文本的语义，所以必须将文本进行分词。在中文里，“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多。但由于人们认识水平的不同，对词和短语的边界很难去区分，因此，存在部分词并未被收录起来，而上述词在进行分词时会被划分开，最终造成分词后所得到的词与实际词存在偏差，影响分词的准确性。申请内容本申请实施例的目的是提供一种分词方法、装置、电子设备和可读存储介质，能够解决相关技术方案中分词不准确的问题。为了解决上述技术问题，本申请是这样实现的：第一方面，本申请实施例提供了一种分词方法，该方法包括：接收输入第一字符的第一输入；在第一字符包括目标字符的情况下，对第一分词模型的语义特征维度进行筛选，得到包括第一语义特征维度的第二分词模型；基于第一语义特征维度增加目标字符对应的第二语义特征维度，获得第三分词模型；基于第三分词模型对第一字符分词。第二方面，本申请实施例提供了一种分词装置，包括：接收单元，用于接收输入第一字符的第一输入；筛选单元，用于在第一字符包括目标字符的情况下，对第一分词模型的语义特征维度进行筛选，得到包括第一语义特征维度的第二分词模型；确定单元，用于基于第一语义特征维度增加目标字符对应的第二语义特征维度，获得第三分词模型；分词单元...

【技术保护点】
1.一种分词方法，其特征在于，包括：/n接收输入第一字符的第一输入；/n在所述第一字符包括目标字符的情况下，对第一分词模型的语义特征维度进行筛选，得到包括第一语义特征维度的第二分词模型；/n基于所述第一语义特征维度增加所述目标字符对应的第二语义特征维度，获得第三分词模型；/n基于所述第三分词模型对所述第一字符分词。/n

【技术特征摘要】
1.一种分词方法，其特征在于，包括：
接收输入第一字符的第一输入；
在所述第一字符包括目标字符的情况下，对第一分词模型的语义特征维度进行筛选，得到包括第一语义特征维度的第二分词模型；
基于所述第一语义特征维度增加所述目标字符对应的第二语义特征维度，获得第三分词模型；
基于所述第三分词模型对所述第一字符分词。

2.根据权利要求1所述的分词方法，其特征在于，所述对第一分词模型的语义特征维度进行筛选，得到包括第一语义特征维度的第二分词模型，包括：
确定所述第一分词模型中第N个语义特征维度的特征值与第M个语义特征维度的特征值的第一差值，其中N不等于M；
在所述第一差值的绝对值大于或等于第一预设值的情况下，删除所述第N个语义特征维度；
基于删除后的语义特征维度筛选第一语义特征维度，获得包括第一语义特征维度的第二分词模型。

3.根据权利要求1所述的分词方法，其特征在于，所述对第一分词模型的语义特征维度进行筛选，得到包括第一语义特征维度的第二分词模型，包括：
确定所述第一分词模型的语义特征维度的平均特征值；
确定所述平均特征值与所述第一分词模型中每个语义特征维度的特征值的第二差值；
基于所述第二差值筛选得到第一语义特征维度，获得包括第一语义特征维度的第二分词模型。

4.根据权利要求1所述的分词方法，其特征在于，所述对第一分词模型的语义特征维度进行筛选，得到包括第一语义特征维度的第二分词模型，包括：获取所述目标字符对应的第二语义特征维度的平均特征值；
确定所述平均特征值与所述第一分词模型中每个语义特征维度的特征值的第三差值；
基于所述第三差值筛选得到第一语义特征维度，获得包括第一维度的第二分词模型。

5.根据权利要求1至4中任一项所述的分词方法，其特征在于，所述基于所述第三分词模型对所述第一字符分词，具体包括：
基于所述第三分词模型对所述第一字符进行标注；
根据标注结果对所述第一字符进行分词。

6.一种分词装置，其特征在于，包括：
接收单元，用于接收输入第一字符的第一输入；
筛选单元...

【专利技术属性】
技术研发人员：郑国凯，
申请(专利权)人：维沃移动通信有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人