文本分词方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:33705953 阅读:20 留言:0更新日期:2022-06-06 08:28
本申请实施例提供一种文本分词方法、装置、计算机设备及计算机可读存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;本申请实施例可以获取待分词文本;根据待分词文本,确定待分词文本的标注信息;根据标注信息,从针对待分词文本的至少一个分词标准类型中提取标注信息对应的目标分词标准类型;根据目标分词标准类型,对待分词文本进行分词;由于本申请实施例能够根据待分词文本的标注信息,从待分词文本的分词标准类型中筛选出目标分词标准类型,如此可以根据目分词标准类型,准确地对待分词文本进行分词,从而提高分词的准确性。分词的准确性。分词的准确性。

【技术实现步骤摘要】
文本分词方法、装置、计算机设备及计算机可读存储介质


[0001]本申请涉及人工智能
,具体涉及一种文本分词方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]中文分词是自然语言处理中的一项基础技术,其对于理解句子有着重要的作用。中文句子不像英文句子中间有空格,而且中文本身语言表达比较丰富,比如,中文存在大量一词多义的词汇,需要结合上下文才能理解词汇本身的含义,这对中文分词带来了挑战。
[0003]目前,中文分词模型在训练过程中,中文分词模型所采用的训练数据集存在一些问题,例如,训练数据集来源的领域较为单一,比如,训练数据集均来源于新闻领域,这样会导致中文分词模型存在无法准确对非新闻领域的训练数据进行分词的问题;例如,训练数据集中的训练数据数量较少,这样会导致对中文分词模型会存在准确性不高的问题;又例如,不同的训练数据集之间的分词标准不相同,比如,对于中文名字的分词,有些训练数据集的分词标准是将姓氏和名字分别作为分词单位进行分词,有些训练数据集的分词标准是姓氏和名字作为整体进行分词,也即由于分词标准不统一,也会存在中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分词方法,其特征在于,包括:获取待分词文本;根据所述待分词文本,确定所述待分词文本的标注信息;根据所述标注信息,从针对所述待分词文本的至少一个分词标准类型中提取所述标注信息对应的目标分词标准类型;根据所述目标分词标准类型,对所述待分词文本进行分词。2.根据权利要求1所述的文本分词方法,其特征在于,所述根据所述目标分词标准类型,对所述待分词文本进行分词,包括:根据所述目标分词标准类型,采用文本分词模型对所述待分词文本进行特征提取和分词处理,其中,所述分词处理根据所述文本分词模型对所述待分词文本特征提取得到的特征信息进行。3.根据权利要求2所述的文本分词方法,其特征在于,所述根据所述目标分词标准类型,采用文本分词模型对所述待分词文本进行特征提取之前,所述方法还包括:获取文本数据样本集合,所述文本数据样本集合包括每一分词标准类型对应的文本数据样本,以及每一所述文本数据样本对应的标签分词信息;针对每一分词标准类型,采用待训练文本分词模型预测所述文本数据样本的预测分词信息;根据所述预测分词信息和所述标签分词信息对所述待训练文本分词模型进行收敛,得到文本分词模型。4.根据权利要求3所述的文本分词方法,其特征在于,所述获取文本数据样本集合,包括:获取候选文本数据样本集合,所述候选文本数据样本集合包括至少一个候选文本数据样本;根据所述候选文本数据样本,确定参考文本数据样本;对所述参考文本数据样本进行标记,得到每一分词标准类型对应的文本数据样本;获取每一分词标准类型的文本数据样本对应的标签分词信息;根据所述每一分词标准类型对应的文本数据样本,以及所述文本数据样本对应的标签分词信息,生成文本数据样本集合。5.根据权利要求4所述的文本分词方法,其特征在于,所述根据所述候选文本数据样本,确定参考文本数据样本,包括:对所述候选文本数据样本进行分词处理,得到候选文本数据样本对应的分词结果;根据所述分词结果,从所述至少一个候选文本数据样本中,筛选出参考文本数据样本。6.根据权利要求5所述的文本分词方法,其特征在于,所述对所述候选文本数据样本进行分词处理,得到候选文本数据样本对应的分词结果,包括:获取至少两个预设分词策略;根据所述预设分词策略,对所述候选文本数据样本进行分词处理,得到每一预设分词策略对应的分词结果。7.根据权利要求5所述的文本分词方法,其特征在于,所述根据所述分词结果,从所述至少一个候选文本数据样本中,筛选出参考文本数据样本,包括:
针对每一候选文本数据样本,获取所述候选文本数据样本的分词结果中不同的分词结果的数量;若所述不同的分词结果的数量大于或等于预设数量阈值,则将所述候选文本数据样本作为所述参考文本数据样本。8.根据权利要求3所述的文本分词方法,其特征在于,所述针...

【专利技术属性】
技术研发人员:蒋恩奕张海松
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1