【技术实现步骤摘要】
分词方法及分词装置
本专利技术实施例涉及数据处理
,尤其涉及一种分词方法及分词装置。
技术介绍
现有技术中的分词方法,一般是基于“目标文本的领域是单一且确定的”这个假设确定的,在使用分词方法对目标文本进行分词的过程中,大多是先根据目标文本的单一领域选择对应的分词方法,再根据选择的分词方法对目标文本进行分词,来保证分词的精确性。但是,在实际应用中,目标文本的领域未必是单一的,也未必是确定的,使得现有的分词方法不能准确地输出其对应的分词结果。例如,使用新闻领域的分词方法时,如果在一篇新闻中出现了“吉他全单纯手工”,新闻领域的分词方法对其的分词结果为“吉他/全/单纯/手工”,因为新闻领域中“单纯”的出现频率高于“纯手工”的出现频率,使得分词方法倾向于选择将“单纯”分为一个词,但是“吉他全单纯手工”所属的领域应该是制造业领域,其正确的分词结果为“吉他/全单/纯手工”,即分词方法输出的分词结果错误。
技术实现思路
有鉴于此,本专利技术实施例提供一种分词方法以及分词装置,以解决上述问题。 ...
【技术保护点】
1.一种分词方法,其特征在于,包括:/n确定目标文本的每个字符对应的匹配概率集合,所述匹配概率集合中的匹配概率与隐变量一一对应,所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系,所述隐变量用于标识所述字符在分词结果的位置以及所属的领域;/n根据各个字符对应的所述匹配概率集合,预测各个字符在分词结果中的位置以及所属的领域,以确定所述目标文本的分词结果。/n
【技术特征摘要】
1.一种分词方法,其特征在于,包括:
确定目标文本的每个字符对应的匹配概率集合,所述匹配概率集合中的匹配概率与隐变量一一对应,所述匹配概率用于表征所述字符与对应的隐变量之间的匹配关系,所述隐变量用于标识所述字符在分词结果的位置以及所属的领域;
根据各个字符对应的所述匹配概率集合,预测各个字符在分词结果中的位置以及所属的领域,以确定所述目标文本的分词结果。
2.根据权利要求1所述的方法,其中,若隐变量包括第一元素以及第二元素,所述第一元素用于指示分词结果中字符的位置,所述第二元素用于指示所述字符所属的领域。
3.根据权利要求1所述的方法,其中,确定所述目标文本中的各个字符分别对应的隐变量,其中,每个字符均对应多个隐变量;
计算所述字符与其对应的各个隐变量之间的匹配概率,以根据计算得到的多个匹配概率确定该字符对应的匹配概率集合。
4.根据权利要求3所述的方法,其中,通过标签模型确定所述目标文本中的每个字符与其对应的各个隐变量之间的匹配概率。
5.根据权利要求4所述的方法,其中,所述标签模型为卷积神经网络(CNN)模型或者长短时记忆网络(LSTM)模型。
6.根据权利要求1所述的方法,其中,根据各个字符对应的所述匹配概率集合进行预测,确定所述目标文本对应的预测标签序列,所述预测标签序列由所述隐变量组成,且其中的隐变量与所述目标文本中的字符一一对应;
根据所述预测标签序列确定所述目标文本的分词结果。
7.根据权利要求6所述的方法,其中,若隐变量包括第一元素以及第二元素,所述第一元素用于指示分词结果中字符的位置,所述第二元素用于指示所述字符所属的领域,则根据所述预测标签序列中各个所述隐变量的所述第一元素确定所述目标文本对应的分词结果。
8.根据权利要求6所述的方法,其中,通过序列模型...
【专利技术属性】
技术研发人员:王潇斌,谢朋峻,马春平,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。