【技术实现步骤摘要】
数据处理方法、装置及电子设备
[0001]本申请涉及数据处理
,尤其涉及一种数据处理方法、装置及电子设备。
技术介绍
[0002]随着社会的发展,多种场景中都需要从文档中获取相应场景下所需要的关键词。例如,从计算机技术文档中提取故障相关的症状关键词。
[0003]目前,多使用通过互联网文档训练的自然语言处理模型进行关键词提取。
[0004]但这种方式提取到的关键词中会掺杂与相应场景无关的词,导致所提取到的关键词准确性较低。
技术实现思路
[0005]有鉴于此,本申请提供一种数据处理方法、装置及电子设备,如下:
[0006]一种数据处理方法,包括:
[0007]获得目标文档,所述目标文档中被标记有多个第一词语;
[0008]根据所述第一词语的词性,在所述多个第一词语中标记多个第二词语,相邻的多个所述第二词语对应的词性组合与预设的词性模式相匹配,所述词性模式由多个词性按照相应的顺序组成;
[0009]获得所述第二词语对应的目标参数,所述目标参数表征所述第二词语 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:获得目标文档,所述目标文档中被标记有多个第一词语;根据所述第一词语的词性,在所述多个第一词语中标记多个第二词语,相邻的多个所述第二词语对应的词性组合与预设的词性模式相匹配,所述词性模式由多个词性按照相应的顺序组成;获得所述第二词语对应的目标参数,所述目标参数表征所述第二词语在所述目标文档中的重要程度;根据所述目标参数,在所述多个第二词语中,获得目标词语。2.根据权利要求1所述的方法,所述词性模式通过以下方式获得:获得预设的第一列表,所述第一列表中包含有多个第一词组,所述第一词组包含多个词语;根据所述第一词组中词语的词性,获得第一组合列表,所述第一组合列表包含多个词性组合,所述词性组合由多个词性按照相应的顺序组成;根据所述第一组合列表中的词性组合,获得词性模式。3.根据权利要求1所述的方法,所述词性模式通过以下方式获得:获得预设的第一列表,所述第一列表中包含有多个第一词组,所述第一词组包含多个词语;根据所述目标文档,获得第二列表,所述第二列表中包含多个第二词组,所述第二词组包含多个词语;在所述多个第二词组中,获得与所述第一词组满足相似条件的目标词组;根据所述目标词组中词语的词性和所述第一词组中词语的词性,获得第二组合列表,所述第二组合列表包含多个词性组合,所述词性组合由多个词性按照相应的顺序组成;根据所述第二组合列表中的词性组合,获得词性模式。4.根据权利要求3所述的方法,在所述多个第二词组中,获得与所述第一词组满足相似条件的目标词组,包括:获得所述第一词组对应的第一向量和所述第二词组对应的第二向量;根据所述第一向量和所述第二向量,获得所述第二词组与所述第一词组之间的相似度;在所述多个第二词组中,获得所述相似度满足相似条件的目标词组。5.根据权利要求1、2或3所述的方法,获得所述第二词语对应的目标参数,包括:针对所述第二词语,获得所述目标文档对应的掩码文档,所述掩码文档中包含所述目标文档中除所述第二词语之外的内容;获得所述目标文档和所述掩码文档之间的相似度;根据所述相似度,获得所述第二词语对应的目标参数。6.根据权利要求5所述的方法,获得所述...
【专利技术属性】
技术研发人员:陈昊,孙瑞琦,白肖艳,孔奥博,李起成,
申请(专利权)人:联想北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。