【技术实现步骤摘要】
挖掘文本数据的方法、装置、计算机设备和存储介质
本申请涉及计算机
,尤其涉及一种挖掘文本数据的方法、装置、计算机设备和存储介质。
技术介绍
在文学作品、时事报道等等作品对应的文本数据。现有的对作品中存在的道具、人物进行分析,基本都采用基于字典匹配的方法。基于字典匹配的方法时,需要字典中包含全部的字词等,而常规的道具字典和演员字典不能100%的涵盖作品对应的道具元素和人物元素,故在对作品进行数据挖掘时,无法准确的识别出作品中的道具元素和人物元素,从而影响数据挖掘结果,而对文本数据进行人为标注,虽然可以准确的识别文本数据中的道具元素和人物元素,但效率低。
技术实现思路
为了解决上述技术问题,本申请提供了一种挖掘文本数据的方法、装置、计算机设备和存储介质。第一方面,本申请提供了一种挖掘文本数据的方法,包括:获取文本数据,文本数据包括多个候选字符串;根据预设成词函数计算各个候选字符串的分值,得到各个候选字符串的成词分值;从候选字符串中筛选出成词分值大于或等于第一预设阈值的字符 ...
【技术保护点】
1.一种挖掘文本数据的方法,其特征在于,所述方法包括:/n获取文本数据,所述文本数据包括多个候选字符串;/n根据预设成词函数计算各个所述候选字符串的分值,得到各个所述候选字符串的成词分值;/n从所述候选字符串中筛选出所述成词分值大于或等于所述第一预设阈值的字符串作为第一候选字符串;/n从所述第一候选字符串中查找与预设词典中的字符串匹配的字符串作为第一目标字符串,未匹配的字符串作为第二字符串;/n从所述第二字符串中查找出所述成词分值大于第二预设阈值的字符串作为第二目标字符串,所述第一目标字符串和所述第二目标字符串组成目标字符串;/n查找所述目标字符串是否位于预设知识库,所述预 ...
【技术特征摘要】
1.一种挖掘文本数据的方法,其特征在于,所述方法包括:
获取文本数据,所述文本数据包括多个候选字符串;
根据预设成词函数计算各个所述候选字符串的分值,得到各个所述候选字符串的成词分值;
从所述候选字符串中筛选出所述成词分值大于或等于所述第一预设阈值的字符串作为第一候选字符串;
从所述第一候选字符串中查找与预设词典中的字符串匹配的字符串作为第一目标字符串,未匹配的字符串作为第二字符串;
从所述第二字符串中查找出所述成词分值大于第二预设阈值的字符串作为第二目标字符串,所述第一目标字符串和所述第二目标字符串组成目标字符串;
查找所述目标字符串是否位于预设知识库,所述预设知识库中包含字符串和对应的类别;
当所述目标字符串位于预设知识库中,将所述目标字符串在所述预设知识库中的类别作为所述目标字符串的目标类别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述目标字符串不位于所述预设知识库中,且目标字符串包含多个字符时,对所述目标字符串进行分词,得到各个所述目标字符串的多个字符单元;
当所述目标字符串的字符单元中位于预设位置的字符单元的词性为名词,且所述预设位置的字符单元位于所述预设知识库中,将所述预设位置的字符单元,在所述预设知识库中的类别,作为所述目标字符串的目标类别。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述目标字符串不位于所述预设知识库中,且所述目标字符串的最后一个文字为预设道具类文字时,将所述目标字符串的类别设置为道具;
当所述目标字符串不位于所述预设知识库中,目标字符串包含多个字符,且所述目标字符串的最后一个文字不为预设道具类文字时,执行所述对所述目标字符串进行分词,得到各个所述目标字符串的多个字符单元。
4.根据权利要求1所述的方法,其特征在于,所述目标类别包括道具和演员角色,所述当所述目标字符串位于预设知识库中,将所述目标字符串在所述预设知识库中的类别作为所述目标字符串的目标类别,包括:
当所述目标字符串对应的类别为第一预设类别时,将所述目标字符串的类别设置为道具;
当所述目标字符串对应的类别为演员角色时,将所述目标字符串的类别设置为演员角色。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述候选字符串包括单个文字组成的字符串和多个字符单元组成的字符串,所述根据预设成词函数计算各个所述候选字符串的分值,得到各个所述候选字符串的成词分值,包括:
当所述候选字符串为单个文字组成的字符串时,获取预设值作为所述候选字符串的成词分值;
当所述候选字符串为多个字符单元组成的字符串,采用所述预设成词函数计算所述候选字符串的成词分值,得到第二分值,所述预设成...
【专利技术属性】
技术研发人员:王文超,阳任科,郏昕,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。