【技术实现步骤摘要】
数据处理方法、系统、电子设备和计算机可读介质
本公开涉及互联网
,更具体地,涉及一种数据处理方法、系统、电子设备和计算机可读介质。
技术介绍
中文文本由若干个句子组成,句子则由若干个连续的字符组成。词语是最小的组成单位。不像英文句子那样词与词之间有空格隔开,中文句子中的词语是连续的。因此中文自然语言处理的第一个也是最基本的步骤是中文分词。文本分类,文本聚类,话题追踪和舆情分析等自然语言处理方面的研究都需要以准确率较高的分词为基础。新词的出现往往会造成分词错误,研究指出,分词中60%的错误是由新词引起的。新词发现的研究有助于改进中文分词的效果,因此新词发现的研究对其它自然语言处理研究具有十分重要的意义。此外,一些新词代表着一段时间内的热点话题,近几年,互联网就制造了许多根热点事件相关的新词,比如“刘跑跑”,“坑爹”,“手表哥”等。研究新词发现,有助于快速发现互联网上的热点事件。对于研究舆情分析和话题发现与追踪有重要的参考价值的。综上所述,新词发现对于学术研究和工业界产品的研发都有重大意义,而人工发现新词需要花费巨大的人力物力,因此自动新词发现具有重大的研究价值 ...
【技术保护点】
1.一种数据处理方法,包括:读取新闻标题数据;基于所述新闻标题数据,确定候选词集,所述候选词集包括多个候选词;基于历史词典,筛选所述候选词集,获得新词集合,其中,所述历史词典包括在当前时间周期之前的出现的词的集合;以及存储所述新词集合。
【技术特征摘要】
1.一种数据处理方法,包括:读取新闻标题数据;基于所述新闻标题数据,确定候选词集,所述候选词集包括多个候选词;基于历史词典,筛选所述候选词集,获得新词集合,其中,所述历史词典包括在当前时间周期之前的出现的词的集合;以及存储所述新词集合。2.根据权利要求1所述的方法,其中,所述基于所述新闻标题数据,确定候选词集包括:对所述新闻标题数据中的新闻标题进行分词,获得分词结果;以所述分词结果为序列,遍历出词长不超过第一预设值的连续的多个词的组合作为候选词,形成候选词集。3.根据权利要求1所述的方法,还包括:基于所述候选词的内部相关性,筛选所述候选词集,从所述候选词集中去除内部相关性低于第二预设值的词,其中,所述内部相关性包括构成所述候选词的多个词之间的相关性。4.根据权利要求1所述的方法,还包括:基于所述候选词的外部多样性,筛选所述候选词集,从所述候选词集中去除外部多样性低于第三预设值的词,其中,所述外部多样性包括所述候选词与其他词共同出现的概率。5.根据权利要求1所述的方法,还包括:基于候选词的逆文本信息,对所述新词集合中的新词进行排序,获得新词的热度排序。6.根据权利要求1所述的方法,其中,所述历史词典包括在当前时间周期之前的一预设时间范围内出现的词的集合。7.根据权利要求1所述的方法,其中,所述基于历史词典,筛选所述候选词集,获得新词集合包括:基于历史词典中的历史词,以及与所述历史词对应的时间衰减权重,筛选所述候选词集,获得新词集合。8.一种数据处理系统,包括:获取模块,用于读取新闻标题数据;确定模块,用于基于所述新闻标题数据,确定候选词集,所述候选词集包括多个候选词;第一筛选模块,用于基于历史词典,筛选所述候选词集,获得新词集合,其中,所述历...
【专利技术属性】
技术研发人员:王鑫,于洋,温程,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。