【技术实现步骤摘要】
一种文本信息处理方法、装置和系统
本专利技术涉及通信
,具体涉及一种文本信息处理方法、装置和系统。
技术介绍
随着科学技术的不断发展,用户产生的文本语料也呈现指数级增长,不断发生的新事物催生很多新词语,如“非典”等。新词语的出现常常令一些文本处理模型,如分词,变得不知所措,而分词是中文自然语言处理中最基础的一个环节,不理想的分词结果势必影响诸如文本分类、聚类以及主题识别等常见的文本处理任务,因此对新词的自动发现显得非常必要。现有的新词发现方法一般可分为基于统计和基于规则两种方法。其中,基于统计的方法常见有隐马尔可夫模型、最大熵、以及支持向量机等,这些统计信息常常用于生成分词模型;而基于规则方法则是从模板特征库和已标注上下文搭配特征的训练集中学习一些规则,进而再把学习得到的规则用于待发现新词语料,常见的一些规则如词语构造规则等。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,现有方案都需要对文本语料进行分词,而这种基于分词的新词发现方案,需要不断将训练语料和待发现新词语料组合,重新生成分词模型训练语料,不断滚动的去发现新词,流程复杂,需要耗费较多计算资源;而且,由于新词没有明确定义,因此,其边界也较难确定,用常规的词典和规则对其进行过滤,也往往达不到良好效果,新词发现率较低。
技术实现思路
本专利技术实施例提供一种文本信息处理方法、装置和系统,不仅可以简化流程,节省计算资源,而且,可以提高新词发现率,改善处理效果。本专利技术实施例提供一种文本信息处理方法,包括:获取文本信息,并根据所述文本信息确定训练语料;将所述训练语料划分为单字,以及字串;分 ...
【技术保护点】
一种文本信息处理方法,其特征在于,包括:获取文本信息,并根据所述文本信息确定训练语料;将所述训练语料划分为单字,以及字串;分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据所述独立概率和联合概率选择候选新词,得到候选新词集合;确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。
【技术特征摘要】
1.一种文本信息处理方法,其特征在于,包括:获取文本信息,并根据所述文本信息确定训练语料;将所述训练语料划分为单字,以及字串;分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据所述独立概率和联合概率选择候选新词,得到候选新词集合;确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。2.根据权利要求1所述的方法,其特征在于,所述分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,包括:分别统计所述单字在训练语料中出现的次数、所述字串在训练语料中出现的次数,以及所述训练语料的总字数;根据所述单字在训练语料中出现的次数和总字数计算单字的概率,得到单字的独立概率;根据所述字串在训练语料中出现的次数和总字数计算字串的概率,得到字串所对应的联合概率。3.根据权利要求1所述的方法,其特征在于,所述根据所述独立概率和联合概率选择候选新词,得到候选新词集合,包括:确定当前需要处理的字串,得到当前字串;获取所述当前字串所对应的联合概率,以及所述当前字串中所有单字的独立概率;确定所述当前字串所对应的联合概率大于所述当前字串中所有单字的独立概率的乘积时,将所述当前字串确定为候选新词;将所述候选新词添加至候选新词集合中。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述独立概率和联合概率选择候选新词,得到候选新词集合之后,还包括:根据艾宾浩斯记忆规律对所述候选新词集合中候选新词岁对应的联合概率进行实时更新,得到更新后联合概率;所述确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词,具体为:确定所述候选新词集合中的候选新词不在预设常用词典中,且更新后的联合概率大于预设阈值时,确定所述候选新词为新词。5.根据权利要求4所述的方法,其特征在于,所述根据艾宾浩斯记忆规律对所述候选新词集合中候选新词对应的联合概率进行实时更新,得到更新后联合概率,包括:从所述候选新词集合中确定当前需要处理的候选新词;估算从所述训练语料的训练开始位置到所述当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间;估算从所述当前需要处理的候选新词的位置到所述训练语料的训练结束位置所需要的阅读时间,得到后置时间;根据所述前向时间和后置时间,利用预置的指数衰减式函数对所述当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率,所述指数衰减式函数根据艾宾浩斯记忆规律进行构造;返回执行从所述候选新词集合中确定当前需要处理的候选新词的步骤,直至所述候选新词集合中所有的候选新词的联合概率更新完毕。6.根据权利要求5所述的方法,其特征在于,所述估算从所述训练语料的训练开始位置到所述当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间,包括:确定所述训练语料的训练开始位置,以及确定所述当前需要处理的候选新词在所述训练语料中的顺序位置;计算所述训练开始位置到所述顺序位置的距离,得到第一距离;将所述第一距离除以预设阅读速度,得到前向时间。7.根据权利要求5所述的方法,其特征在于,所述估算从所述当前需要处理的候选新词的位置到所述训练语料的训练结束位置所需要的阅读时间,得到后置时间,包括:确定所述训练语料的训练结束位置,...
【专利技术属性】
技术研发人员:林全郴,刘黎春,赵建春,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。