一种文本信息处理方法、装置和系统制造方法及图纸

技术编号:16079879 阅读:32 留言:0更新日期:2017-08-25 15:26
本发明专利技术实施例公开了一种文本信息处理方法、装置和系统;本实施例采用将训练语料划分为单字,以及字串,并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;该方案不仅可以简化流程,节省计算资源,而且,可以提高新词发现率,改善处理效果。

【技术实现步骤摘要】
一种文本信息处理方法、装置和系统
本专利技术涉及通信
,具体涉及一种文本信息处理方法、装置和系统。
技术介绍
随着科学技术的不断发展,用户产生的文本语料也呈现指数级增长,不断发生的新事物催生很多新词语,如“非典”等。新词语的出现常常令一些文本处理模型,如分词,变得不知所措,而分词是中文自然语言处理中最基础的一个环节,不理想的分词结果势必影响诸如文本分类、聚类以及主题识别等常见的文本处理任务,因此对新词的自动发现显得非常必要。现有的新词发现方法一般可分为基于统计和基于规则两种方法。其中,基于统计的方法常见有隐马尔可夫模型、最大熵、以及支持向量机等,这些统计信息常常用于生成分词模型;而基于规则方法则是从模板特征库和已标注上下文搭配特征的训练集中学习一些规则,进而再把学习得到的规则用于待发现新词语料,常见的一些规则如词语构造规则等。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,现有方案都需要对文本语料进行分词,而这种基于分词的新词发现方案,需要不断将训练语料和待发现新词语料组合,重新生成分词模型训练语料,不断滚动的去发现新词,流程复杂,需要耗费较多计算资源;而且,由于新词没有明确定义,因此,其边界也较难确定,用常规的词典和规则对其进行过滤,也往往达不到良好效果,新词发现率较低。
技术实现思路
本专利技术实施例提供一种文本信息处理方法、装置和系统,不仅可以简化流程,节省计算资源,而且,可以提高新词发现率,改善处理效果。本专利技术实施例提供一种文本信息处理方法,包括:获取文本信息,并根据所述文本信息确定训练语料;将所述训练语料划分为单字,以及字串;分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据所述独立概率和联合概率选择候选新词,得到候选新词集合;确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。相应的,本专利技术实施例还提供一种文本信息的处理装置,包括:获取单元,用于获取文本信息,并根据所述文本信息确定训练语料;划分单元,用于将所述训练语料划分为单字,以及字串;统计单元,用于分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;选择单元,用于根据所述独立概率和联合概率选择候选新词,得到候选新词集合;确定单元,用于确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。此外,本专利技术实施例还提供一种文本信息的处理系统,包括本专利技术实施例提供的任一种文本信息的处理装置。本专利技术实施例采用将训练语料划分为单字,以及字串,并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;由于该方案无需进行分词,也无需不断更新分词模型,因此,可以大大简化流程,以及节省计算资源,而且,由于无需进行分词界限的划定,因此,也可以避免现有技术中由于新词界限模糊所导致的新词无法被发现的情况的发生,可以大大提高新词发现率,改善处理效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本专利技术实施例提供的文本信息处理系统的场景示意图;图1b是本专利技术实施例提供的文本信息处理方法的流程图;图2是本专利技术实施例提供的文本信息处理方法的另一流程图;图3a是本专利技术实施例提供的文本信息处理装置的结构示意图;图3b是本专利技术实施例提供的文本信息处理装置的另一结构示意图;图4是本专利技术实施例提供的服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种文本信息处理方法、装置和系统。该文本信息处理系统可以包括本专利技术实施例所提供的任一种文本信息处理装置,该文本信息处理装置具体可以集成在服务器中,如图1a所示,该服务器可以获取文本信息,比如,可以从网络中获取新闻、影视剧信息、用户生成内容(UGC,UserGeneratedContent),比如用户发表的文章、微博和/或博客等文本信息,并根据该文本信息确定训练语料,然后,将该训练语料划分为单字,以及字串,分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,再然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,将该候选新词集合中的候选新词与预设常用词典进行匹配,若该候选新词不在预设常用词典中,且联合概率大于预设阈值,则确定该候选新词为新词,从而达到发现新词的目的。以下分别进行详细说明。实施例一、本实施例将从文本信息处理装置的角度进行描述,该文本信息处理装置具体可以集成在服务器等网络设备中。一种文本信息处理方法,包括:获取文本信息,并根据该文本信息确定训练语料;将该训练语料划分为单字,以及字串;分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据该独立概率和联合概率选择候选新词,得到候选新词集合;确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。如图1b所示,该文本信息处理方法的具体流程可以如下:101、获取文本信息,并根据该文本信息确定训练语料。其中,该文本信息可以是网络中各种文本信息,比如新闻、影视剧信息、以及用户生成内容(UGC,UserGeneratedContent)等,其中,该UGC可以包括用户发表的心情、说说、评论、文章、微博和/或博客等文本信息。在获取到文本信息后,可以将获取到的所有文本信息作为训练语料,也可以选取该文本信息中一部分作为训练语料,比如,可以按照预设策略对该文本信息进行筛选,以去除一些无用的信息,比如表情符号等,然后,将筛选后的文本信息作为训练语料,等等。102、将该训练语料划分为单字,以及字串。其中,字串指的是两个以上的连续单字,比如,一般可以是二、三或四个连续单字,具体数量可以根据实际应用场景而定。需说明的是,本专利技术实施例所说的单字,可以包括汉字或日语等文字,为了描述方便,本专利技术实施例均以汉字为例进行说明。103、分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率。例如,具体可以如下:(1)分别统计单字在训练语料中出现的次数、字串在训练语料中出现的次数,以及该训练语料的总字数。(2)根据该单字在训练语料中出现的次数和该训练语料的总字数计算单字的概率,得到单字的独立概率。比如,可以用该单字在训练语料中出现的次数除以该训练语料的总字数,即可得到该单字的独立概率,用公式表示即为:其中,p(Wk)为单字本文档来自技高网...
一种文本信息处理方法、装置和系统

【技术保护点】
一种文本信息处理方法,其特征在于,包括:获取文本信息,并根据所述文本信息确定训练语料;将所述训练语料划分为单字,以及字串;分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据所述独立概率和联合概率选择候选新词,得到候选新词集合;确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。

【技术特征摘要】
1.一种文本信息处理方法,其特征在于,包括:获取文本信息,并根据所述文本信息确定训练语料;将所述训练语料划分为单字,以及字串;分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据所述独立概率和联合概率选择候选新词,得到候选新词集合;确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。2.根据权利要求1所述的方法,其特征在于,所述分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,包括:分别统计所述单字在训练语料中出现的次数、所述字串在训练语料中出现的次数,以及所述训练语料的总字数;根据所述单字在训练语料中出现的次数和总字数计算单字的概率,得到单字的独立概率;根据所述字串在训练语料中出现的次数和总字数计算字串的概率,得到字串所对应的联合概率。3.根据权利要求1所述的方法,其特征在于,所述根据所述独立概率和联合概率选择候选新词,得到候选新词集合,包括:确定当前需要处理的字串,得到当前字串;获取所述当前字串所对应的联合概率,以及所述当前字串中所有单字的独立概率;确定所述当前字串所对应的联合概率大于所述当前字串中所有单字的独立概率的乘积时,将所述当前字串确定为候选新词;将所述候选新词添加至候选新词集合中。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述独立概率和联合概率选择候选新词,得到候选新词集合之后,还包括:根据艾宾浩斯记忆规律对所述候选新词集合中候选新词岁对应的联合概率进行实时更新,得到更新后联合概率;所述确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词,具体为:确定所述候选新词集合中的候选新词不在预设常用词典中,且更新后的联合概率大于预设阈值时,确定所述候选新词为新词。5.根据权利要求4所述的方法,其特征在于,所述根据艾宾浩斯记忆规律对所述候选新词集合中候选新词对应的联合概率进行实时更新,得到更新后联合概率,包括:从所述候选新词集合中确定当前需要处理的候选新词;估算从所述训练语料的训练开始位置到所述当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间;估算从所述当前需要处理的候选新词的位置到所述训练语料的训练结束位置所需要的阅读时间,得到后置时间;根据所述前向时间和后置时间,利用预置的指数衰减式函数对所述当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率,所述指数衰减式函数根据艾宾浩斯记忆规律进行构造;返回执行从所述候选新词集合中确定当前需要处理的候选新词的步骤,直至所述候选新词集合中所有的候选新词的联合概率更新完毕。6.根据权利要求5所述的方法,其特征在于,所述估算从所述训练语料的训练开始位置到所述当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间,包括:确定所述训练语料的训练开始位置,以及确定所述当前需要处理的候选新词在所述训练语料中的顺序位置;计算所述训练开始位置到所述顺序位置的距离,得到第一距离;将所述第一距离除以预设阅读速度,得到前向时间。7.根据权利要求5所述的方法,其特征在于,所述估算从所述当前需要处理的候选新词的位置到所述训练语料的训练结束位置所需要的阅读时间,得到后置时间,包括:确定所述训练语料的训练结束位置,...

【专利技术属性】
技术研发人员:林全郴刘黎春赵建春
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1