一种文本信息处理方法及装置制造方法及图纸

技术编号:13569620 阅读:51 留言:0更新日期:2016-08-21 12:00
本发明专利技术公开了一种文本信息处理装置,所述装置包括:获取单元,用于获取待分析文本;预处理单元,用于对所述待分析文本进行预处理;确定单元,用于确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;构建单元,用于根据每个词的权重信息构建所述待分析文本的词汇链。本发明专利技术还同时公开了一种文本信息处理方法。采用本发明专利技术的技术方案,能在对文本进行分析处理时放宽对文本的要求,提高处理速度。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,尤其涉及一种文本信息处理方法及装置
技术介绍
词汇链目前主要应用于自然语言处理。最初引进词汇链的目的是用于文本分割,即分析文本的结构。其基本想法是:词汇链是一系列相关的词所组成的,这些词表达的是同一件事情或意思,找到这些词汇链就得到了文本的结构。后来,这一基本想法在很多方面得到了应用,比如文本检索、信息抽取、检查文本的用词不当等。但是,尚未看到基于词汇链对应用服务器记录的用户行为日志进行统计分析的研究报告。对用户行为进行统计分析需要依赖于日志格式的规范化。比如目前国内最大的移动应用统计分析平台——友盟,它需要在用户的客户端进行埋点,调用软件开发工具包(SDK,Software Development Kit)上传友盟特定格式的数据。对于不规范的或者不符合友盟规范的历史日志,要使用同一套分析系统,就必须先对杂乱的数据进行清理转化,才能进行分析处理,这部分工作量相当大;而且,日志格式一般是英文字段,对于中文字段的日志也无法处理。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种文本信息处理方法及装置,在对文本进行分析处理时放宽了对文本的要求,提高了处理速度。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术提供了一种文本信息处理装置,所述装置包括:获取单元,用于获取待分析文本;预处理单元,用于对所述待分析文本进行预处理;确定单元,用于确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;构建单元,用于根据每个词的权重信息构建所述待分析文本的词汇链。上述方案中,优选地,所述装置还包括:分析单元,用于:确定所述待分析文本中各个词汇链的权重;对所述各个词汇链的权重进行排序;对排名满足第一预设条件的词汇链进行分析;基于分析结果统计所述待分析文本所表征的用户行为信息。上述方案中,优选地,所述预处理单元,还用于:判断所述待分析文本是否为用中文表示的待分析文本;如果是,先进行词语切分,然后对切分后的词进行词性标注;如果否,直接进行词性标注;过滤掉经过词性标注后的待分析文本中的第一类词,以使所述待分析文本中的文本内容仅保留第二类词。上述方案中,优选地,所述确定单元,还用于:读取所述经预处理后的待分析文本中的每个词;分析每个词的词性,为不同词性的词赋予不同的权重系数;根据每个词是否符合第二预设条件为其赋予附加权重系数;基于词性对应的权重系数、以及附加权重系数计算每个词的权重;分析每个词的信息熵,为不同信息熵的词赋予不同的权重系数;基于词性对应的权重系数、附加权重系数以及信息熵对应的权重系数计算每个词在所述待分析文本中的权重。上述方案中,优选地,所述构建单元,还用于:预先确定至少一个词汇链的中心词;接收当前输入的所述待分析文本中的带有权重信息的词;按照预设规则对当前输入的带有权重信息的词进行判断处理;处理完毕后继续接收下一个带有权重信息的词,直至处理完所述待分析文本中的最后一个词;其中,所述预设规则,包括:判断当前输入的带有权重信息的词是否与已存在的词汇链的中心词有关联;如果有关联,计算所述当前输入的带有权重信息的词与已存在的词汇链的中心词的关联度,并将所述当前输入的带有权重信息的词插入到与其关联度最大的词汇链中;同时,判断所述当前输入的带有权重信息的词在所述待分析文本中的权重是否大于其所插入的词汇链的中心词在所述待分析文本中的权重,如果是,将所述当前输入的带有权重信息的词确定为其所插入的词汇链的中心词,并对所插入的词汇链中的各个词的权重进行排序,从所插入的词汇链中剔除满足第三预设条件的词;如果没有关联,新建一条词汇链,并将所述当前输入的带有权重信息的词作为新建词汇链的中心词。本专利技术还提供了一种文本信息处理方法,所述方法包括:获取待分析文本;对所述待分析文本进行预处理;确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;根据每个词的权重信息构建所述待分析文本的词汇链。上述方案中,优选地,所述方法还包括:确定所述待分析文本中各个词汇链的权重;对所述各个词汇链的权重进行排序;对排名满足第一预设条件的词汇链进行分析;基于分析结果统计所述待分析文本所表征的用户行为信息。上述方案中,优选地,所述对所述待分析文本进行预处理,包括:判断所述待分析文本是否为用中文表示的待分析文本;如果是,先进行词语切分,然后对切分后的词进行词性标注;如果否,直接进行词性标注;过滤掉经过词性标注后的待分析文本中的第一类词,以使所述待分析文本中的文本内容仅保留第二类词。上述方案中,优选地,所述确定经预处理后的待分析文本中每个词的权重信息,包括:读取所述经预处理后的待分析文本中的每个词;分析每个词的词性,为不同词性的词赋予不同的权重系数;根据每个词是否符合第二预设条件为其赋予附加权重系数;基于词性对应的权重系数、以及附加权重系数计算每个词的权重;分析每个词的信息熵,为不同信息熵的词赋予不同的权重系数;基于词性对应的权重系数、附加权重系数以及信息熵对应的权重系数计算每个词在所述待分析文本中的权重。上述方案中,优选地,所述根据每个词的权重信息构建所述待分析文本的词汇链,包括:预先确定至少一个词汇链的中心词;接收当前输入的所述待分析文本中的带有权重信息的词;按照预设规则对当前输入的带有权重信息的词进行判断处理;处理完毕后继续接收下一个带有权重信息的词,直至处理完所述待分析文本中的最后一个词;其中,所述预设规则,包括:判断当前输入的带有权重信息的词是否与已存在的词汇链的中心词有关联;如果有关联,计算所述当前输入的带有权重信息的词与已存在的词汇链的中心词的关联度,并将所述当前输入的带有权重信息的词插入到与其关联度最大的词汇链中;同时,判断所述当前输入的带有权重信息的词在所述待分析文本中的权重是否大于其所插入的词汇链的中心词在所述待分析文本中的权重,如果是,将所述当前输入的带有权重信息的词确定为其所插入的词汇链的中心词,并对所插入的词汇链中的各个词的权重进行排序,从所插入的词汇链中剔除满足第三预设条件的词;如果没有关联,新建一条词汇链,并将所述当前输入的带有权重信息的词作为新建词汇链的中心词。本专利技术所提供的实施例的技术方案中,获取待分析文本;对所述待分析文本进行预处理;确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;根据每个词的权重信息构建所述待分析文本的词汇链。通过对本专利技术实施例技术方案的实施,在对文本进行分析处理时放宽了对文本的要求,提高了处理速度。附图说明图1为实现本专利技术各个实施例的移动终端的硬件结构示意图;图2为如图1所示的移动终端的无线通信系统示意图;图3为本专利技术实施例提供的文本信息处理方法的流程示意图;图4为本专利技术实施例提供的计算词的权重的实现流程示意图;图5为本专利技术实施例提供的词汇链生成流程示意图;图6为本专利技术实施例提供的文本信息处理装置的组成结构示意图。具体实施方式现在将参考附图描述实现本专利技术各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术实施例本文档来自技高网...

【技术保护点】
一种文本信息处理装置,其特征在于,所述装置包括:获取单元,用于获取待分析文本;预处理单元,用于对所述待分析文本进行预处理;确定单元,用于确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;构建单元,用于根据每个词的权重信息构建所述待分析文本的词汇链。

【技术特征摘要】
1.一种文本信息处理装置,其特征在于,所述装置包括:获取单元,用于获取待分析文本;预处理单元,用于对所述待分析文本进行预处理;确定单元,用于确定经预处理后的待分析文本中每个词的权重信息;其中,所述权重信息包括所述词的权重以及所述词在所述待分析文本中的权重;构建单元,用于根据每个词的权重信息构建所述待分析文本的词汇链。2.根据权利要求1所述的装置,其特征在于,所述装置还包括:分析单元,用于:确定所述待分析文本中各个词汇链的权重;对所述各个词汇链的权重进行排序;对排名满足第一预设条件的词汇链进行分析;基于分析结果统计所述待分析文本所表征的用户行为信息。3.根据权利要求1所述的装置,其特征在于,所述预处理单元,还用于:判断所述待分析文本是否为用中文表示的待分析文本;如果是,先进行词语切分,然后对切分后的词进行词性标注;如果否,直接进行词性标注;过滤掉经过词性标注后的待分析文本中的第一类词,以使所述待分析文本中的文本内容仅保留第二类词。4.根据权利要求1所述的装置,其特征在于,所述确定单元,还用于:读取所述经预处理后的待分析文本中的每个词;分析每个词的词性,为不同词性的词赋予不同的权重系数;根据每个词是否符合第二预设条件为其赋予附加权重系数;基于词性对应的权重系数、以及附加权重系数计算每个词的权重;分析每个词的信息熵,为不同信息熵的词赋予不同的权重系数;基于词性对应的权重系数、附加权重系数以及信息熵对应的权重系数计算每个词在所述待分析文本中的权重。5.根据权利要求1所述的装置,其特征在于,所述构建单元,还用于:预先确定至少一个词汇链的中心词;接收当前输入的所述待分析文本中的带有权重信息的词;按照预设规则对当前输入的带有权重信息的词进行判断处理;处理完毕后继续接收下一个带有权重信息的词,直至处理完所述待分析文本中的最后一个词;其中,所述预设规则,包括:判断当前输入的带有权重信息的词是否与已存在的词汇链的中心词有关联;如果有关联,计算所述当前输入的带有权重信息的词与已存在的词汇链的中心词的关联度,并将所述当前输入的带有权重信息的词插入到与其关联度最大的词汇链中;同时,判断所述当前输入的带有权重信息的词在所述待分析文本中的权重是否大于其所插入的词汇链的中心词在所述待分析文本中的权重,如果是,将所述当前输入的带有权重信息的词确定为其所插入的词汇链的中心词,并对所插入的词汇链中的各个词的权重进行排序,从所插入的词汇链中剔除满足第三预设条件的词;如果没有关联,新建一条词汇链,并将所述当前输入的带有权重信息的词作为新建词汇链的中心词。6.一...

【专利技术属性】
技术研发人员:高宋俤
申请(专利权)人:努比亚技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1