【技术实现步骤摘要】
多层语义的网络词库的生成方法及装置
本专利技术涉及计算机
,尤其涉及一种多层语义的网络词库的生成方法及装置。
技术介绍
伴随着信息时代的到来,全球互联网和通讯事业发生了翻天覆地的变化,导致以电子形式存储和处理的数据爆炸性增长,存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长文本数据,如文章、资讯等。现有的分词方法中用于匹配的词库是二维的,最多只有词性和简单的概率权重,不能对长文本进行准确的词条切分。
技术实现思路
本专利技术实施例的目的是提供一种多层语义的网络词库的生成方法及装置,能有效解决现有的用于分词的词库不能对长文本进行准确的词条切分的问题,可以提供更丰富的扩展属性。为实现上述目的,本专利技术实施例提供了一种多层语义的网络词库的生成方法,包括步骤:收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络;收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库;根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网 ...
【技术保护点】
一种多层语义的网络词库的生成方法,其特征在于,包括步骤:收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络;收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库;根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。
【技术特征摘要】
1.一种多层语义的网络词库的生成方法,其特征在于,包括步骤:收集通用词库,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重;收集实体词库,分析所述实体词库中实体的关系,从而生成实体网络;收集领域预料,根据不同领域对所述领域预料进行训练生成完整的领域词库;根据所述通用词库中每一个词和字的概率权重、实体网络和领域词库生成多层语义的网络词库。2.如权利要求1所述的多层语义的网络词库的生成方法,其特征在于,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:通过人性化模型对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。3.如权利要求1所述的多层语义的网络词库的生成方法,其特征在于,还包括步骤:根据预设语言的语法对所述多层语义的网络词库进行训练以完善所述多层语义的网络词库。4.如权利要求1所述的多层语义的网络词库的生成方法,其特征在于,对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重具体为:通过条件随机场对所述通用词库进行训练获得所述通用词库中每一个词和字的概率权重。5.一种多层语义的网络词库的生成装置,其特征在于,包括:通用词库生成模块,...
【专利技术属性】
技术研发人员:晋彤,
申请(专利权)人:广州特道信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。