【技术实现步骤摘要】
本专利技术涉及语义分析领域,尤其涉及一种。
技术介绍
互联网尤其是移动互联网带来了数据大爆炸,大数据日益成为信息化的主流技术。大数据的关键难点在于非结构化数据的分析,而语义技术则是非结构化数据分析的关键技术之一。任何一种类型语义技术的开展,都离不开词库的管理。然而,词库中的词条动辄上千乃至数十万,词条之间的关系错综复杂。现有的词库管理技术无法解决清晰表述词条之间关系的难题,使得难以对词库进行有效的维护和管理。
技术实现思路
本专利技术的目的在于提供一种,可以有效提升词库的管理效率。为实现上述目的,本专利技术的技术方案是设计一种,采用多层结构管理所有词汇,所述多层结构包括主题、范畴、关键词、识别词和标签;所述主题,用于区分关键词所属领域的标识和名称;所述范畴,用于说明关键词分类的标准;所述关键词,为词条的标识和名称;所述识别词,用于表达关键词的近义或同义文字,该文字包括单字、词汇、短语;所述标签,用于标识主题和关键词的父节点。遵循可控原则,即:每个层级设置三到十个节点;少于三个节点不作为独立的一个层级;多于十个节点需要进一步划分为更多层级。遵循命名唯一原则 ...
【技术保护点】
基于层次关系组织的多语种词库管理方法,其特征在于,采用多层结构管理所有词汇,所述多层结构包括主题、范畴、关键词、识别词和标签;所述主题,用于区分关键词所属领域的标识和名称;所述范畴,用于说明关键词分类的标准;所述关键词,为词条的标识和名称;所述识别词,用于表达关键词的近义或同义文字,该文字包括单字、词汇、短语;所述标签,用于标识主题和关键词的父节点。
【技术特征摘要】
【专利技术属性】
技术研发人员:梁智,
申请(专利权)人:常熟商数信息技术有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。