The invention discloses an automatic elimination system of redundant meanings in Chinese, which includes module A: semantic annotation and correlation analysis of segmented training corpus T_; module B: eliminating redundant meanings through automatic detection of business-independent meanings; module C: eliminating redundant meanings by comparative analysis of multiple terms'near classes; module D: eliminating redundant meanings by comparing terms' near classes with terms'parent classes; and module D: eliminating redundant meanings by comparing terms' near classes with terms'near class Item. The invention provides an efficient system and method for automatically eliminating redundant Chinese meanings by means of artificial intelligence correlation analysis, statistical analysis and other technologies, thereby improving the accuracy and efficiency of Chinese sentence analysis.
【技术实现步骤摘要】
一种汉语冗余义项自动消除系统
本专利技术涉及汉语理解、文本自动分析、汉语机器学习等领域,特别是涉及一种汉语冗余义项自动消除的系统。
技术介绍
随着人工智能技术的快速发展,以自然语言为核心的行业应用需求越发强烈。在对自然语言语句进行分析的过程中,有两项基础而又重要的任务:对自然语言语句分词、对分词后的语句中的词逐一标注它们的义项。前一个任务简称分词,后者一个任务简称义项标注。在对自然语言语句(简称语句)S的义项标注中,通常遇到的困难是如何准确地标注出语句S中词的义项。对一个具体的行业应用而言,这个问题变得更为严重,因为在一个具体的行业中,大多数词都带有多个可能的义项,而且这些义项都是不同的业务人员编辑入库的。由于缺乏统一的标准,因此语句中的一个词被标注多个义项的现象十分普遍,而其中有些义项是无关的,从而成为冗余义项。例如,对S=“手机卡怎么办”这一语句,分词后可以得到两组结果:TS1=“手机卡怎么办”、TS2=“手机卡怎么办”。对它们的义项标注结果可能是:TS1=“手机卡{卡片近类}{元件父类}/怎么{怎么近类}{疑问词父类}/办{办理近类,办公室近类}/”,TS2 ...
【技术保护点】
1.一种汉语冗余义项自动消除系统,其特征在于,包括以下模块:模块A:对分词后的训练语料TΓ的义项标注和义项相关性分析;模块B:通过自动检测业务无关义项消除冗余义项;模块C:通过比较分析多个术语近类消除冗余义项;模块D:通过比较术语近类与术语父类消除冗余义项。
【技术特征摘要】
1.一种汉语冗余义项自动消除系统,其特征在于,包括以下模块:模块A:对分词后的训练语料TΓ的义项标注和义项相关性分析;模块B:通过自动检测业务无关义项消除冗余义项;模块C:通过比较分析多个术语近类消除冗余义项;模块D:通过比较术语近类与术语父类消除冗余义项。2.根据权利要求1所述的一种汉语冗余义项自动消除系统,其特征在于,所述模块A的实施步骤如下:分词后的训练语料TΓ={TS1,TS2,...,TSn},其中TSi(1≤i≤n)的形式为TSi=ti1{}{}/ti2{}{}/...tij{}{}/...tik{}{}/(1≤j≤n);引入一个义项集sense_set,它为一集合,初始为空;对TΓ中的每个TSi,对TSi中的每一个tij{}{},执行以下步骤:步骤A-1:在近类词典中找出tij所属于的术语近类,将这些术语近类存放在集合tij_syn中,将tij_syn增加到tij{}{}的第一个{}中,形成tij{tij_syn}{};步骤A-2:sense_set=sense_set∪tij_syn;步骤A-3:在父类词典中找出tij所属于的术语父类,将这些父类存放在集合tij_fat中,将tij_fat增加到tij{tij_syn}{}的第二个{}中,形成tij{tij_syn}{tij_fat};步骤A-4:sense_set=sense_set∪tij_fat。3.根据权利要求1所述的一种汉语冗余义项自动消除系统,其特征在于,所述模块B的实施步骤如下:步骤B-1:对sense_set中的任意一个术语近类或者术语父类sf,计算sf在Γ中的支持集合,记为supp_set(Γ,sf),即supp_set(Γ,sf)={S|S∈Γ,且S至少包含sf中的一个术语};步骤B-2:对TΓ中的每个TSi,对TSi中的任意一项tij{tij_syn}{tij_f...
【专利技术属性】
技术研发人员:符建辉,
申请(专利权)人:中科国力镇江智能技术有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。