【技术实现步骤摘要】
一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
本专利技术具体涉及一种基于统计和浅层语言分析的维吾尔文语义串抽取方法,属于少数民族语言语义串抽取
技术介绍
关于语义串的识别和抽取,国内外很早就有学着开展一些研究工作。可以定义语义串为:是文本中上下文任意多个连续字符(字或词)的稳定组合,其语义完整及独立的,能作为文本中线索词,包括人名、地名、机构名等命名实体,还有实词(科学家)、新词(自贸区)、词组或短语(地方政府阳光举债)、领域术语(人感染H7N9确诊病例)、固定搭配(严格监管)等。语义串抽取是文本处理中的基础技术,可以直接应用到文本挖掘多个领域中。如应用到分词中,可以提高新词识别效率。应用到搜索引擎中索引词的抽取、查询词的修正、以及相关搜索分析中,可以达到索引压缩目的的同时也可以大大提高搜索效率。应用到网络舆情系统中,可以将语义串作为主要的舆情线索进行网络舆情热点的有效发现和跟踪。应用到本专利技术中,以语义串作为特征表征文本,可以构造泛化能力更强、更经凑的文本模型,这就会明显提高聚类和分类准确率。除此之外,专业术语抽取及领域词典编撰等更多的领域,语 ...
【技术保护点】
一种基于统计和浅层语言分析的维吾尔文语义串抽取方法,其特征在于,所述方法包括;步骤1 确定文本索引结构及定义模式规则:确定包括词典、一级索引、二级索引的三层索引结构;定义文本中的可信频繁模式;定义频繁模式发现中的语言规则;步骤2 频繁模式发现;大规模文本中维吾尔文频繁模式发现步骤具体包括:步骤2A 建索引;对于经过预处理的文本集,首先按单词在文本中出现的顺序建立词典,然后对于生成的单词ID序列建词索引;步骤2B 串扩展及频繁模式发现;让所有单词ID进入一个队列中,然后根据每个单词的索引信息从每个单词扩展得到其二词或三词串,让该单词出队并将新产生的扩展串入队,继续从n词串扩展 ...
【技术特征摘要】
1.一种基于统计和浅层语言分析的维吾尔文语义串抽取方法,其特征在于,所述方法包括;步骤1确定文本索引结构及定义模式规则:确定包括词典、一级索引、二级索引的三层索引结构;定义文本中的可信频繁模式;定义频繁模式发现中的语言规则;步骤2频繁模式发现;大规模文本中维吾尔文频繁模式发现步骤具体包括:步骤2A建索引;对于经过预处理的文本集,首先按单词在文本中出现的顺序建立词典,然后对于生成的单词ID序列建词索引;步骤2B串扩展及频繁模式发现;让所有单词ID进入一个队列中,然后根据每个单词的索引信息从每个单词扩展得到其二词或三词串,让该单词出队并将新产生的扩展串入队,继续从n词串扩展到n+1词或n+2词串,反复迭代,直到队列为空;步骤3串完整性评价及语义串抽取;根据上下文邻接特征来判断每一个语义串候选的结构完整性,用公式一为每一个候选语义串赋权重:AEweight(S)=min(LAE(S),RAE(S))公式一其中,AEweight(S)是串S的邻接熵权重,LAE(S)是串S的左邻接熵,RAE(S)是串S的右邻接熵,左邻接熵、右邻接熵按公式二计算:其中,m是串S的左邻接种类数,ni是串S的第i个左邻接的频次,所有左邻接频次总和为N,计算邻接特征量所需要的全部信息在它们被发现时记录好并存入索引中,依次输出邻接特征量达到阈值的频繁模式,即为最终抽取到的语义串。2.如权利要求1所述的基于统计和浅层语言分析的维吾尔文语义串抽取方法,其特征在于,所述方法步骤1中的包括词典、一级索引、二级索引的三层索引结构具体为:词典:将不同长度的词条或串转换成整个索引空间中唯一的词条ID或串ID;一级索引:作为索引项的每一个单词或串,经过词典管理工具翻译成全索引空间唯一的ID,这个ID作为该索引项对应的一级索引入口,一级索引包含的数据有:Freq是该索引项在语料中的频次;is_stop是停用词标志;is_adj是形容词标志;Unit_count是该索引项的单词长度;Pos_pointer,Lv_pointer和Rv_pointer分别是对应二级索引入口地址偏移量;二级索引:二级索引又是一个索引项列表,其入口由一级索引获取,二级索引表中的每一项是该索引项在文本集中的概要描述,其中,第一个索引表是Position,是该索引项的位置倒排;第二个是左邻接列表,是该索引项所有的左邻接及其频次;第三个是右邻接列表,是该索引项所有的右邻接及其频次。3.如权利要求1所述的基于统计和浅层语言分析的维吾尔文语义串抽取方法,其特征在于,所述方法步骤1中定义文本中的可信频繁模式具体为:设S=w1w2…wn是一个长度为n的维吾尔文单词串,以空格隔开的n个单词序列,T=S1#S2#…Sm#是由m个单词串构成的文本语料,#标志文本中的各种标点符号;定义1:对于单词串S=w1w2…wn,如果文本语料中至少存在两个位置pos1和pos2,并使得则S称为语料T中的一个模式,也称为重复串;定义2:根据事先设定的各个参数阈值,如果Su...
【专利技术属性】
技术研发人员:吐尔地·托合提,艾斯卡尔·艾木都拉,米吉提·阿不里米提,玛依热·依布拉,热合木·马合木提,哈妮克孜·伊拉洪,
申请(专利权)人:新疆大学,
类型:发明
国别省市:新疆,65
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。