基于多模态自然语言特征的轨道交通行业术语提取方法技术

技术编号:26259341 阅读:27 留言:0更新日期:2020-11-06 17:53
本发明专利技术公开了基于多模态自然语言特征的轨道交通行业术语提取方法,涉及自然语言处理、数据挖掘技术领域,解决了目前依赖于词典的行业术语提取方法无法实现自动、快速、高效的提取轨道交通行业行业术语的问题,其技术方案要点是:结合分词技术、词性分析技术、句法分析技术和无监督学习技术从不同的维度得到自然语言的多模态特征;在二元共现分析与三元共现分析的基础上,又使用基于邻接字的扩展方法对二元词对和三元词进行了扩充,通过对多种技术方法的综合运用,从自然语言的不同模态得到了不同批次的术语库,并对各批次的术语库取并集得到最终的行业术语库,最后通过行业术语库的自动抽样和规则过滤,提高行业术语抽取的覆盖率和准确度。

【技术实现步骤摘要】
基于多模态自然语言特征的轨道交通行业术语提取方法
本专利技术涉及自然语言处理、数据挖掘
,更具体地说,它涉及基于多模态自然语言特征的轨道交通行业术语提取方法。
技术介绍
目前,我国的轨道交通行业在近年来得到了迅猛发展,因此对该行业各岗位、各工种相关工作人员的技术能力和服务水平提出了更高的要求,加之该行业涉及领域广泛、涉及学科众多、知识体系复杂,从而对轨道交通行业的教育培训系统也提出了更高的要求。因此,传统的教育理念和技术手段已经无法满足学员对相关教育培训系统的在线化、个性化和智能化需求。基于此,以知识图谱为核心的轨道交通智慧教育培训系统便应运而生。然而,在知识图谱的构建过程,首先需要从该行业知识库、教材和工程资料中对知识实体的名称进行抽取,常见的专业术语的提取方法主要包括分词技术、行业词典匹配和命名实体识别等方法,无论那种方法都对行业词典或标注语料库有着极强的依赖。现有的术语词汇抽取技术都需要使用已有的标注数据集对模型进行训练,其中标注数据集的构建需要花费大量的人力和物力,并且若构建的词典内容不够准确、词条数量不足时,都会影响对专业术语的提取效果,很难完全抽取出所有的术语词汇。然而,对于轨道交通行业而言,到目前为止,尚未有一套充足、完备的行业词典,所以依赖于词典的方法都无法实现自动、快速、高效的提取行业术语的需求。因此,如何研究设计一种基于多模态自然语言特征的轨道交通行业术语提取方法是我们目前急需解决的问题。
技术实现思路
本专利技术的目的是提供基于多模态自然语言特征的轨道交通行业术语提取方法,结合分词技术、词性分析技术、句法分析技术和无监督学习技术从不同的维度得到自然语言的多模态特征,并对多模态特征进行综合分析,能够快速高效的从非结构化文本中提取出轨道交通行业的专业词汇,提高行业术语抽取的覆盖率和准确度。本专利技术的上述技术目的是通过以下技术方案得以实现的:第一方面,提供了基于多模态自然语言特征的轨道交通行业术语提取方法,包括以下步骤:S1:对行业语料库中的文档标题进行识别和提取,并根据过滤词词库对识别和提取的行业术语进行过滤,得到第一批候选词词库;S2:根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表,并对预选词列表循环迭代过滤后得到第二批候选词词库;S3:通过分词模型和词性标注模型对语料进行分词和词性标注,将连续相邻的类名词合并成名词性短语,抽取名词性短语后得到第三批候选词词库;S4:对分词列表去除处理后得到预选分词列表、词频统计列表,根据预选分词列表、词频统计列表进行二元共现分析后得到由二元词对构成的第四批候选词词库;S5:根据预选分词列表、词频统计列表进行三元共现分析得到由三元词对构成的第五批候选词词库;S6:根据邻接字对二元词对和/或三元词对进行扩展,得到第六批候选词词库;S7:对所有批次的候选词词库求解并集后得到最终行业术语库。优选的,在步骤S1中,所述过滤词词库具体为:根据开源汉语词典建立的由介词、连词、助词、副词等常用虚词构成的词库。优选的,在步骤S2中,所述第二批候选词词库具体为:S201:对行业语料库进行预处理:通过标题识别规则将标题编号剔除,并将标题内容作为一个独立的文本行;根据标点符号和特殊符号将语料进行切分,并去除掉标点符号和特殊符号后得到文本集;S202:在文本集中筛选出字符串长度小于指定阈值的文本单元,构成预选词列表;S203:循环迭代预选词列表,通过过滤词词库将预选词的前置过滤词和后置过滤词全部删除,得到第二批候选词词库。优选的,在步骤S4、S5中,所述分词列表去除停用词和过滤词具体为:S401:根据加载的停用词词库和过滤词词库去除分词列表中的停用词和过滤词,得到预选分词列表;S402:对预选分词列表进行一元共现分析后得到预选分词列表中所有词语的词频统计列表,一元共现分析的计算公式为:其中,Wi表示预选分词列表中的某词语,C(Wi)表示某词语在预选分词列表中出现的次数,T表示预选分词列表中分词的总数,P(Wi)表示某词语在预选分词列表中出现的概率。优选的,所述二元共现分析具体为:S403:按预定顺序遍历语料库的预选分词列表,以当前词为中心,分别取左邻接词和右邻接词形成二元词对形成二元词对列表;S404:计算二元词对列表中每个二元词对的左邻接熵、右邻接熵和互信息,并计算总评分值;S405:根据总评分值对二元词对列表进行排序,获取前序N个二元词对构成第四批候选词词库。优选的,所述左邻接熵、右邻接熵具体为:左邻接熵的计算公式为:右邻接熵的计算公式为:其中,Sl是候选词W的左邻接词的集合,Sr是候选词W的右邻接词的集合;P(Wl|W)表示Wl是候选词W的左邻接词的条件概率,P(Wr|W)表示Wr为候选词W的右邻接词的条件概率;P(Wl|W)和P(Wr|W)的计算公式为:其中,N(Wl,W)表示Wl和W共同出现的次数,N(W)表示W出现的次数;同理,N(W,Wr)表示W和Wr共同出现的次数。优选的,所述互信息具体为:其中,P(X)、P(Y)表示词X、Y单独出现在语料集中的概率,P(X,Y)表示X和Y共同在语料集中出现的概率,MI(X,Y)表示X和Y的关联程度;若MI(X,Y)>0,表示X和Y是相互关联的,且MI的值越大表示二者相关联的程度越大,越有可能成为新词;若MI(X,Y)=0,则表示X和Y是彼此独立的;若MI(X,Y)<0,则表示X和Y是不相关的。优选的,所述总评分值具体为:优选的,在步骤S6中,所述二元词对、三元词对扩展具体为:S601:从左至右逐字扩展候选词语,统计候选词语与右邻接字共现的词频,按照词频阈值进行过滤;S603:计算候选词语与右邻接字的互信息值;若大于互信息阈值,则继续向右扩展;否则,将候选词记作候选新词;S603:过滤候选新词,得到新词集合;用邻接熵进行候选新词的过滤,设置左右邻接熵的阈值,计算左右邻接熵,将左右邻接熵小于左右邻接熵阈值的候选新词删除掉,得到以候选新词形成的第六批候选词词库。第二方面,提供了一种计算机系统,包括存储器、处理器以及存储在存储器内并可在处理器中执行第一方面1-9任意一项所述方法的计算机程序。与现有技术相比,本专利技术具有以下有益效果:(1)本专利技术综合利用标题识别规则、分词模型、词性分析和无监督学习算法从多个模态分批次提取行业术语,与传统技术方法相比不仅减少了人工标注的工作,还提高了行业术语提取的工作效率和覆盖率;(2)本专利技术实现了对行业术语提取过程的自动化和智能化,提取过程无需人工干预,也无需要人工对语料库进行标注,在节省人力物力的同时,也使得行业术语库的构建效率得到了很大的提升;(3)本专利技术在二元共现分析与三元共现分析的基础上,又使用基于邻本文档来自技高网...

【技术保护点】
1.基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,包括以下步骤:/nS1:对行业语料库中的文档标题进行识别和提取,并根据过滤词词库对识别和提取的行业术语进行过滤,得到第一批候选词词库;/nS2:根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表,并对预选词列表循环迭代过滤后得到第二批候选词词库;/nS3:通过分词模型和词性标注模型对语料进行分词和词性标注,将连续相邻的类名词合并成名词性短语,抽取名词性短语后得到第三批候选词词库;/nS4:对分词列表去除处理后得到预选分词列表、词频统计列表,根据预选分词列表、词频统计列表进行二元共现分析后得到由二元词对构成的第四批候选词词库;/nS5:根据预选分词列表、词频统计列表进行三元共现分析得到由三元词对构成的第五批候选词词库;/nS6:根据邻接字对二元词对和/或三元词对进行扩展,得到第六批候选词词库;/nS7:对所有批次的候选词词库求解并集后得到最终行业术语库。/n

【技术特征摘要】
1.基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,包括以下步骤:
S1:对行业语料库中的文档标题进行识别和提取,并根据过滤词词库对识别和提取的行业术语进行过滤,得到第一批候选词词库;
S2:根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表,并对预选词列表循环迭代过滤后得到第二批候选词词库;
S3:通过分词模型和词性标注模型对语料进行分词和词性标注,将连续相邻的类名词合并成名词性短语,抽取名词性短语后得到第三批候选词词库;
S4:对分词列表去除处理后得到预选分词列表、词频统计列表,根据预选分词列表、词频统计列表进行二元共现分析后得到由二元词对构成的第四批候选词词库;
S5:根据预选分词列表、词频统计列表进行三元共现分析得到由三元词对构成的第五批候选词词库;
S6:根据邻接字对二元词对和/或三元词对进行扩展,得到第六批候选词词库;
S7:对所有批次的候选词词库求解并集后得到最终行业术语库。


2.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S1中,所述过滤词词库具体为:根据开源汉语词典建立的由介词、连词、助词、副词等常用虚词构成的词库。


3.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S2中,所述第二批候选词词库具体为:
S201:对行业语料库进行预处理:
通过标题识别规则将标题编号剔除,并将标题内容作为一个独立的文本行;
根据标点符号和特殊符号将语料进行切分,并去除掉标点符号和特殊符号后得到文本集;
S202:在文本集中筛选出字符串长度小于指定阈值的文本单元,构成预选词列表;
S203:循环迭代预选词列表,通过过滤词词库将预选词的前置过滤词和后置过滤词全部删除,得到第二批候选词词库。


4.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S4、S5中,所述分词列表去除停用词和过滤词具体为:
S401:根据加载的停用词词库和过滤词词库去除分词列表中的停用词和过滤词,得到预选分词列表;
S402:对预选分词列表进行一元共现分析后得到预选分词列表中所有词语的词频统计列表,一元共现分析的计算公式为:



其中,Wi表示预选分词列表中的某词语,C(Wi)表示某词语在预选分词列表中出现的次数,T表示预选分词列表中分词的总数,P(Wi)表示某词语在预选分词列表中出现的概率。


5.根据权利要求4所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,所述二元...

【专利技术属性】
技术研发人员:刘永浩曹幂林海温俊周逸夫李涛张帆
申请(专利权)人:嘉兴运达智能设备有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1