术语抽取方法和装置制造方法及图纸

技术编号：16969582 阅读：52 留言：0更新日期：2018-01-07 06:33

本发明专利技术提供术语抽取方法和装置，用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求；而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括：抽取第一语料中的名词和名词短语，作为候选术语集合T；根据百科语料和候选术语集合T，获得候选术语的嵌入表示；根据候选术语的嵌入表示，计算候选术语间的语义相关度；以候选术语为顶点，以术语间的语义相关度SR(a，b)构建候选术语a和候选术语b之间的边，获得术语传播网络G＝(E,V)。其中V是术语传播网络G的顶点集，E是术语传播网络G的无向边集；根据术语传播网络使用置信度传播算法对候选术语进行排序；根据排序筛选术语。本发明专利技术极大地提高了术语抽取的性能。

全部详细技术资料下载

【技术实现步骤摘要】
术语抽取方法和装置
本专利技术涉及自然语言处理技术，具体涉及术语抽取方法和装置。
技术介绍
术语抽取(TerminologyExtraction)的目标是对于属于某个特定学科或领域的文本，自动地抽取出其中的术语。术语，是指在特定学科或领域里用来表示领域内特有概念的词。术语抽取在科研和教育领域都有着重要的应用价值。在科研领域，术语抽取是进一步构建科技知识图谱的重要支撑；在教育领域，从课程教学材料中自动地抽取出学科术语，可以帮助老师更好地组织知识结构，帮助学生更好地理解知识点和知识点间的关系。目前已经有很多关于术语抽取的工作，大多属于基于频率特征的统计方法。其中最著名的两种特征是单元性(unithood)和术语性(termhood)。其中单元性是指词组组分之间的结合紧密程度，而术语性则是指词组和专业领域概念之间的关系，表示词组的领域相关性。常用的TF-IDF方法即一种计算单元性的方法，而文献[Frantzi,2000]中提出的基于C-value方法和NC-value方法的术语抽取方法，则是基于termhood的统计方法。这两种特征通常在知识点提取中混合使用。上述基于统...
术语抽取方法和装置

【技术保护点】
一种术语抽取方法，其特征在于，包括步骤：S101、抽取第一语料中的名词和名词短语，作为候选术语集合T；S102、根据百科语料和步骤S101中的候选术语集合T，获得候选术语的嵌入表示；S103、根据候选术语的嵌入表示，计算候选术语间的语义相关度SR(a，b)；以候选术语为顶点，以术语间的语义相关度SR(a，b)构建候选术语a和候选术语b之间的边，获得术语传播网络G＝(E,V)，其中V是术语传播网络G的顶点集，E是术语传播网络G的无向边集；S104、根据术语传播网络G使用置信度传播算法对候选术语进行排序；根据排序筛选术语。

【技术特征摘要】
1.一种术语抽取方法，其特征在于，包括步骤：S101、抽取第一语料中的名词和名词短语，作为候选术语集合T；S102、根据百科语料和步骤S101中的候选术语集合T，获得候选术语的嵌入表示；S103、根据候选术语的嵌入表示，计算候选术语间的语义相关度SR(a，b)；以候选术语为顶点，以术语间的语义相关度SR(a，b)构建候选术语a和候选术语b之间的边，获得术语传播网络G＝(E,V)，其中V是术语传播网络G的顶点集，E是术语传播网络G的无向边集；S104、根据术语传播网络G使用置信度传播算法对候选术语进行排序；根据排序筛选术语。2.根据权利要求1所述的方法，其特征在于，所述步骤抽取第一预料中的名词和名词短语，包括：根据输入的第一语料，对其进行分词处理，得到第一语料的文本词序列表示，对该文本词序列进行词性标注；基于已标注词性的词序列，在其中抽取出长度小于k个词，且满足第一词性模板的名词或名词短语，作为候选术语；由所有的候选术语构成候选术语集合T；第一词性模板为((A|N)+|(A|N)*(NP)？(A|N)*)N，其中A、N和P分别表示形容词、名词和介词；k为预设值。3.根据权利要求要求1所述的方法，其特征在于，所述获得候选术语的嵌入表示，包括：将百科语料表示为一个由词组成的有序序列W，其中wi表示单个词，m为该词序列的长度；在有序序列W中标注出候选术语集合T中的候选术语和构成候选术语的词，获得候选词标注的文本语料xi表示候选术语集合T中的一个候选术语或构成候选术语的词；根据百科语料计算xi的向量表示；对于候选术语集合T中的候选术语a，若a＝xi，则候选术语a的向量表示等于xi；若候选术语a未出现在W’中，且候选术语a＝e1+…en，e1～en，则候选术语a的向量表示等于构成候选术语a的各个词的向量之和。4.根据权利要求1所述的方法，其特征在于，任意两个候选术语之间的所述语义相关度等于其对应向量表示的标准化余弦距离。5.根据权利要求1所述的方法，其特征在于，所述以术语间的语义相关度SR(a，b)构建候选术语a和候选术语b之间的边，包括：若候选术语a与候选术语b之间的语义相关度SR(a，b)大于给定阈值θ，则顶点a与b间存在一条无向边，且边上的权重等于语义相关度SR(a，b)。6.根据权利要求1所述的方法，其特征在于，所述根据术语传播网络G使用置信度传播算法对候选术语进行排序，包括：对顶点集V中的每个候选术语赋予一个初始的置信度值；反复迭代更新术语传播网络G中各个顶点的置信度值，直到术语传播网络G中各顶点的置信度值达到收敛状态；根据收敛状态下的置信度值，对术语传播网络G中各顶点...

【专利技术属性】
技术研发人员：李涓子，潘亮铭，王笑尘，唐杰，张鹏，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人