【技术实现步骤摘要】
无监督的自动术语抽取方法、装置、设备和介质
本申请涉及数据处理
,特别是涉及一种无监督的自动术语抽取方法、装置、设备和介质。
技术介绍
随着信息技术的发展,互联网上文本数据呈现指数级增长,如何自动从中挖掘出富有价值的内容成为学术界和工业界竞相研究的重要课题。自动术语抽取是利用算法技术从非结构化的自然语言文本中自动抽取与领域相关的重要词语或短语。术语抽取作为一项基础研究问题,支撑着本体和知识图谱构建、文本分类、文本文摘等领域的技术研究和发展。在大规模文本语料中,短文本形式的语料不在少数,限制了依赖上下文语境信息的术语抽取方法的应用和发展。此外,术语表示形式不仅有简单词语还包括复合词语,即多个词语之间存在嵌套形式,给抽取术语的完整性带来了很大困难。现有的术语抽取技术主要包括基于语言学的术语抽取方法、基于统计学的术语抽取方法、基于外部知识的术语抽取方法、基于语义相关的术语抽取方法、基于图的术语抽取方法、基于主题模型的术语抽取方法、基于机器学习的术语抽取方法、基于深度学习的术语抽取方法。然而,在实现本专利技术过程中,专 ...
【技术保护点】
1.一种无监督的自动术语抽取方法,其特征在于,包括步骤:/n获取输入的文本语料并采用自然语言处理工具进行预处理;所述文本语料包括多篇文档;/n利用TF-IDF技术和LDA主题模型,识别预处理后的所述文本语料的术语核心词;/n计算所述术语核心词与相邻词语的点互信息,根据所述点互信息识别所述术语核心词的术语边界,抽取术语边界识别完整的所述术语核心词作为目标术语;/n输出所述目标术语组成的术语集合。/n
【技术特征摘要】
1.一种无监督的自动术语抽取方法,其特征在于,包括步骤:
获取输入的文本语料并采用自然语言处理工具进行预处理;所述文本语料包括多篇文档;
利用TF-IDF技术和LDA主题模型,识别预处理后的所述文本语料的术语核心词;
计算所述术语核心词与相邻词语的点互信息,根据所述点互信息识别所述术语核心词的术语边界,抽取术语边界识别完整的所述术语核心词作为目标术语;
输出所述目标术语组成的术语集合。
2.根据权利要求1所述的无监督的自动术语抽取方法,其特征在于,利用TF-IDF技术和LDA主题模型,识别预处理后的所述文本语料的术语核心词的步骤,包括:
利用TF-IDF技术对预处理后的所述文本语料中的所有词语进行重要性分值计算,得到所述文本语料中文档与词语的TF-IDF值分布矩阵;
利用LDA主题模型计算预处理后的所述文本语料中每篇文档的各词语对主题的贡献度,得到每个词语对所在文档主题的贡献度分布矩阵;
将所述TF-IDF值分布矩阵的元素和所述贡献度分布矩阵的元素相乘,得到每个词语在所属文档中作为术语核心词的概率的核心概率分布矩阵;
根据设定的概率阈值,确定所述核心概率分布矩阵中值大于所述概率阈值的概率对应的词语为术语核心词。
3.根据权利要求2所述的无监督的自动术语抽取方法,其特征在于,所述重要性分值通过如下公式计算:
其中,表示词语wj的重要性分值,表示词语wj的词频,表示词语wj的逆文本频率指数,表示词语wj在文档di中出现的次数,c表示文档di中所有词语出现的总次数,n表示输入的文本语料D的所有文档数量,表示词语wj在文本语料D中出现的文档数量;
所述TF-IDF值分布矩阵为:
其中,元素值tinh表示词语wh在文档dn中的TF-IDF值,行数n表示文档数量,列数h表示文本语料D中所有词语的数量。
4.根据权利要求2所述的无监督的自动术语抽取方法,其特征在于,利用LDA主题模型计算预处理后的所述文本语料中每篇文档的各词语对主题的贡献度,得到每个词语对所在文档主题的贡献度分布矩阵的步骤,包括:
将预处理后的所述文本语料的各文档分别输入各LDA主题模型,输出所述文本语料的文档-主题概率分布矩阵和主题-词语概率分布矩阵;
将所述文档-主题概率分布矩阵和所述主题-词语概率分布矩阵相乘,得到主题乘积矩阵;
将所述主题乘积矩阵的元素与所述文本语料的所有文档对应词语分布矩阵的元素相乘,得到所述贡献度分布矩阵;
其中,所述文档-主题概率分布矩阵为DT:
其中,元素值dtnn表示文档dn包含主题tn的概率;
所述主题-词语概率分布矩阵为TW:
其中,元素值twnh表示词语wh属于主题tn的概率;
所述贡献度分布矩阵为DTW:
...
【专利技术属性】
技术研发人员:付东,李宇波,徐秦,葛亚维,吕昭,
申请(专利权)人:中国人民解放军军事科学院评估论证研究中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。