专业术语和研究领域自动发现与演化方法技术

技术编号：39754316 阅读：7 留言：0更新日期：2023-12-17 23:53

本申请提供专业术语和研究领域自动发现与演化方法

全部详细技术资料下载

【技术实现步骤摘要】
专业术语和研究领域自动发现与演化方法、系统、终端及介质

[0001]本申请涉及计算机自然语言处理
，特别是涉及专业术语和研究领域自动发现与演化方法
、
系统
、
终端及介质
。

技术介绍

[0002]目前，各学科理论和技术快速发展，新的专业术语层出不穷，完全依靠人工编撰术语词表及其层次关系几无可能，现有的术语表或术语库都已比较陈旧，不能体现学科发展的新成果和新动态，因而急需学科术语库自动构建和研究细分领域自动发现技术，并且及时演化以追踪学科发展的动态和趋势
。
[0003]从语言种类方面来看，对于形态丰富的语言往往可以依据形态和词性分析的结果来识别术语，而缺乏形态变化的语言
(
如：中文
)
则常用词共现等统计指标来产生的术词表，导致术语识别准确率较低的问题
。
从学科类别方面来看，虽然在医学和生物学等学科术语语库构建相对完善，但也面临新的专业术语出现和更新过快的问题
。
其它学科则缺乏相关系统的研究，严重影响了学科发展快速跟踪和科技人才评估等的准确性和及时性
。
[0004]目前无监督全自动的学科语料库构建仍然存在准确率低
、
语料质量要求过高等难题
。
基于有监督训练的模型虽然准确率较高，但需要大量高质量的标注数据集来训练识别模型，而标注数据集准备需要投入大量的人力物力，并且会因不同标注人员掌握和理解标准不同而造成标注结果不一致的情况
>。
有监督的方法无法覆盖目前所有学科及其子领域
。
此外，目前已有的许多术语抽取工具均为针对单一语言设计的，扩展性较差，并且难以处理术语变体等问题
。

技术实现思路

[0005]鉴于上述现有技术的缺点，本专利技术提供一种专业术语和研究领域自动发现与演化方法
、
系统
、
终端及介质，用于解决现有技术中不能及时更新专业术语，构建学科语料库准确率低
、
语料质量要求过高，标注投入大量的人力物力等问题
。
[0006]为实现上述目的及其他相关目的，本申请的第一方面提供一种专业术语和研究领域自动发现与演化方法，包括：对待处理学术文献集合进行预处理；基于规则分类器对预处理后的待处理学术文献集合进行一次分类；一次分类结果包括可明确分类的学术文献以及不可明确分类的学术文献；基于
BERT
分类模型对所述不可明确分类的学术文献进行二次分类；基于由所述规则分类器得到的可明确分类的学术文献以及由所述
BERT
分类模型进行二次分类得到的学术文献，组成学科门类语料库；对各所述学科门类语料库中的学术文献的字符串分别进行计算以得到各所述字符串对应的专业术语特征参数；所述专业术语特征参数至少包括：
C_value
值
、
基础频率值
、
组合频率值
、
奇异度值；对各所述字符串对应的专业术语特征参数进行计算以得到各所述字符串对应的专业术语识别阈值；根据各所述字符串对应的专业术语识别阈值进行判定以识别获取各所述学科门类语料库中的专业术语；基于
LDA
模型对各所述学科门类语料库中的专业术语进行主题聚类以获取主题词并生成新的学
科门类
。
[0007]于本申请的第一方面的一些实施例中，所述预处理的方式包括对待处理学术文献集合进行清洗和标准化
。
[0008]于本申请的第一方面的一些实施例中，所述
C_value
值的计算方式包括：值的计算方式包括：其中，
t
为字符串，
|t|
为字符串
t
的长度，
TF(t)
为字符串
t
的词频，
s
为包含字符串
t
的长串词，
TF(s)
为长串词
s
的词频
。
[0009]于本申请的第一方面的一些实施例中，所述基础频率值的计算方式包括：
Basic(t)
＝
|t|logf(t)+
α
e
t
；其中，
Basic
为基础频率值，
t
为字符串，
f(t)
为字符串
t
的词频，
et
为包含字符串
t
的长串词的数量，
α
为自定义权重
。
[0010]于本申请的第一方面的一些实施例中，所述组合频率值的计算方式包括：
ComboBasic(t)
＝
|t|logf(t)+
α
e
t
+
β
e
′
t
；其中，
ComboBasic
为组合频率值，
t
为字符串，
f(t)
为字符串
t
的词频，
et
为包含字符串
t
的长串词的数量，
α
为自定义权重；
e't
为字符串
t
包含其他术语词的数量，
β
为自定义权重
。
[0011]于本申请的第一方面的一些实施例中，所述奇异度值的计算方式包括：于本申请的第一方面的一些实施例中，所述奇异度值的计算方式包括：其中，
Weirdness
为奇异度值，
t
为字符串，
TFtarget(t)
为字符串
t
在特定领域语料库中的词频，
TFreference(t)
为字符串
t
在通用语料库中的词频，
N
为标准化，以消除特定领域语料库和通用语料库大小的影响
。
[0012]于本申请的第一方面的一些实施例中，根据各所述字符串对应的专业术语识别阈值进行判定以识别获取各所述语料库中的专业术语，具体包括：若所述字符串对应的专业术语识别阈值大于预设阈值，则所述字符串为对应语料库的专业术语
。
[0013]于本申请的第一方面的一些实施例中，所述
LDA
模型的计算过程包括如下：确定主题词的数量作为
LDA
模型的超参数，并随机初始化每个文档的主题分布和每个主题的词汇分布；通过迭代优化来找到最佳的主题分布和词汇分布，在每次迭代中，算法将根据当前的主题和词汇分布，通过贝叶斯网络推断来更新每个文档的主题分布和每个主题的词汇分布；通过多次迭代的抽样和更新过程来逐渐收敛，直到主题分布和词汇分布达到稳定状态；在算法收敛后，每个文档都会得到一个主题分布，每个主题都会得到一个词汇分布
。
[0014]为实现上述目的及其他相关目的，本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种专业术语和研究领域自动发现与演化方法，其特征在于，包括：对待处理学术文献集合进行预处理；基于规则分类器对预处理后的待处理学术文献集合进行一次分类；一次分类结果包括可明确分类的学术文献以及不可明确分类的学术文献；基于
BERT
分类模型对所述不可明确分类的学术文献进行二次分类；基于由所述规则分类器得到的可明确分类的学术文献以及由所述
BERT
分类模型进行二次分类得到的学术文献，组成学科门类语料库；对各所述学科门类语料库中的学术文献的字符串分别进行计算以得到各所述字符串对应的专业术语特征参数；所述专业术语特征参数至少包括：
C_value
值
、
基础频率值
、
组合频率值
、
奇异度值；对各所述字符串对应的专业术语特征参数进行计算以得到各所述字符串对应的专业术语识别阈值；根据各所述字符串对应的专业术语识别阈值进行判定以识别获取各所述学科门类语料库中的专业术语；基于
LDA
模型对各所述学科门类语料库中的专业术语进行主题聚类以获取主题词并生成新的学科门类
。2.
根据权利要求1所述的专业术语和研究领域自动发现与演化方法，其特征在于，所述预处理的方式包括对待处理学术文献集合进行清洗和标准化
。3.
根据权利要求1所述的专业术语和研究领域自动发现与演化方法，其特征在于，所述
C_value
值的计算方式包括：其中，
t
为字符串，
|t|
为字符串
t
的长度，
TF(t)
为字符串
t
的词频，
s
为包含字符串
t
的长串词，
TF(s)
为长串词
s
的词频
。4.
根据权利要求1所述的专业术语和研究领域自动发现与演化方法，其特征在于，所述基础频率值的计算方式包括：
Basic(t)
＝
|t|logf(t)+
α
e
t
；其中，
Basic
为基础频率值，
t
为字符串，
f(t)
为字符串
t
的词频，
e
t
为包含字符串
t
的长串词的数量，
α
为自定义权重
。5.
根据权利要求1所述的专业术语和研究领域自动发现与演化方法，其特征在于，所述组合频率值的计算方式包括：
ComboBasic(t)
＝
|t|logf(t)+
α
e
t
+
β
e
′
t
；其中，
ComboBasic
为组合频率值，
t
为字符串，
f(t)
为字符串
t
的词频，
e
t
为包含字符串
t
的长串词的数量，
α
为自定义权重；
e'
t
为字符串
t
包含其他术语词的数量，
β
...

【专利技术属性】
技术研发人员：何军，王茜，樊宇航，
申请(专利权)人：上海市研发公共服务平台管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人