化学表达式提取方法、装置及设备制造方法及图纸

技术编号:24168920 阅读:33 留言:0更新日期:2020-05-16 02:19
本发明专利技术提供一种化学表达式提取方法、装置及设备,涉及数据处理技术领域。本发明专利技术可以通过获取化学题文本数据,对化学题文本数据进行分词操作,得到化学题文本数据对应的至少一个分词,并确定至少一个分词中,与预设的化学表达式聚类中心之间的距离小于预设阈值的分词为目标分词,然后提取目标分词,可以得到化学题文本数据中的化学表达式,从而实现基于聚类分析从化学题文本数据中提取化学表达式。相对于现有的化学表达式提取方法而言,可以有效减少人工标注过程所耗费的大量的时间和成本,另外,还可以有效提高化学表达式提取的速度。

Chemical expression extraction method, device and equipment

【技术实现步骤摘要】
化学表达式提取方法、装置及设备
本专利技术涉及数据处理
,具体而言,涉及一种化学表达式提取方法、装置及设备。
技术介绍
网络学习系统的题库中的化学题目中经常包含大量化学表达式,将文本中的化学表达式提取出来,建立化学表达式与化学题目之间的全文索引,可以使得前端通过搜索某个化学表达式即可检索到对应的化学题目。目前,从化学题目中提取化学表达式的方法通常为:人工对化学题目中的化学表达式进行标注,然后根据人工标注的信息,从化学题目中提取化学表达式。例如,可以对某个化学题目中的化学表达式对应的文本内容标注一个标签,该标签可以用于指示该部分内容为化学表达式,然后,可以从化学题目中提取标注有该标签的文本内容,即可提取到对应的化学表达式。但是,上述现有的化学表达式提取方法中,人工标注过程耗费了大量的时间和成本。
技术实现思路
本专利技术提供一种化学表达式提取方法、装置及设备,可以以更低的成本从化学题目中提取化学表达式。第一方面,本专利技术实施例提供一种化学表达式提取方法,该方法包括:获取化学题文本数据;对本文档来自技高网...

【技术保护点】
1.一种化学表达式提取方法,其特征在于,所述方法包括:/n获取化学题文本数据;/n对所述化学题文本数据进行分词操作,得到所述化学题文本数据对应的至少一个分词;/n确定所述至少一个分词中,与预设的化学表达式聚类中心之间的距离小于预设阈值的分词为目标分词;/n提取所述目标分词,得到所述化学题文本数据中的化学表达式。/n

【技术特征摘要】
1.一种化学表达式提取方法,其特征在于,所述方法包括:
获取化学题文本数据;
对所述化学题文本数据进行分词操作,得到所述化学题文本数据对应的至少一个分词;
确定所述至少一个分词中,与预设的化学表达式聚类中心之间的距离小于预设阈值的分词为目标分词;
提取所述目标分词,得到所述化学题文本数据中的化学表达式。


2.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个分词中,与预设的化学表达式聚类中心之间的距离小于预设阈值的分词为目标分词之前,所述方法还包括:
获取样本化学题文本数据;
采用预设算法对所述样本化学题文本数据进行聚类分析,得到所述样本化学题文本数据对应的多个聚类中心;
从多个所述聚类中心中,确定得到所述化学表达式聚类中心。


3.根据权利要求2所述的方法,其特征在于,所述采用预设算法对所述样本化学题文本数据进行聚类分析,包括:
采用K均值聚类算法对所述样本化学题文本数据进行聚类分析。


4.根据权利要求2所述的方法,其特征在于,所述对所述化学题文本数据进行分词操作,包括:
采用隐马尔可夫模型,对所述化学题文本数据进行分词操作。


5.根据权利要求4所述的方法,其特征在于,所述确定所述至少一个分词中,与预设的化学表达式聚类中心之间的距离小于预设阈值的分词为目标分词,包括:
对所述至少一个分词中的任一个分词:
计算所述分词与预设的化学表达式聚类中心之间的距离;
判断所述分词与所述化学表达式聚类中心之间的距离是否小于预设阈值;
若是,则确定所述分词为...

【专利技术属性】
技术研发人员:易显维
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1