【技术实现步骤摘要】
一种领域新词发现方法及装置
[0001]本申请属于自然语言处理
,尤其涉及一种领域新词发现方法及装置。
技术介绍
[0002]随着生物及医学水平的快速发展,有关疾病、诊断、药物等的医学新词不断涌现。医学新词是指在当前医学词典中未纳入的词语,若缺少医学新词,将影响医学领域中以分词为基础的上层任务(如命名实体识别),进而影响医学术语主题覆盖的完整性。为及时发现医学领域新词,提高医学领域知识完整度,需提供面向医学领域新词发现的实现方案。
[0003]目前主流的新词发现方法是将互信息与邻接熵两类词统计特征作为识别新词的主要特征,方法通用性强、使用简单,但易产生大量垃圾词串,需人工对其过滤,申请人发现,使用通用分词工具进行分词后再计算将减少垃圾词串,但即便引入分词工具,由于现有技术均忽略了被阈值过滤掉的低频新词,故现有技术的新词发现结果不全面,有失召回率,不利于实现领域术语主题覆盖的完整性,因此,提出一种改进的适用于医学领域及其他具备类似特征专业领域(如生物科学、水利、车辆工程等领域)的领域新词发现方案,成为亟需解决的技 ...
【技术保护点】
【技术特征摘要】
1.一种领域新词发现方法,其特征在于,包括:对预定领域的数据语料进行N元词串提取,得到所述数据语料的各个词串;对提取的各个词串进行分类处理,得到不同高低频类别的词串集,并基于所述不同高低频类别的词串集确定候选词集;所述候选词集包括高频候选词集和低频候选词集;确定所述低频候选词集中各个词串分别对应的第一综合词串信息;第一综合词串信息用于衡量所述低频候选词集中的词串为一个新词的可能性高低;确定所述低频候选词集中各个词串分别对应的词串内部相似度,所述词串内部相似度用于衡量词串所包括的子词间的相似度;根据所述低频候选词集中不同词串分别对应的N值、第一综合词串信息及词串内部相似度,确定所述低频候选词集中的领域新词。2.根据权利要求1所述的方法,其特征在于,所述对提取的各个词串进行分类处理,得到不同高低频类别的词串集,并基于所述不同高低频类别的词串集确定候选词集,包括:根据不同词串的词频进行分类处理,得到高频候选词集、低频候选词集和无意义词集,所述高频候选词集和所述低频候选词集构成所述候选词集。3.根据权利要求1所述的方法,其特征在于,所述确定所述低频候选词集中各个词串分别对应的第一综合词串信息,包括:确定所述低频候选词集中词串对应的内部凝固度、平均互信息、关联置信度和左右邻接熵中的至少部分信息;根据词串对应的内部凝固度、平均互信息、关联置信度和左右邻接熵中的至少部分信息,确定所述低频候选词集中词串对应的第一综合词串信息。4.根据权利要求1所述的方法,其特征在于,所述确定所述低频候选词集中各个词串分别对应的词串内部相似度,包括:确定词串包含的不同子词间的语义向量相似度和汉字向量相似度;根据词串包含的不同子词间的语义向量相似度和汉字向量相似度,确定词串对应的词串内部相似度。5.根据权利要求4所述的方法,其特征在于,所述根据词串包含的不同子词间的语义向量相似度和汉字向量相似度,确定词串对应的词串内部相似度,包括:根据词串包含的不同子词间的语义向量相似度和汉字向量相似度,确定词串包含的不同子词间的子词相似度;根据词串包含的不同子词间的子词相似度,确定词串对应的词串内部相似度。6.根据权利要求4所述的方法,其特征在于,确定词串包含的不同子词间的汉字向量相似度,包括:确定词串包含的不同子词的汉字向量;基于词串包含的不同子词的汉字向量确定不同子词间的汉字向量相似度;其中,子词的汉字向量由子词的郑码向量、五笔向量、笔画向量中的至少部分不同向量拼接而成;子词的郑码向量基于子词对应的郑码信息进行向量转换得到,子词的五笔向量基于子词对应的五笔信息进行向量转换得到,子词的笔...
【专利技术属性】
技术研发人员:王巍洁,任慧玲,李晓瑛,王军辉,冯凤翔,
申请(专利权)人:中国医学科学院医学信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。