利用分词程序识别机构名称的装置及方法制造方法及图纸

技术编号:12386618 阅读:35 留言:0更新日期:2015-11-25 18:59
本发明专利技术涉及网络数据通信技术领域,公开了利用分词程序识别机构名称的装置及方法。该装置包括:存储模块,适于进行数据存储;分词模块,适于利用词条词典将待识别句子进行分词,获取待识别句子中词条;识别模块,适于从分词所得词条中提取在词性词典中查找到的符合预设机构名称相关词性的词条,根据预设相关词性连接规则将提取的词条进行拼接,将拼接所得词条作为候选机构名称加入候选集合中,从候选集合中选择符合预设机构名称输出条件的词条;输出模块,适于将选择的词条作为机构名称进行输出。本发明专利技术能够解决实现从文本中提取机构名称的问题,取得了从文本中自动提取机构名称的有益效果。

【技术实现步骤摘要】

本专利技术涉及网络数据通信
,具体涉及。
技术介绍
在现有技术中,进行文本挖掘过程中,一个重要的操作是识别命名实体,例如,识别出文本中的人名、机构名称等。命名实体识别(NE)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。其中,机构名称指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政府机关等的名称。机构名称是专有名词的一个子集,数目特别庞大。与人名和地名相比,机构名称的形式不稳定.随着社会的发展,会有新机构名称出现,旧的机构名称被淘汰、改组或更名。此外,机构名称的组成没有国家统一规范,多数未能收入词典。因此,需要一种能够从文本中提取机构名称的技术方案,以适应机构名称的不断变化。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的。依据本专利技术的一个方面,提供了一种利用分词程序识别机构名称的装置,该装置包括:存储模块,适于存储词条词典、词性词典、预设机构名称相关词性、预设相关词性连接规则和预设机构名称输出条件;分词模块,适于利用词条词典将待识别句子进行分词,获取待识别句子中词条;识别模块,适于从分词所得词条中提取在词性词典中查找到的符合预设机构名称相关词性的词条,根据预设相关词性连接规则将提取的词条进行拼接,将拼接所得词条作为候选机构名称加入候选集合中,从候选集合中选择符合预设机构名称输出条件的词条;输出模块,适于将从候选集合中选择的词条作为机构名称进行输出。可选地,所述预设机构名称相关词性包括如下词性中至少一项:地点、品牌、机构名称中领域、机构名称中后缀。可选地,所述装置还包括:所述构建模块,适于根据搜索词和搜索到的链接的相关信息构建与至少一预设机构名称输出条件相对应的过滤词典,将构建的过滤词典存储到所述存储模块中;所述过滤模块,适于利用所述存储模块中存储的过滤词典对所述识别模块从候选集合中选择的词条进行过滤;所述输出模块,进一步适于将所述过滤模块过滤后的剩余词条作为机构名称进行输出。可选地,所述识别模块,还适于从分词所得词条中提取在词性词典中查找到词性为完整机构名称的词条;所述输出模块,还适于将所述识别模块提取的词性为完整机构名称的词条作为机构名称进行输出。可选地,所述识别模块,还适于当分词所得词条位于分词所用词条词典中,并且没有位于词性词典中时,判断所述词条是否包括预设机构名称后缀;当所述词条包括预设机构名称后缀时,将所述词条作为完整机构名称添加到所述存储模块存储的词性词典中。可选地,所述识别模块,还适于当待识别句子中包括符合预设形式的词条组合时,根据词条组合中至少一词条中一个或多个字的出现频率,确定是否将所述词条组合作为候选机构名称加入候选集合中。可选地,所述装置还包括:接收模块,适于接收用户输入的校验信息;所述识别模块,还适于根据接收的校验信息修改所述存储模块中存储的词条词典、词性词典、预设机构名称相关词性、预设相关词性连接规则、预设机构名称输出条件或过滤词典。可选地,所述构建模块,进一步适于从包括机构名称的搜索词和搜索到的链接的相关信息中统计出与至少一预设机构名称输出条件相对应的正例词条,将所述正例词条加入所述存储模块存储的过滤词典中。可选地,所述构建模块,进一步适于从没有包括机构名称的搜索词和搜索到的链接的相关信息中统计出与至少一预设机构名称输出条件相对应的负例词条,将所述负例词条加入所述存储模块存储的过滤词典中。可选地,所述构建模块,还适于根据搜索词和搜索到的链接的相关信息中属于预设机构名称相关词性的词条的个数以及所述词条间的位置关系,确定所述搜索词和所述相关?目息中是否包括机构名称。根据本专利技术的另一方面,提供了一种利用分词程序识别机构名称的方法,该方法包括:利用词条词典将待识别句子进行分词,获取待识别句子中词条;从分词所得词条中提取在词性词典中查找到的符合预设机构名称相关词性的词条;根据预设相关词性连接规则将提取的词条进行拼接,将拼接所得词条作为候选机构名称加入候选集合中;从候选集合中选择符合预设机构名称输出条件的词条;将从候选集合中选择的词条作为机构名称进行输出。可选地,所述预设机构名称相关词性包括如下词性中至少一项:地点、品牌、机构名称中领域、机构名称中后缀。可选地,所述方法还包括:根据搜索词和搜索到的链接的相关信息构建与至少一预设机构名称输出条件相对应的过滤词典;利用过滤词典对从候选集合中选择的词条进行过滤;所述将从候选集合中选择的词条作为机构名称进行输出,包括:将利用过滤词典进行过滤后的剩余词条作为机构名称进行输出。可选地,所述方法还包括:从分词所得词条中提取在词性词典中查找到词性为完整机构名称的词条;将提取的词性为完整机构名称的词条作为机构名称进行输出。 可选地,所述方法还包括:当分词所得词条位于分词所用词条词典中,并且没有位于词性词典中时,判断所述词条是否包括预设机构名称后缀;当所述词条包括预设机构名称后缀时,将所述词条作为完整机构名称添加到词性词典中。可选地,所述方法还包括:当待识别句子中包括符合预设形式的词条组合时,根据词条组合中至少一词条中一个或多个字的出现频率,确定是否将所述词条组合作为候选机构名称加入候选集合中。可选地,所述方法还包括:接收用户输入的校验信息;根据接收的校验信息修改词条词典、词性词典、预设机构名称相关词性、预设相关词性连接规则、预设机构名称输出条件或过滤词典。可选地,所述根据搜索词和搜索到的链接的相关信息构建与至少一预设机构名称输出条件相对应的过滤词典,包括:从包括机构名称的搜索词和搜索到的链接的相关信息中统计出与至少一预设机构名称输出条件相对应的正例词条,将所述正例词条加入过滤词典中。可选地,所述根据搜索词和搜索到的链接的相关信息构建与至少一预设机构名称输出条件相对应的过滤词典,包括:从没有包括机构名称的搜索词和搜索到的链接的相关信息中统计出与至少一预设机构名称输出条件相对应的负例词条,将所述负例词条加入过滤词典中。可选地,所述方法还包括:根据搜索词和搜索到的链接的相关信息中属于预设机构名称相关词性的词条的个数以及所述词条间的位置关系,确定所述搜索词和所述相关信息中是否包括机构名称。根据本专利技术的技术方案可以利用词条词典将待识别句子进行分词,获取待识别句子中词条;从分词所得词条中提取在词性词典中查找到的符合预设机构名称相关词性的词条;根据预设相关词性连接规则将提取的词条进行拼接,将拼接所得词条作为候选机构名称加入候选集合中;从候选集合中选择符合预设机构名称输出条件的词条;将从候选集当前第1页1 2 3 4 5 本文档来自技高网...

【技术保护点】
一种利用分词程序识别机构名称的装置,该装置包括:存储模块,适于存储词条词典、词性词典、预设机构名称相关词性、预设相关词性连接规则和预设机构名称输出条件;分词模块,适于利用词条词典将待识别句子进行分词,获取待识别句子中词条;识别模块,适于从分词所得词条中提取在词性词典中查找到的符合预设机构名称相关词性的词条,根据预设相关词性连接规则将提取的词条进行拼接,将拼接所得词条作为候选机构名称加入候选集合中,从候选集合中选择符合预设机构名称输出条件的词条;输出模块,适于将从候选集合中选择的词条作为机构名称进行输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:李月雷王志青
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1