【技术实现步骤摘要】
一种基于词表示特征的命名实体识别方法及电子装置
[0001]本专利技术涉及自然语言处理领域,尤其涉及一种基于词表示特征的命名实体识别方法及电子装置。
技术介绍
[0002]随着互联网的发展,Twitter、腾讯微博、新浪微博等社交网络服务逐渐兴起。用户不仅是信息的查看者,而且还是信息的广播者。互联网已经从信息发布平台转变为交互式通信平台。考虑到微博文本简短,发布简短,易于阅读,方便共享和迅速传播的特点,由微博提供支持的大量信息具有重要价值。
[0003]在微博平台上,用户谈论各种事情,例如政治,体育,新闻,产品等。用户将微博要分享的内容重新发布给朋友,评论微博中他们感兴趣的内容并给出喜欢他们的。因此,从大量的微博帖子中识别命名实体是实现舆论监督和商业智能的基础和前提。
[0004]目前,传统中文语料中使用的实体识别方法仍然用于从微博中识别命名实体。但是,这些方法存在难以制定合适识别标准、遗漏和缺乏考虑上下文信息的问题。最重要的是这些方法仅考虑上下文窗口中的单词,而不考虑句子中长期依赖的信息,而微博命名实体的识 ...
【技术保护点】
【技术特征摘要】
1.一种基于词表示特征的命名实体识别方法,其步骤包括:1)对待检测文本进行分词,获取各词语的基础特征;2)将各词语组成一词语序列,并对每一词语进行编码,提取编码结果的词嵌入特征;3)根据词语序列的设定权重与设定主题,生成一词向量序列,提取词向量序列的词表示特征;4)将基础特征、词嵌入特征及词表示特征输入一实体识别模型,获取待检测文本中的命名实体;其中,通过以下步骤得到实体识别模型:a)采集若干样本文本,得到一语料库;b)获取语料库中每一样本文本的样本基础特征、样本词嵌入特征及样本词表示特征;c)将各样本文本的样本基础特征、样本词嵌入特征及样本词表示特征输入一级联条件随机场模型并进行训练,得到实体识别模型。2.如权利要求1所述的方法,其特征在于,所述待检测文本包括中文微博。3.如权利要求1所述的方法,其特征在于,所述基础特征包括单词特征、词性特征、字母特征和数字特征。4.如权利要求1所述的...
【专利技术属性】
技术研发人员:孙立远,万欣欣,李欣,赵忠华,付培国,王禄恒,张磊,田正鑫,郝冰川,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。