基于深度学习的行人语义描述关键技术研究 | |
刘权 | |
Subtype | 硕士 |
Thesis Advisor | 张思炯 |
2018-06 | |
Degree Grantor | 中国科学院大学 |
Place of Conferral | 北京 |
Degree Discipline | 精密仪器及机械 |
Keyword | 图像描述 行人图像 特征融合 注意力机制 层级式网络 |
Abstract |
随着互联网技术的快速发展,网络上的各类数据呈现爆发式的增长,面对这些海量且快速增长的数据,传统的数据分析方法已无法满足要求,如何高效地对这些数据分析并从中发掘有价值的信息,成为近年来学术圈内热门的研究方向。在这些网络大数据中,图像数据具有独特的空间和结构特性,包含了丰富的语义信息,成为诸多实际应用的信息来源,是人们的主要研究对象。
因此,图像语义理解技术在这个智能时代显得至关重要。图像语义描述是图像语义理解中一项非常重要且具有挑战性的任务,近年来的很多研究工作通常致力于通用图片描述,该任务的目标是用一句话概括图片的主要内容。这些方法通常关注目标的类间差异而非类内差异,因此通常会忽略同类目标的细节信息,对于同一类目标的不同个体无法给予细致的描述,例如行人图像。 行人图像包含丰富的语义信息,如性别、年龄、行为和穿着等等,对行人图像的语义分析在当今社会有着重要作用,智能监控、用户精准营销、网购智能推荐等领域的背后都有行人图像语义理解技术的支撑。因此,行人图像语义描述具有重要的研究意义。 主流的图像语义描述方法通常是用一句话概括图片的主要内容,对于目标较多的场景或单个目标本身的描述缺乏细节信息;近期一些研究工作提出了密集语义描述的概念,对图像的多个局部区域给出语义描述,但是此类方法对局部区域的描述是互相独立的短语,关联性不大,无法对图片形成全面系统的描述。 上述方法对行人图像描述都无法取得理想的效果,因此,针对上述问题,本文展开一系列研究,致力于为一幅行人图像生成细致、个性化的多语句描述,具体工作如下:
1: 针对主流方法只概括图像主要内容而忽略细节信息的问题,本文提出了基于:全局和局部信息融合的深度行人描述方法,融合图像全局和局部特征信息,并生成高层语义概念向量,输入到语言模型,进而为图像生成细致的语句描述。实验结果表明,全局和局部特征的引入,给描述结果带来了明显的改善,优于主流方法。
2:针对主流方法只为图像生成一条语句描述而密集描述方法短语相互独立这:一问题,本文提出了基于主题注意力机制的层级式神经网络行人描述方法,连续为一幅图像生成多条语句,每条语句生成时都会融合图像的全局和局部特征,利用注意力机制,关注下一条语句描述的重点区域,进而生成多视角、多语句的描述语句。实验结果显示,基于注意力机制的特征融合方法依然能够保留图像细节信息,层级式网络的应用能够生成质量更高的多语句描述。
3:由于当前常用公开数据集都是通用目标图片,并不适合对本文研究内容进行评价,因此,本文收集了各类场景下的行人图片,创建了第一个公开的专门用于评价行人图像语义描述的数据集—“CASIA Pedestrian Dataset”,用来验证本文方法的有效性。该数据集包含了5000 张各个场景下的行人图片,每张图片标注多个描述语句。 |
Subject Area | 天文技术与方法 |
Language | 中文 |
Document Type | 学位论文 |
Identifier | http://ir.niaot.ac.cn/handle/114a32/1486 |
Collection | 学位论文 |
Affiliation | 南京天文光学技术研究所 |
Recommended Citation GB/T 7714 | 刘权. 基于深度学习的行人语义描述关键技术研究[D]. 北京. 中国科学院大学,2018. |
Files in This Item: | There are no files associated with this item. |
Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.
Edit Comment