优胜从选择开始,我们是您最好的选择!—— 第一学术网(北京鼎新文化传媒有限公司)
010 - 86226008
483825188@qq.com
您的位置:网站首页 > 科技论文 > 正文

基于人眼视觉规律的注视点分类及其在图像标注中的应用

作者:漆正溢 方红萍 万中华 张瀚源 伍世虔来源:《液晶与显示》日期:2023-05-29人气:933

图像标注广泛应用于计算机视觉领域,如物体检测、识别等[1-4]。传统图像标注通常由标注人员手动绘制目标物体边界框,存在效率低、成本高的问题。据统计,在Mechanical Turk上对ImageNet进行大规模标注时,绘制边界框耗费的时间中位数为25.5 s。此外,还需要对标注人员进行相关培训[5-6]。

生物学研究表明,人类的视觉系统存在选择性注意机制[7]。目前,针对眼动规律与目标识别关系的相关研究结果表明,在任务驱动型眼动过程中,相较于背景,人眼注视点会更多地停留在与任务相关的图像目标中[8-10]。基于上述研究结果,利用人眼在观测标注目标过程中的注视点规律,自动确定目标物体边界框,能有效提高标注效率,降低标注成本[11-12]。DIMITRIOS P等提出的眼动图像标注算法[11]就是此类应用领域的一个经典算法[13]。该方法将目标标注问题建模为一个目标和背景的分类问题。首先提取眼动注视点和背景分别所在的超像素块的相关眼动特征和图像外观[14]、似物性特征[15]等,构建一个支持向量机(Support Vector Machine, SVM)超像素块分类模型,实现标注目标边界框的初定位;然后采用似GrabCut能量模型[14]进行目标边界框精定位。该算法只需使用较少的数据(7%)训练标注模型,标注一幅图片平均仅需2 s。

标定过程中采集的眼动数据中包含标定目标的位置先验线索,利用这些线索能有效提高后续标定精度。但是,首先眼动过程中存在的固有抖动和眨动,使眼动数据中容易引入噪声;另外,眼动图像目标标注这类任务驱动型眼动过程是一个自底向上和自顶而下相互交互的复杂认知过程[11,16]。研究表明,人眼更容易关注动物、人之类的活动目标,也容易停留在显著的非目标对象或背景对象上,因此目前提取和标注任务相关的眼动信息仍然是一个研究难点。目前DIMITRIOS P等提出的眼动图像标注算法利用所有注视点定位标注目标,停留在非目标上的注视点容易引入干扰因素,存在算法精度不高的问题。文献[10,17]采用热力图去除离群点算法提取和识别任务相关的注视点,但是该方法以每一个注视点为中心累加二维高斯函数,通过设置阈值将离群注视点滤除,未能有效地适应注视点通常以线状而非球状呈现这一空间特征,并且高斯函数计算量大、方差难以确定,因此存在运行效率低、阈值设置困难等问题。另外,这些算法主要应用在目标检测领域,文献[10]虽然提到目标标注问题,但是也是以现有图像目标检测结果为基础,辅助眼动数据减少漏标注,与经典的DIMITRIOS P眼动图像标注算法思路不一致。

国内已有针对驾驶过程中的注视序列[18-19]以及人机交互过程中的注视序列[20-21]的研究,但均不能适用于图片标注研究领域。在目标导向、任务驱动的图像标注过程中,人眼视觉由“预注意”和“注意”两个阶段组成[22-23],被称为人眼视觉的“搜索”和“识别”[16],前者的凝视点不在目标上,而后者的凝视点在目标上。准确提取眼动识别阶段的注视点是提高眼动图像标注定位精度的关键。鉴于此,本文拟从探索图像目标标注这一任务驱动下的眼动规律入手,设计注视点分类模型。首先研究图像标注过程中眼动注视点在时间、空间维度上的眼动规律,然后结合眼动规律,提出基于参数自适应的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)[24]算法将人眼注视序列中注视点自动分类为视觉搜索和视觉识别两个类别,旨在将提取的眼动识别阶段注视点作为图像标注算法的输入,提高标注精度。

2 搜索和识别两阶段的眼动规律

为了探究隶属于视觉识别和视觉搜索阶段注视点的规律,本文选取2014 DIMITRIOS P数据集[11,25]当中的包含单目标的图片开展眼动规律实验研究。该数据集选取Pascal VOC2012数据集中的10类目标,共6 270幅图片,其中单目标图片共5 104幅图。这10类目标分别为猫/狗、自行车/摩托车、飞机/船、牛/马以及沙发/餐桌。5位受试者眼动标注过程中的眼动数据采用Eyelink 2 000眼动仪采集,采样频率为1 000 Hz。眼动数据格式用F=(xi,yi,t_starti,t_endi)Ni=1表示,其中x,y表示坐标(单位:像素),t_start,t_end分别记录为注视点的开始时间戳和结束时间戳(单位:ms),可通过t_end−t_start计算得到注视点的持续时间。每个目标的标注真值框由数据集提供。图1为摩托车目标图像,5位受试者的眼动注视数据使用不同颜色绘制,目标标注真值框使用绿色标识。

期刊知识

客服一号: 卜编辑

客服二号: 林编辑

地址:北京市通州区北京鼎新文化传媒有限公司 ICP备案号:京ICP备14054149号-4

【免责声明】:第一学术网 所提供的信息资源如有侵权、违规,请及时告知。

版权所有:第一学术网(北京鼎新文化传媒有限公司)

扫码联系客服
扫码联系客服

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫码联系客服

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文