算法集锦(14)|图像识别| 图像识别算法的罗夏测试

图灵汇官网

随着深度学习技术在图像识别领域的广泛应用,我们越来越多地采用多种算法进行快速的图像识别和标注。经过优化的算法在内存使用和模型训练方面表现出色,但在面对模糊或意义不明确的图像时,其性能又如何呢?

为了更好地了解不同卷积神经网络算法的应用差异,我们将这些算法应用到了罗夏墨迹测试(Rorschach Test)上。

方法十分简单:设定好预期结果,明确对每一个预测的理解,从而选择合适的工具进行下一步工作。

罗夏墨迹测试

罗夏墨迹测试是现代心理学中主要的投射测验之一,由瑞士精神病学家汉斯·罗夏(Hans Rorschach)于1921年创建。这种测试侧重于精神动力学理论,通过观察个人对模糊或无结构材料的反应,揭示其行为特征模式。

测试材料

罗夏测验包含10张结构模糊的墨迹图片,其中5张全为黑色,2张在黑色基础上添加了红色墨迹,另外3张为彩色。测试时,一张接一张地展示给被测者,要求他们描述所看到的内容,不限时间。随后,再次询问他们是否看到整个画面或局部细节,并记录下他们的回答。

数据分析

在本次实验中,我们将罗夏墨迹测试的图片作为测试集,利用各种预训练的算法进行分类预测。

分类算法

我们尝试了以下几种算法:

  • ResNet50
  • VGG16
  • VGG19
  • InceptionV3
  • InceptionResNetV2
  • Xception
  • MobileNet
  • MobileNetV2
  • DenseNet
  • NASNet

测试结果

我们的目标是快速了解预测及其背后的机制。为此,我们将得分较高的预测结果归为一组,并计算总分,以便了解每个分类器的表现,并评估每张图片的相对置信度。

例如,InceptionResNetV2nasnetbigDenseNet201认为第一张图片是一架战机(分数分别为88.3%、46.2%和18.6%)。将这些分数加在一起,得到153.1的无量纲分数。通过这种方式,我们可以比较不同分类器的表现,找出最优的模型。

最优预测结果

以下是前三张图片的最优预测结果:

图片1

  • 战机:153.05
  • 墙钟:75.41
  • 开信刀:47.29
  • 灯罩:33.13
  • 栗子:28.95
  • 拼图:23.19
  • 卫生纸:22.51
  • 鸟屋:11.50

图片2

  • 公鸡:72.84

后续内容将根据以上信息继续展开。

本文来源: 图灵汇 文章作者: 旭卿