[Stereo_cnn][cvpr16]Efficient Deep Learning for Stereo Matching(未完成)

最新推荐文章于 2025-07-25 14:45:13 发布

原创

最新推荐文章于 2025-07-25 14:45:13 发布 · 2.6k 阅读

3 ·

CC 4.0 BY-SA版权

本文探讨了一种高效但精度略有下降的深度学习方法，用于双目视觉的视差计算。采用类似MC-CNN的Siamese网络结构，通过内积计算特征向量并用多分类模型预测视差，输出置信度。训练中，视差计算被视为多分类任务，并通过softmax计算损失函数。

[Paper note](Efficient Deep Learning for Stereo Matching)

这篇文章介绍一种更加快速但是只损失少量精确度的双目视差计算方法。其使用的主要框架与MC-CNN类似，尤其是Fast 框架，直接对两个由Siamese network得到feature vectors进行inner product计算。然后对结果的预测采用多类分类的模型，类别即不同大小的disparity(MC-CNN中采用二元分类)，这样可以输出结果的置信度，用来帮助判断结果是否可信。

https://imgbb.com/‘>best free photo hosting site

siamese 网络是由两个相同分支网络组成的结构，能够对两组输入数据进行相同的处理。我们采用传统的卷积 $\to$ BN $\to$ RELU $\to$ pooling $\to$ 卷积 $\to$ … 卷积 $\to$ BN $\to$ Softmax 形式构建网络。卷积核为(5x5或3x3 的大小) , 一般我们每一层用32或者64个卷积核。上图是一个用了3x3卷积核的4层的网络，因此整个网络对输入数据具有一个9x9的感受野(如果用3x3的kernel，stride=1，每一次卷积都会增大感受野（如何用kernel_size和s表示），感受野长度此时+1，所以在经过四次卷积之后，网络感受野增加至9x9)

训练

我们将视差计算问题当做一个多分类问题来处理，其中类别为所有可能的视差值。
训练数据：训练时，我们从左图选取一个patch，令 $(x_i, y_i)$ 为patch的中心像素， $d_{x_i, y_i}$ 为对应的disparity的GT。从而我们从以左图patch为输入的siames网络得到64维的特征向量，从另一分支得到 |i|∗

最低0.47元/天解锁文章