Prompt Learning in Computer Vision(continue update...)

2022-11-13

1. CLIP（Learning Transferable Visual Models From Natural Language Supervision）

CLIP

CLIP是OpenAI的一个非常经典的工作，从网上收集了4亿个图片文本对用于训练，最后进行zero-shot transfer到下游任务达到了非常好的效果，主要流程如下：

在训练阶段，文本会通过Text Encoder（Transformer）编码成一些文本Embedding向量，图像会通过Image Encoder（ResNet50或VIT）编码成一些图像Embedding向量，然后将文本Embedding和图像Embedding归一化后通过点积计算出一个相似度矩阵，这里值越接近于1代表文本Embedding和图像Embedding越相似，即这个文本和图像是配对的。我们的目标是让这个相似度矩阵对角线趋向于1，其他趋向于0（对角线代表图像和文本配对）。

测试zero-shot阶段，会将一张没见过的图片通过image Encoder得到图像embedding，然后将所有可能的类别，通过构造a photo of a {object}的文本标签，将所有类别填入object处，通过text encoder，得到所有类别对应的文本embedding，将文本embedding和图像embedding归一化后进行点积，选择点积最大的一个文本-图像对，该类别则为预测类别。

more >>

展开全文 >>

IGRSS2022竞赛总结

2022-03-13

more >>

展开全文 >>

样本不平衡解决方法

2022-01-10

导读

通过某种方法使得不同类别的样本对于模型学习中的Loss（或梯度）贡献是比较均衡的。具体可以从数据样本、模型算法、目标函数、评估指标等方面进行优化，其中数据增强、代价敏感学习及采样+集成学习是比较常用的，效果也是比较明显的。其实，不均衡问题解决也是结合实际再做方法选择、组合及调整，在验证中调优的过程。

more >>

展开全文 >>

Unet系列及其变种

2021-12-05

1 Unet

论文地址：U-Net: Convolutional Networks for Biomedical Image Segmentation；结构如下所示：

Unet最成功的部分或者说性能好的核心是skip connections。如果要改进Unet,一个很大的部分就应该是改进跳层连接。

论文一些重要细节：
(1) 医学图像都是大图，无法整图预测，故一般是重叠裁剪小图预测。为了预测图像边界区域的像素点，先对整图采用overlap-tile策略补全缺失的context，然后再采用重叠裁剪patch。
因为边缘位置预测的置信度很低，一般都会导致预测不出来，故采用镜像操作补充上下文，是个常用的策略。对应我们实际应用时候，测试时候是把roi扩大，或者roi外部镜像填充，然后再进行整图或者小图预测。

(2) 由于训练数据太少，采用大量弹性形变的方式增强数据。这可以让模型更好学习形变不变性，这种增强方式对于医学图像来说很重要，因为形变是医学图像主要的一个变化，对于我们的场景不一定需要。

(3) 在细胞分割任务中的另一个挑战是，如何将同类别的相互接触的目标分开。本文提出了使用一种带权重的损失(weighted loss)。在损失函数中，对于相互接触的细胞像素，其边界赋予更大的权重。

其分割场景和我们实际场景不一样，不清楚边界加权Loss对最终指标有多少影响，但是目前来看没发现有后续论文使用了这种特殊的加权方式，可能作用不大，论文也没有比较加权和不加权性能差异。

需要注意的是原始unet，输入和输出不是一样大，而是输出是输入的一半，目前常用的unet都是输入和输出一样大。

more >>

展开全文 >>

高分辨率可见光图像中建筑物普查与变化检测-竞赛

2021-10-29

一、赛题简介

该赛道为第五届“中科星图杯”国际高分遥感图像解译大赛的赛道之一。比赛分为初赛和决赛，分别有各自的测试集。所有模型性能都是线下训练，在线评估打分和排序。初赛截止时需要提交技术报告，排名前列的队伍进入决赛。决赛前6为优胜队伍。最后成绩是：初赛6/176，top4%，未进决赛。

more >>

展开全文 >>

遥感图像语义分割小记

2020-12-04

一、数据来源

1.1 指导教师提供的数据

共包含5张大尺寸（21184x21279）的卫星原图及其所对应同样大小的建筑、道路、水体和植被的标记图，我们不能直接把这些图像送入网络进行训练，因为内存承受不了，而且他们的尺寸也各不相同。因此，首先将他们做随机切割，即随机生成(x,y)坐标，然后抠出该坐标下256x256的小图，并做一些常见的数据增强操作，使得更适合训练我们的网络，最终获取到5000张256x256大小的训练数据，其中部分数据如下图所示。

链接：https://pan.baidu.com/s/1OqTrmWqR-05zMqNPZqmUnw 提取码：bvuq

1.2 Road and Building Detection Datasets开源数据

其中包括Massachusetts Roads Dataset（马萨诸塞州道路数据集）、Massachusetts Buildings Dataset（马萨诸塞州建筑数据集），共有1109张1500x1500大小的tiff格式的遥感原图及其中对应tif格式的标签图。我们共获取了建筑和道路各36张训练数据、14张验证数据，同上做数据随机分割并进行数据增强。最终生成1500张256x256大小的数据集。其中部分数据如下图所示。

Road and Building Detection Datasets 下载地址

一些处理后的数据

链接：https://pan.baidu.com/s/1NZ0rnpRpzZDIbtbB-LKMqg 提取码：hx7n

more >>

展开全文 >>

优化算法小结

2020-06-17

梯度下降法

以简单的一维梯度下降为例, 解释梯度下降算法可能降低目标函数值的原因。假设连续可导的函数 $f: \mathbb{R} \rightarrow \mathbb{R}$ 的输入和输出都是标量。给定绝对值足唱小的数 $\epsilon$, 根据泰勒展开公式，得到以下的近似:

$f(x+\epsilon) \approx f(x)+\epsilon f^{\prime}(x)$

这里 $f^{\prime}(x)$ 是函数在 $x$ 处的梯度。一维函数的梯度是一个标量, 也称导数。接下来, 找到一个常数 $\eta>0,$ 使得 $\left|\eta f^{\prime}(x)\right|$ 足够小, 那么可以将 $\epsilon$ 替换为 $-\eta f^{\prime}(x)$ 并得到

$f\left(x-\eta f^{\prime}(x)\right) \approx f(x)-\eta f^{\prime}(x)^{2}$

如果导数 $f^{\prime}(x) \neq 0,$ 那么 $\eta f^{\prime}(x)^{2}>0,$ 所以

$f\left(x-\eta f^{\prime}(x)\right) \lesssim f(x)$

这意味着，如果通过

$x \leftarrow x-\eta f^{\prime}(x)$

来迭代 $x,$ 函数 $f(x)$ 的值可能会降低。因此在梯度下降中，我们先选取一个初始值x和常数 $\eta>0,$ 然后不断通过上式来迭代 $x,$ 直到达到停止条件, 例如 $f^{\prime}(x)^{2}$ 的值已足够小或迭代次数已达到某个值 $_{9}$
下面我们以目标函数 $f(x)=x^{2}$ 为例来看一看梯度下降是如何工作的。虽然我们知道最小化 $f(x)$ 的解为 $x=0,$ 这里依然使用这个简单函数来观察 $x$ 是如何被迭代的。首先, 导入本节实验所需的包或模块。

eta=0.05	eta=1.1

more >>

展开全文 >>