使用JAX实现完整的Vision Transformer _JAX

本文将展示如何使用JAX/Flax实现Vision Transformer (ViT) ，以及如何使用JAX/Flax训练ViT 。
Vision Transformer
在实现Vision Transformer时，首先要记住这张图。

文章插图
以下是论文描述的ViT执行过程。
从输入图像中提取补丁图像，并将其转换为平面向量。
投影到 Transformer Encoder 来处理的维度
预先添加一个可学习的嵌入([class]标记) ，并添加一个位置嵌入。
由 Transformer Encoder 进行编码处理
使用[class]令牌作为输出，输入到MLP进行分类。
细节实现
下面，我们将使用JAX/Flax创建每个模块。
1、图像到展平的图像补丁
下面的代码从输入图像中提取图像补丁。这个过程通过卷积来实现，内核大小为patch_size * patch_size, stride为patch_size * patch_size ，以避免重复。
class Patches(nn.Module):
patch_size: int
embed_dim: int
def setup(self):
self.conv = nn.Conv(
features=self.embed_dim,
kernel_size=(self.patch_size, self.patch_size),
strides=(self.patch_size, self.patch_size),
padding='VALID'
)
def __call__(self, images):
patches = self.conv(images)
b, h, w, c = patches.shape
patches = jnp.reshape(patches, (b, h*w, c))
return patches
2和3、对展平补丁块的线性投影/添加[CLS]标记/位置嵌入
Transformer Encoder 对所有层使用相同的尺寸大小hidden_dim 。上面创建的补丁块向量被投影到hidden_dim维度向量上。与BERT一样，有一个CLS令牌被添加到序列的开头，还增加了一个可学习的位置嵌入来保存位置信息。
class PatchEncoder(nn.Module):
hidden_dim: int
@nn.compact
def __call__(self, x):
assert x.ndim == 3
n, seq_len, _ = x.shape
# Hidden dim
x = nn.Dense(self.hidden_dim)(x)
# Add cls token
cls = self.param('cls_token', nn.initializers.zeros, (1, 1, self.hidden_dim))
cls = jnp.tile(cls, (n, 1, 1))
x = jnp.concatenate([cls, x], axis=1)
# Add position embedding
pos_embed = self.param(
'position_embedding',
nn.initializers.normal(stddev=0.02), # From BERT
(1, seq_len + 1, self.hidden_dim)
)
return x + pos_embed
4、Transformer encoder
如上图所示，编码器由多头自注意(MSA)和MLP交替层组成。Norm层 (LN)在MSA和MLP块之前，残差连接在块之后。
class TransformerEncoder(nn.Module):
embed_dim: int
hidden_dim: int
n_heads: int
drop_p: float
mlp_dim: int
def setup(self):
self.mha = MultiHeadSelfAttention(self.hidden_dim, self.n_heads, self.drop_p)
self.mlp = MLP(self.mlp_dim, self.drop_p)
self.layer_norm = nn.LayerNorm(epsilon=1e-6)
def __call__(self, inputs, train=True):
# Attention Block
x = self.layer_norm(inputs)
x = self.mha(x, train)
x = inputs + x
# MLP block
y = self.layer_norm(x)
y = self.mlp(y, train)
return x + y
MLP是一个两层网络。激活函数是GELU 。本文将Dropout应用于Dense层之后。
class MLP(nn.Module):
mlp_dim: int
drop_p: float
out_dim: Optional[int] = None
@nn.compact
def __call__(self, inputs, train=True):
actual_out_dim = inputs.shape[-1] if self.out_dim is None else self.out_dim
x = nn.Dense(features=self.mlp_dim)(inputs)
x = nn.gelu(x)
x = nn.Dropout(rate=self.drop_p, deterministic=not train)(x)
x = nn.Dense(features=actual_out_dim)(x)
x = nn.Dropout(rate=self.drop_p, deterministic=not train)(x)
return x
多头自注意(MSA)
qkv的形式应为[B, N, T, D] ，如Single Head中计算权重和注意力后，应输出回原维度[B, T, C=N*D] 。
class MultiHeadSelfAttention(nn.Module):
hidden_dim: int
n_heads: int
drop_p: float
def setup(self):
self.q.NET = nn.Dense(self.hidden_dim)
self.k_net = nn.Dense(self.hidden_dim)
self.v_net = nn.Dense(self.hidden_dim)
self.proj_net = nn.Dense(self.hidden_dim)
self.att_drop = nn.Dropout(self.drop_p)
self.proj_drop = nn.Dropout(self.drop_p)
def __call__(self, x, train=True):
B, T, C = x.shape # batch_size, seq_length, hidden_dim
N, D = self.n_heads, C // self.n_heads # num_heads, head_dim
q = self.q_net(x).reshape(B, T, N, D).transpose(0, 2, 1, 3) # (B, N, T, D)
k = self.k_net(x).reshape(B, T, N, D).transpose(0, 2, 1, 3)
v = self.v_net(x).reshape(B, T, N, D).transpose(0, 2, 1, 3)
# weights (B, N, T, T)
weights = jnp.matmul(q, jnp.swapaxes(k, -2, -1)) / math.sqrt(D)

使用JAX实现完整的Vision Transformer

推荐阅读

拾物记|武则天为何对狄仁杰如此器重甚至在他去世之后哀叹朝堂空矣

虞书欣安崎向岳云鹏认错|虞书欣安崎向岳云鹏认错怎么回事？两人有什么纠葛

IT那些事儿苹果不再赠送充电器和耳机一切向利润看齐的野心

轮滑|60岁大爷玩轮滑和未牵绳的狗相撞，如何划分责任引争议

【食材】家庭烧烤 | 食材简单！比烧烤摊好吃百倍

可爱的贵生|雨过天晴，彩虹出现，4大星座爱情重逢，再度相爱，未来一周

「懒懒的叉子」这样做难道就不怕挨打吗？，搞笑GIF趣图开心一刻：小哥很皮啊

小爱说游戏我把他一个月工资扣了，Uzi极限开团Godv：他要不是俱乐部老板

「玛加迪镇」通讯：“中国维和官兵为我们圆梦”——记中国赴黎巴

生肖|11月中下旬多有机遇降临，贵人提拔点拨，人生与众不同的3生肖

港股挖掘机|| 康德莱医械(01501)涨超5% 中期纯利同比增长42.58%至6739.3万，港股异动

斑马网|再遭泄露噩梦！网上惊现《最后生还者2》多人模式视频

孩子|郑州暴雨众人游泳破窗救下三人救援过程惊心动魄网友点赞

起跑线|汪涵6岁儿子上8个兴趣班被逼到崩溃：鸡娃的隐患，将在10年后爆发

雨晖游戏迷|降服金鱼精时，观音为何不梳妆就来了，你看看她念的咒语是什么，原创

爱云资讯 5.0版本又在云栖大会亮相了，真香！斑马智行4.0刚上车

脸部穴位图及作用?用什么怎么能把脸化装的白白的粉嫩的啊？？？谁能详细点教教我??谢谢!!?

诗文全世界|新时代生活离不开汽车

翡翠|棉不是瑕疵吗？为什么高冰种雪花棉，能够卖上这么昂贵的价格

「润涵谈娱乐」为给纪晓岚“降火”，乾隆皇帝赐给纪晓岚两个宫女