Foundation Model Learning1—ALL for VAE

Foundation Model Learning1—ALL for VAE

Wed Apr 01 2026
198 words · 1 minutes

VAE

A Collection of Variational Autoencoders (VAE) in PyTorch.

Collection of generative models, e.g. GAN, VAE in Pytorch and Tensorflow.

Math Foundation

凸函数与Jensen不等式

KL散度

KL 散度通过比较两个高斯分布的对数密度,并利用期望的解析性质,最终得到一个关于均值和方差的闭式表达,用于约束 latent 分布接近标准正态。

DKL(q(zx)p(z))=Eq(zx)[logq(zx)p(z)]D_{KL}(q(z|x)\parallel p(z))=\mathbb{E}_{q(z|x)}\left[\log\frac{q(z|x)}{p(z)}\right]

计算闭式解:

DKL=12i(μi2+σi2logσi21)D_{KL}=\frac{1}{2}\sum_i\left(\mu_i^2+\sigma_i^2-\log\sigma_i^2-1\right)

Principle

输入 x 经 Encoder 得到分布参数,通过重参数化采样得到 z,再由 Decoder 重构,通过“重构损失 + KL 散度”联合优化,从而学习一个连续且可生成的隐空间。

qθ(zx)p(z)pθ(xz)q_{\theta}(z|x)-p(z)-p_{\theta}(x|z)

在VAE里,反向传播在隐变量正态分布采样操作中断;

重参数化

z=μ+σN(0,I)z=\mu+\sigma·N(0,I) L=Eqϕ(zx)[logpθ(xz)]+βDKL(qϕ(zx)p(z))\mathcal{L}=-\mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)]+\underbrace{\beta·D_{KL}(q_\phi(z|x)\|p(z))}

loss推导过程应用Jensen不等式、全概率公式、KL散度等。

Application


Thanks for reading!

Foundation Model Learning1—ALL for VAE

Wed Apr 01 2026
198 words · 1 minutes