VQVAE:Neural Discrete Representation Learning

论文名称:Neural Discrete Representation Learning
开源地址
发表时间:NIPS2017
作者及组织:Aaron van den Oord,Oriol Vinyals和Koray Kavukcuoglu, 来自DeepMind。

1、VAE

  简单回顾下VAE的损失函数,ELBO的下界为:
L o w e r B o u n d = E q φ ( z ∣ x ) [ l o g p θ ( x ∣ z ) ] − D K L ( q φ ( z ∣ x ) ∣ ∣ p ( z ) ) \begin{equation} Lower Bound =E_{q_\varphi(z|x)}[logp_\theta(x|z)] - D_{KL}(q_\varphi(z|x)||p(z)) \tag{0} \end{equation} LowerBound=Eqφ(zx)[logpθ(xz)]DKL(qφ(zx)∣∣p(z))(0)
 其中第一项为解码器的重构损失(regression loss) ;第二项为正则项,用KL散度来使Encoder----后验概率 q φ ( z ∣ x ) q_\varphi(z|x) qφ(zx) 和 先验 p ( z ) p(z) p(z) 分布近似,通常 p ( z ) p(z) p(z) 假设为多元标准正太分布,该项主要防止VAE坍塌到一个点,毕竟是生成模型。
 而VQVAE和VAE主要不同:Encoder输出是离散的,而不是连续的隐变量z。

1、方法

1.1.模型结构

在这里插入图片描述

 为了实现离散化编码,VQVAE引入了一个可学习的codebook,即上图中的EmbeddingSpace。大概说下流程:输入一张图像,经过CNN得到 z e ( x ) ∈ R H ∗ W ∗ D z_e(x) \in \mathbb{R}^{H*W*D} ze(x)RHWD ,然后计算 z e z_e ze 中每条特征向量跟codebook的最接近的向量的索引,得到 q ( z ∣ x ) ∈ R H ∗ W q(z|x) \in \mathbb{R}^{H*W} q(zx)RHW , 然后用codebook中向量 e i e_i ei 来替换 z e ( x ) z_e(x) ze(x) 得到 z q ( x ) z_q(x) zq(x) 。最后经过Decoder得到 x x x

1.2.训练

 先说下总体损失函数,其实跟VAE的损失函数类似:
L = l o g p ( x ∣ z q ( x ) ) + ∣ ∣ s g [ z e ( x ) ] − e ∣ ∣ 2 2 + β ∣ ∣ z e ( x ) − s g [ e ] ∣ ∣ 2 2 \begin{equation} L = logp(x|z_q(x)) + ||sg[z_e(x)]- e|| ^2_2 + \beta||z_e(x)-sg[e]||^2_2 \tag{1} \end{equation} L=logp(xzq(x))+∣∣sg[ze(x)]e22+β∣∣ze(x)sg[e]22(1)

 其中第一项就是VAE中的重构损失,但有个问题:在用L2 Loss计算重构损失后,反向传播时,由于在codebook中argmin这个操作是不可导的,这样就优化不了Encoder,于是本文直接将 z q ( x ) z_q(x) zq(x) 节点的梯度拷贝给了 z e ( x ) z_e(x) ze(x) ,使得反向传播得以继续。具体的表达式如下:
l o g p ( x ∣ z q ( x ) ) = ∣ ∣ x − d e c o d e r ( z e ( x ) + s g ( z q ( x ) − z e ( x ) ) ) ∣ ∣ 2 2 \begin{equation} logp(x|z_q(x)) = ||x-decoder(z_e(x)+sg(z_q(x)-z_e(x)))||_2^2 \tag{2} \end{equation} logp(xzq(x))=∣∣xdecoder(ze(x)+sg(zq(x)ze(x)))22(2)
 式中的 s g sg sg 表示 .detach() 操作,由于VQVAE多了一个可学习的codebook,而重构损失并没有梯度传过去。因此损失第二项就是让 e e e 逼近 z e ( x ) z_e(x) ze(x) ,这项仅更新codebook。

  由于训练过程中,Encoder相较于codebook,肯定易于优化,也就是Encoder收敛快,而codebook收敛慢 ,为了让Encoder别距离codebook太远,于是增加了第三项损失,让 z e ( x ) z_e(x) ze(x) 逼近 e e e

 在回过头来跟VAE的式子比较下 ,发现缺少了KL散度项:这是因为在VQVAE中,在根据 x x x 取得 e e e 的概率非0即1: q ( z = e ∣ x ) = 1 , q ( z = o t h e r ∣ x = 0 ) q(z=e|x)=1,q(z=other|x=0) q(z=ex)=1,q(z=otherx=0) ,相当于二项分布,同时假设 p ( z ) p(z) p(z) 是均匀分布,两个均匀分布的KL散度是常数,在损失中可忽略。

1.3.生成

 在训练集上训练完VQVAE后,VQVAE学习到的是一个有效的低维度的离散表示。然后将VQVAE置为推理阶段,用自回归模型PixCNN来拟合 q ( z ∣ x ) q(z|x) q(zx) ,训练完成后,PixCNN就能生成有意义的索引矩阵,然后去codebook中拿到对应的张量,送去VQVAE的Decoder中解码生成图像。

2、实验

  生成的小图还是可以的。
在这里插入图片描述

思考

  替换更强的自回归模型Transformer也就是后来VQGAN的工作了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/759204.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

单晶层状氧化物制作方法技术资料 纳离子技术

网盘 https://pan.baidu.com/s/1hjHsXvTXG74-0fDo5TtXWQ?pwd10jk 单晶型高熵普鲁士蓝正极材料及其制备方法与应用.pdf 厘米级铬氧化物单晶及其制备方法和存储器件.pdf 多孔氧化物单晶材料及其制备方法和应用.pdf 大单晶层状氧化物正极材料及其制备方法和应用.pdf 富钠P2相层状…

3DMAX折纸插件FoldPoly使用方法详解

3DMAX折纸插件FoldPoly使用教程 3DMAX折纸插件FoldPoly,用于挤出可编辑多边形的边(边界)并可旋转(折叠)新生成的面,创建类似手工折纸以及纸箱包装盒的建模效果。 【版本要求】 3dMax2014 - 2025&#xff…

线性代数|机器学习-P20鞍点和极值

文章目录 1 . 瑞利商的思考1.1 瑞利商的定义1.2 投影向量 2. 拉格朗日乘子法3. 鞍点 1 . 瑞利商的思考 1.1 瑞利商的定义 假设A是n阶实对称矩阵,x是n维非零列向量,那么瑞利商表示如下: R ( A , x ) x T A x x T x \begin{equation} R(A,x…

嵌入式学习——硬件(ARM内核汇编指令)——day52

ARM汇编指令 学习arm汇编的主要目的是为了编写arm启动代码,启动代码启动以后,引导程序到c语言环境下运行。换句话说启动代码的目的是为了在处理器复位以后搭建c语言最基本的需求。因此启动代码的主要任务有: 初始化异常向量表;初…

前端学习 Vue 插槽如何实现组件内容分发?

目录 一、Vue.js框架介绍二、什么是Vue 插槽三、Vue 插槽的应用场景四、Vue 插槽如何实现组件内容分发 一、Vue.js框架介绍 Vue.js是一个用于构建用户界面的渐进式JavaScript框架。它设计得非常灵活,可以轻松地被集成到现有的项目中,也可以作为一个完整…

Redis-实战篇-缓存击穿问题及解决方案

文章目录 1、缓存击穿2、常见的解决方案有两种:2.1、互斥锁2.2、逻辑过期2.3、两种方案对比 3、利用互斥锁解决缓存击穿问题3.1、ShopServiceImpl.java3.2、使用 jmeter.bat 测试高并发 4、利用逻辑过期解决缓存击穿问题 1、缓存击穿 缓存击穿问题 也叫 热点key问题…

半个月从几十升粉到500(发红包喽)

目录 1. 背景2. 涨粉秘籍2.1 持续创作高质量内容2.1.1 保持频率2.1.2 技术文章为主2.1.3 图文并茂 2.2 积极参与社区活动2.2.1 社区分享2.2.2 发文活动 2.3 互动与建立信任2.3.1 与读者互动2.3.2 红包互动2.3.3 动态分享 2.4 标题与内容的优化2.4.1 标题吸引2.4.2 内容实用 2.5…

【C++】C++ 超市会员卡管理系统(面向对象)(源码+数据)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

【从零开始学架构 架构基础】五 架构设计的复杂度来源:低成本、安全、规模

架构设计的复杂度来源其实就是架构设计要解决的问题,主要有如下几个:高性能、高可用、可扩展、低成本、安全、规模。复杂度的关键,就是新旧技术之间不是完全的替代关系,有交叉,有各自的特点,所以才需要具体…

解决idea中git无法管理项目中所有需要管理的文件

点击文件->设置 选择版本控制—>目录映射 点击加号 设置整个项目被Git管理

springboot助农电商系统-计算机毕业设计源码08655

摘要 近年来,电子商务的快速发展引起了行业和学术界的高度关注。基于移动端的助农电商系统旨在为用户提供一个简单、高效、便捷的农产品购物体验,它不仅要求用户清晰地查看所需信息,而且还要求界面设计精美,使得功能与页面完美融…

【GPU虚拟化到池化技术深度分析 2024】

文末有福利! 随着大模型的兴起,对GPU算力的需求越来越多,而当前现实情况使企业往往受限于有限的GPU卡资源,即便进行了虚拟化,往往也难以充分使用GPU卡资源或持续使用资源。为解决GPU算力资源不均衡等问题,…

国标GB/T 28181详解:国标GBT28181-2022第三方呼叫控制的视音频文件下载流程

目录 一、定义 1、国标GB/T 28181 2、第三方呼叫控制的视音频文件下载流程 二、作用 1、提供有效的数据回顾机制 2、增强监控系统的功能性 3、保障数据传输与存储的可靠性 4、实现精细化的操作与控制 5、促进监控系统的集成与发展 6、提供清晰的信令流程和操作规范 三…

驱动开发:配置Visual Studio驱动开发环境

100编程书屋_孔夫子旧书网 配置驱动开发环境配置驱动开发模板配置驱动双机调试 在正式开始驱动开发之前,需要自行搭建驱动开发的必要环境,首先我们需要安装Visual Studio 2013这款功能强大的程序开发工具,在课件内请双击ISO文件并运行内部的…

基于web的产品管理系统

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 基于web的产品管理系统,java项目。 ecli…

5G RAN

两个entity:NodeB、UE entity之间传输数据的东东 entity内部的流水线岗位:L3/L2/L1 岗位之间是消息交互/信令交互

阿里云centos7.9 挂载数据盘到 www目录

一、让系统显示中文 参考:centos7 怎么让命令行显示中文(英文->中文)_如何在命令行中显示中文-CSDN博客 1、输入命令:locale -a |grep "zh_CN" 可以看到已经存在了中文包 2、输入命令:sudo vi…

在Clion使用CubeMX Stm32的步骤

Step1 准备软件,安装环境: 1. cubemx v6.5.0(可以兼容以前版本的project) https://www.st.com.cn/zh/development-tools/stm32cubemx.html STM32CubeMX 默认安装目录, 6.5版本可以兼容老版本 C:\Program Files\STMicroelectroni…

Golang | Leetcode Golang题解之第199题二叉树的右视图

题目: 题解: /** 102. 二叉树的递归遍历*/ func levelOrder(root *TreeNode) [][]int {arr : [][]int{}depth : 0var order func(root *TreeNode, depth int)order func(root *TreeNode, depth int) {if root nil {return}if len(arr) depth {arr a…

3D Web轻量引擎HOOPS Web Platform赋能AEC行业数字化,高效渲染与多格式支持!

在建筑、工程和施工(AEC)行业,数字化转型和高效协作正变得越来越重要。为应对日益复杂的项目需求和不断提升的质量标准,AEC企业需要一种强大的工具来实现高效的3D可视化和数据管理。HOOPS Web Platform作为一款综合性3D开发平台&a…