Awesome Diffusion

Unleashing Text-to-Image Diffusion Models for Visual Perception

Wenliang Zhao¹, Yongming Rao¹, Zuyan Liu¹, Benlin Liu, Jie Zhou, Jiwen Lu

arXiv 2023. Paper Github

2023-03-03

Collage Diffusion

Vishnu Sarukkai, Linden Li, Arden Ma, Christopher Ré, Kayvon Fatahalian

arXiv 2023. Paper

2023-03-01

Towards Enhanced Controllability of Diffusion Models

Wonwoong Cho, Hareesh Ravi, Midhun Harikumar, Vinh Khuc, Krishna Kumar Singh, Jingwan Lu, David I. Inouye, Ajinkya Kale

arXiv 2023. Paper

2023-02-28

Directed Diffusion: Direct Control of Object Placement through Attention Guidance

Wan-Duo Kurt Ma, J.P. Lewis, W. Bastiaan Kleijn, Thomas Leung

arXiv 2023. Paper

2023-02-25

Modulating Pretrained Diffusion Models for Multimodal Image Synthesis

Cusuh Ham, James Hays, Jingwan Lu, Krishna Kumar Singh, Zhifei Zhang, Tobias Hinz

arXiv 2023. Paper

2023-02-24

Controlled and Conditional Text to Image Generation with Diffusion Prior

Pranav Aggarwal, Hareesh Ravi, Naveen Marri, Sachin Kelkar, Fengbin Chen, Vinh Khuc, Midhun Harikumar, Ritiz Tambi, Sudharshan Reddy Kakumanu, Purvak Lapsiya, Alvin Ghouas, Sarah Saber, Malavika Ramprasad, Baldo Faieta, Ajinkya Kale

arXiv 2023. Paper

2023-02-23

Region-Aware Diffusion for Zero-shot Text-driven Image Editing

Nisha Huang, Fan Tang, Weiming Dong, Tong-Yee Lee, Changsheng Xu

arXiv 2023. Paper Github

2023-02-23

Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC

Yilun Du, Conor Durkan, Robin Strudel, Joshua B. Tenenbaum, Sander Dieleman, Rob Fergus, Jascha Sohl-Dickstein, Arnaud Doucet, Will Grathwohl

arXiv 2023. Paper Project

2023-02-22

Learning 3D Photography Videos via Self-supervised Diffusion on Single Images

Xiaodong Wang¹, Chenfei Wu¹, Shengming Yin, Minheng Ni, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Fan Yang, Lijuan Wang, Zicheng Liu, Yuejian Fang, Nan Duan

arXiv 2023. Paper

2023-02-21

Boundary Guided Mixing Trajectory for Semantic Control with Diffusion Models

Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan

arXiv 2023. Paper

2023-02-16

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

Omer Bar-Tal¹, Lior Yariv¹, Yaron Lipman, Tali Dekel

arXiv 2023. Paper roject Github

2023-02-16

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

Chong Mou, Xintao Wang, Liangbin Xie, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie

arXiv 2023. Paper Github

2023-02-16

Text-driven Visual Synthesis with Latent Diffusion Prior

Ting-Hsuan Liao, Songwei Ge, Yiran Xu, Yao-Chih Lee, Badour AlBahar, Jia-Bin Huang

arXiv 2023. Paper Project

2023-02-16

Exploring the Representation Manifolds of Stable Diffusion Through the Lens of Intrinsic Dimension

Henry Kvinge, Davis Brown, Charles Godfrey

arXiv 2023. Paper

2023-02-16

PRedItOR: Text Guided Image Editing with Diffusion Prio

Hareesh Ravi, Sachin Kelkar, Midhun Harikumar, Ajinkya Kale

arXiv 2023. Paper

2023-02-15

Dataset Interfaces: Diagnosing Model Failures Using Controllable Counterfactual Generation

Joshua Vendrow¹, Saachi Jain¹, Logan Engstrom, Aleksander Madry

arXiv 2023. Paper Github

2023-02-15

Universal Guidance for Diffusion Models

Arpit Bansal¹, Hong-Min Chu¹, Avi Schwarzschild, Soumyadip Sengupta, Micah Goldblum, Jonas Geiping, Tom Goldstein

arXiv 2023. Paper Github

2023-02-14

Text-Guided Scene Sketch-to-Photo Synthesis

AprilPyone MaungMaung, Makoto Shing, Kentaro Mitsui, Kei Sawada, Fumio Okura

arXiv 2023. Paper

2023-02-14

Analyzing Multimodal Objectives Through the Lens of Generative Diffusion Guidance

Chaerin Kong, Nojun Kwak

arXiv 2023. Paper

2023-02-10

Adding Conditional Control to Text-to-Image Diffusion Models

Lvmin Zhang, Maneesh Agrawala

arXiv 2023. Paper Github

2023-02-10

Is This Loss Informative? Speeding Up Textual Inversion with Deterministic Objective Evaluation

Anton Voronov¹, Mikhail Khoroshikh¹, Artem Babenko, Max Ryabinin

arXiv 2023. Paper

2023-02-09

Zero-shot Generation of Coherent Storybook from Plain Text Story using Diffusion Models

Hyeonho Jeong, Gihyun Kwon, Jong Chul Ye

arXiv 2023. Paper

2023-02-08

GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models

Shawn Shan, Jenna Cryan, Emily Wenger, Haitao Zheng, Rana Hanocka, Ben Y. Zhao

arXiv 2023. Paper

2023-02-08

Q-Diffusion: Quantizing Diffusion Models

Xiuyu Li, Long Lian, Yijiang Liu, Huanrui Yang, Zhen Dong, Daniel Kang, Shanghang Zhang, Kurt Keutzer

arXiv 2023. Paper

2023-02-08

Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery

Yuxin Wen¹, Neel Jain¹, John Kirchenbauer, Micah Goldblum, Jonas Geiping, Tom Goldstein

arXiv 2023. Paper Github

2023-02-07

Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness

Felix Friedrich, Patrick Schramowski, Manuel Brack, Lukas Struppek, Dominik Hintersdorf, Sasha Luccioni, Kristian Kersting

arXiv 2023. Paper

2023-02-07

Structure and Content-Guided Video Synthesis with Diffusion Models

Patrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan Granskog, Anastasis Germanidis

arXiv 2023. Paper Project

2023-02-06

Zero-shot Image-to-Image Translation

Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, Jun-Yan Zhu

arXiv 2023. Paper

2023-02-06

Eliminating Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion

Zuopeng Yang, Tianshu Chu, Xin Lin, Erdun Gao, Daqing Liu, Jie Yang, Chaoyue Wang

arXiv 2023. Paper

2023-02-05

ReDi: Efficient Learning-Free Diffusion Inference via Trajectory Retrieval

Kexun Zhang, Xianjun Yang, William Yang Wang, Lei Li

arXiv 2023. Paper

2023-02-05

Mixture of Diffusers for scene composition and high resolution image generation

Álvaro Barbero Jiménez

arXiv 2023. Paper

2023-02-05

Semantic-Guided Image Augmentation with Pre-trained Models

Bohan Li, Xinghao Wang, Xiao Xu, Yutai Hou, Yunlong Feng, Feng Wang, Wanxiang Che

arXiv 2023. Paper

2023-02-04

TEXTure: Text-Guided Texturing of 3D Shapes

Elad Richardson¹, Gal Metzer¹, Yuval Alaluf, Raja Giryes, Daniel Cohen-Or

arXiv 2023. Paper Project Github

2023-02-03

Dreamix: Video Diffusion Models are General Video Editors

Eyal Molad¹, Eliahu Horwitz¹, Dani Valevski¹, Alex Rav Acha, Yossi Matias, Yael Pritch, Yaniv Leviathan, Yedid Hoshen

arXiv 2023. Paper Project

2023-02-02

Trash to Treasure: Using text-to-image models to inform the design of physical artefacts

Amy Smith¹, Hope Schroeder¹, Ziv Epstein, Michael Cook, Simon Colton, Andrew Lippman

arXiv 2023. Paper

2023-02-01

Zero3D: Semantic-Driven Multi-Category 3D Shape Generation

Bo Han, Yitong Liu, Yixuan Shen

arXiv 2023. Paper

2023-01-31

Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models

Hila Chefer¹, Yuval Alaluf¹, Yael Vinker, Lior Wolf, Daniel Cohen-Or

arXiv 2023. Paper Project Github

2023-01-31

GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis

Ming Tao, Bing-Kun Bao, Hao Tang, Changsheng Xu

arXiv 2023. Paper Github

2023-01-30

PromptMix: Text-to-image diffusion models enhance the performance of lightweight networks

Arian Bakhtiarnia, Qi Zhang, Alexandros Iosifidis

arXiv 2023. Paper Github

2023-01-30

Shape-aware Text-driven Layered Video Editing

Yao-Chih Lee, Ji-Ze Genevieve Jang, Yi-Ting Chen, Elizabeth Qiu, Jia-Bin Huang

arXiv 2023. Paper Project

2023-01-30

Towards Equitable Representation in Text-to-Image Synthesis Models with the Cross-Cultural Understanding Benchmark (CCUB) Dataset

Zhixuan Liu, Youeun Shin, Beverley-Claire Okogwu, Youngsik Yun, Lia Coleman, Peter Schaldenbrand, Jihie Kim, Jean Oh

arXiv 2023. Paper

2023-01-28

SEGA: Instructing Diffusion using Semantic Dimensions

Manuel Brack, Felix Friedrich, Dominik Hintersdorf, Lukas Struppek, Patrick Schramowski, Kristian Kersting

arXiv 2023. Paper

2023-01-28

Text-To-4D Dynamic Scene Generation

Uriel Singer¹, Shelly Sheynin¹, Adam Polyak¹, Oron Ashual, Iurii Makarov, Filippos Kokkinos, Naman Goyal, Andrea Vedaldi, Devi Parikh, Justin Johnson, Yaniv Taigman

arXiv 2023. Paper

2023-01-26

Guiding Text-to-Image Diffusion Model Towards Grounded Generation

Ziyi Li, Qinye Zhou, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie

arXiv 2023. Paper Project

2023-01-12

Visual Story Generation Based on Emotion and Keywords

Yuetian Chen, Ruohua Li, Bowen Shi, Peiru Liu, Mei Si

AAAI 2022. Paper

2023-01-07

Muse: Text-To-Image Generation via Masked Generative Transformers

Huiwen Chang¹, Han Zhang¹, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein, Yuanzhen Li, Dilip Krishnan

arXiv 2023. Paper Project

2023-01-02

Exploring Vision Transformers as Diffusion Learners

He Cao, Jianan Wang, Tianhe Ren, Xianbiao Qi, Yihao Chen, Yuan Yao, Lei Zhang

arXiv 2022. Paper

2022-12-28

Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models

Jiale Xu, Xintao Wang, Weihao Cheng, Yan-Pei Cao, Ying Shan, Xiaohu Qie, Shenghua Gao

arXiv 2022. Paper Project

2022-12-28

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Weixian Lei, Yuchao Gu, Wynne Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou

arXiv 2022. Paper Project

2022-12-22

Optimizing Prompts for Text-to-Image Generation

Yaru Hao¹, Zewen Chi¹, Li Dong, Furu Wei

arXiv 2022. Paper Project Github

2022-12-19

Uncovering the Disentanglement Capability in Text-to-Image Diffusion Models

Qiucheng Wu, Yujian Liu, Handong Zhao, Ajinkya Kale, Trung Bui, Tong Yu, Zhe Lin, Yang Zhang, Shiyu Chang

arXiv 2022. Paper Github

2022-12-16

TeTIm-Eval: a novel curated evaluation data set for comparing text-to-image models

Federico A. Galatolo, Mario G. C. A. Cimino, Edoardo Cogotti

arXiv 2022. Paper

2022-12-15

Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting

Su Wang¹, Chitwan Saharia¹, Ceslee Montgomery¹, Jordi Pont-Tuset, Shai Noy, Stefano Pellegrini, Yasumasa Onoe, Sarah Laszlo, David J. Fleet, Radu Soricut, Jason Baldridge, Mohammad Norouzi, Peter Anderson, William Chan

arXiv 2022. Paper

2022-12-13

The Stable Artist: Steering Semantics in Diffusion Latent Space

Manuel Brack, Patrick Schramowski, Felix Friedrich, Dominik Hintersdorf, Kristian Kersting

arXiv 2022. Paper

2022-12-12

Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis

Weixi Feng, Xuehai He, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, Xin Eric Wang, William Yang Wang

arXiv 2022. Paper Github

2022-12-09

SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model

Shaoan Xie, Zhifei Zhang, Zhe Lin, Tobias Hinz, Kun Zhang

arXiv 2022. Paper

2022-12-09

Executing your Commands via Motion Diffusion in Latent Space

Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Jingyi Yu, Gang Yu

arXiv 2022. Paper Project

2022-12-08

Diffusion Guided Domain Adaptation of Image Generators

Kunpeng Song, Ligong Han, Bingchen Liu, Dimitris Metaxas, Ahmed Elgammal

arXiv 2022. Paper Project

2022-12-08

Multi-Concept Customization of Text-to-Image Diffusion

Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu

arXiv 2022. Paper Project

2022-12-08

SINE: SINgle Image Editing with Text-to-Image Diffusion Models

Zhixing Zhang, Ligong Han, Arnab Ghosh, Dimitris Metaxas, Jian Ren

arXiv 2022. Paper Project Github

2022-12-08

SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation

Yen-Chi Cheng, Hsin-Ying Lee, Sergey Tulyakov, Alexander Schwing, Liangyan Gui

arXiv 2022. Paper Project

2022-12-08

MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis

Rishabh Dabral, Muhammad Hamza Mughal, Vladislav Golyanik, Christian Theobalt

arXiv 2022. Paper Project

2022-12-08

Judge, Localize, and Edit: Ensuring Visual Commonsense Morality for Text-to-Image Generation

Seongbeom Park, Suhong Moon, Jinkyu Kim

arXiv 2022. Paper

2022-12-07

Magic: Multi Art Genre Intelligent Choreography Dataset and Network for 3D Dance Generation

Ronghui Li, Junfan Zhao, Yachao Zhang, Mingyang Su, Zeping Ren, Han Zhang, Xiu Li

arXiv 2022. Paper

2022-12-07

Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video Encoding

Gyeongman Kim, Hajin Shim, Hyunsu Kim, Yunjey Choi, Junho Kim, Eunho Yang

arXiv 2022. Paper

2022-12-06

M-VADER: A Model for Diffusion with Multimodal Context

Samuel Weinbach¹, Marco Bellagente¹, Constantin Eichenberg, Andrew Dai, Robert Baldock, Souradeep Nanda, Björn Deiseroth, Koen Oostermeijer, Hannah Teufel, Andres Felipe Cruz-Salinas

arXiv 2022. Paper

2022-12-06

ADIR: Adaptive Diffusion for Image Reconstruction

Shady Abu-Hussein, Tom Tirer, Raja Giryes

arXiv 2022. Paper Project

2022-12-06

Diffusion-SDF: Text-to-Shape via Voxelized Diffusion

Muheng Li, Yueqi Duan, Jie Zhou, Jiwen Lu

arXiv 2022. Paper

2022-12-06

NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors

Congyue Deng, Chiyu "Max'' Jiang, Charles R. Qi, Xinchen Yan, Yin Zhou, Leonidas Guibas, Dragomir Anguelov

arXiv 2022. Paper

2022-12-06

Shape-Guided Diffusion with Inside-Outside Attention

Dong Huk Park¹, Grace Luo¹, Clayton Toste, Samaneh Azadi, Xihui Liu, Maka Karalashvili, Anna Rohrbach, Trevor Darrell

arXiv 2022. Paper Project

2022-12-01

Unite and Conquer: Cross Dataset Multimodal Synthesis using Diffusion Models

Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara, Vishal M. Patel

arXiv 2022. Paper Project

2022-12-01

DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model

Gwanghyun Kim, Se Young Chun

arXiv 2022. Paper Github

2022-11-29

SinDDM: A Single Image Denoising Diffusion Model

Vladimir Kulikov, Shahar Yadin, Matan Kleiner, Tomer Michaeli

arXiv 2022. Paper Project

2022-11-29

Unified Discrete Diffusion for Simultaneous Vision-Language Generation

Minghui Hu, Chuanxia Zheng, Heliang Zheng, Tat-Jen Cham, Chaoyue Wang, Zuopeng Yang, Dacheng Tao, Ponnuthurai N. Suganthan

arXiv 2022. Paper

2022-11-27

SpaText: Spatio-Textual Representation for Controllable Image Generation

Omri Avrahami, Thomas Hayes, Oran Gafni, Sonal Gupta, Yaniv Taigman, Devi Parikh, Dani Lischinski, Ohad Fried, Xi Yin

arXiv 2022. Paper Project

2022-11-25

3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models

Gang Li, Heliang Zheng, Chaoyue Wang, Chang Li, Changwen Zheng, Dacheng Tao

arXiv 2022. Paper

2022-11-25

Shifted Diffusion for Text-to-image Generation

Yufan Zhou, Bingchen Liu, Yizhe Zhu, Xiao Yang, Changyou Chen, Jinhui Xu

arXiv 2022. Paper

2022-11-24

Sketch-Guided Text-to-Image Diffusion Models

Andrey Voynov, Kfir Aberman, Daniel Cohen-Or

arXiv 2022. Paper Project

2022-11-24

SinDiffusion: Learning a Diffusion Model from a Single Natural Image

Weilun Wang, Jianmin Bao, Wengang Zhou, Dongdong Chen, Dong Chen, Lu Yuan, Houqiang Li

arXiv 2022. Paper Github

2022-11-22

Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark

Vitali Petsiuk, Alexander E. Siemenn, Saisamrit Surbehera, Zad Chin, Keith Tyser, Gregory Hunter, Arvind Raghavan, Yann Hicke, Bryan A. Plummer, Ori Kerret, Tonio Buonassisi, Kate Saenko, Armando Solar-Lezama, Iddo Drori

NeurIPS 2022. Paper

2022-11-22

Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation

Narek Tumanyan¹, Michal Geyer¹, Shai Bagon, Tali Dekel

arXiv 2022. Paper

2022-11-22

EDICT: Exact Diffusion Inversion via Coupled Transformations

Bram Wallace, Akash Gokul, Nikhil Naik

arXiv 2022. Paper

2022-11-22

VectorFusion: Text-to-SVG by Abstracting Pixel-Based Diffusion Models

Ajay Jain¹, Amber Xie¹, Pieter Abbeel

arXiv 2022. Paper Project

2022-11-21

Investigating Prompt Engineering in Diffusion Models

Sam Witteveen, Martin Andrews

arXiv 2022. Paper

2022-11-21

SinFusion: Training Diffusion Models on a Single Image or Video

Yaniv Nikankin, Niv Haim, Michal Irani

arXiv 2022. Paper

2022-11-21

DiffStyler: Controllable Dual Diffusion for Text-Driven Image Stylization

Nisha Huang, Yuxin Zhang, Fan Tang, Chongyang Ma, Haibin Huang, Yong Zhang, Weiming Dong, Changsheng Xu

arXiv 2022. Paper

2022-11-19

Magic3D: High-Resolution Text-to-3D Content Creation

Chen-Hsuan Lin¹, Jun Gao¹, Luming Tang¹, Towaki Takikawa¹, Xiaohui Zeng¹, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, Tsung-Yi Lin

arXiv 2022. Paper Project

2022-11-18

Invariant Learning via Diffusion Dreamed Distribution Shifts

Priyatham Kattakinda, Alexander Levine, Soheil Feizi

arXiv 2022. Paper

2022-11-18

InstructPix2Pix: Learning to Follow Image Editing Instructions

Tim Brooks, Aleksander Holynski, Alexei A. Efros

arXiv 2022. Paper

2022-11-17

Null-text Inversion for Editing Real Images using Guided Diffusion Model

Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, Daniel Cohen-Or

arXiv 2022. Paper

2022-11-17

Direct Inversion: Optimization-Free Text-Driven Real Image Editing with Diffusion Models

Adham Elarabawy, Harish Kamath, Samuel Denton

arXiv 2022. Paper

2022-11-15

Versatile Diffusion: Text, Images and Variations All in One Diffusion Model

Xingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi

arXiv 2022. Paper Github

2022-11-15

Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image Generation

Zhihong Pan, Xin Zhou, Hao Tian

arXiv 2022. Paper

2022-11-14

Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models

Patrick Schramowski, Manuel Brack, Björn Deiseroth, Kristian Kersting

arXiv 2022. Paper Github

2022-11-09

Rickrolling the Artist: Injecting Invisible Backdoors into Text-Guided Image Generation Models

Lukas Struppek, Dominik Hintersdorf, Kristian Kersting

arXiv 2022. Paper Github

2022-11-04

eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers

Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, Bryan Catanzaro, Tero Karras, Ming-Yu Liu

arXiv 2022. Paper Github

2022-11-02

UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance

Wei Li, Xue Xu, Xinyan Xiao, Jiachen Liu, Hu Yang, Guohao Li, Zhanpeng Wang, Zhifan Feng, Qiaoqiao She, Yajuan Lyu, Hua Wu

arXiv 2022. Paper

2022-10-28

MagicMix: Semantic Mixing with Diffusion Models

Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng

arXiv 2022. Paper Project

2022-10-28

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts

Zhida Feng¹, Zhenyu Zhang¹, Xintong Yu¹, Yewei Fang, Lanxin Li, Xuyi Chen, Yuxiang Lu, Jiaxiang Liu, Weichong Yin, Shikun Feng, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

arXiv 2022. Paper

2022-10-27

How well can Text-to-Image Generative Models understand Ethical Natural Language Interventions?

Hritik Bansal¹, Da Yin¹, Masoud Monajatipoor, Kai-Wei Chang

EMNLP 2022. Paper Github

2022-10-27

DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models

Zijie J. Wang, Evan Montoya, David Munechika, Haoyang Yang, Benjamin Hoover, Duen Horng Chau

arXiv 2022. Paper Project

2022-10-26

Lafite2: Few-shot Text-to-Image Generation

Yufan Zhou, Chunyuan Li, Changyou Chen, Jianfeng Gao, Jinhui Xu

arXiv 2022. Paper

2022-10-25

High-Resolution Image Editing via Multi-Stage Blended Diffusion

Johannes Ackermann, Minjun Li

NeurIPS Workshop 2022. Paper Github

2022-10-24

A Visual Tour Of Current Challenges In Multimodal Language Models

Shashank Sonkar, Naiming Liu, Richard G. Baraniuk

arXiv 2022. Paper

2022-10-22

Conditional Diffusion with Less Explicit Guidance via Model Predictive Control

Max W. Shen, Ehsan Hajiramezanali, Gabriele Scalia, Alex Tseng, Nathaniel Diamant, Tommaso Biancalani, Andreas Loukas

arXiv 2022. Paper

2022-10-21

Diffusion Models already have a Semantic Latent Space

Mingi Kwon, Jaeseok Jeong, Youngjung Uh

arXiv 2022. Paper Project

2022-10-20

DiffEdit: Diffusion-based semantic image editing with mask guidance

Guillaume Couairon, Jakob Verbeek, Holger Schwenk, Matthieu Cord

arXiv 2022. Paper

2022-10-20

Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for Text-to-Image Generation

Ruijun Li, Weihua Li, Yi Yang, Hanyu Wei, Jianhua Jiang, Quan Bai

arXiv 2022. Paper

2022-10-18

UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image

Dani Valevski, Matan Kalman, Yossi Matias, Yaniv Leviathan

arXiv 2022. Paper

2022-10-18

Imagic: Text-Based Real Image Editing with Diffusion Models

Bahjat Kawar¹, Shiran Zada¹, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, Michal Irani

arXiv 2022. Paper

2022-10-17

Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion Image Manipulation

Chaerin Kong, DongHyeon Jeon, Ohjoon Kwon, Nojun Kwak

arXiv 2022. Paper

2022-10-12

Unifying Diffusion Models' Latent Space, with Applications to CycleDiffusion and Guidance

Chen Henry Wu, Fernando De la Torre

arXiv 2022. Paper Github-1 Github-2

2022-10-11

clip2latent: Text driven sampling of a pre-trained StyleGAN using denoising diffusion and CLIP

Justin N. M. Pinkney, Chuan Li

BMVC 2022. Paper Github

2022-10-05

LDEdit: Towards Generalized Text Guided Image Manipulation via Latent Diffusion Models

Paramanand Chandramouli, Kanchana Vaishnavi Gandikota

arXiv 2022. Paper

2022-10-05

DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics

Ivan Kapelyukh, Vitalis Vosylius, Edward Johns

arXiv 2022. Paper

2022-10-05

Imagen Video: High Definition Video Generation with Diffusion Models

Jonathan Ho¹, William Chan¹, Chitwan Saharia¹, Jay Whang¹, Ruiqi Gao, Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David J. Fleet, Tim Salimans

arXiv 2022. Paper

2022-10-05

Membership Inference Attacks Against Text-to-image Generation Models

Yixin Wu, Ning Yu, Zheng Li, Michael Backes, Yang Zhang

arXiv 2022. Paper

2022-10-03

Creative Painting with Latent Diffusion Models

Xianchao Wu

arXiv 2022. Paper

2022-09-29

Re-Imagen: Retrieval-Augmented Text-to-Image Generator

Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen

arXiv 2022. Paper

2022-09-29

DreamFusion: Text-to-3D using 2D Diffusion

Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall

arXiv 2022. Paper Github

2022-09-29

Make-A-Video: Text-to-Video Generation without Text-Video Data

Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman

arXiv 2022. Paper

2022-09-29

Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal Guided Diffusion

Nisha Huang, Fan Tang, Weiming Dong, Changsheng Xu

arXiv 2022. Paper Github

2022-09-27

Personalizing Text-to-Image Generation via Aesthetic Gradients

Victor Gallego

NeurIPS 2022. Paper Github

2022-09-25

Best Prompts for Text-to-Image Models and How to Find Them

Nikita Pavlichenko, Dmitry Ustalov

arXiv 2022. Paper

2022-09-23

The Biased Artist: Exploiting Cultural Biases via Homoglyphs in Text-Guided Image Generation Models

Lukas Struppek, Dominik Hintersdorf, Kristian Kersting

arXiv 2022. Paper Github

2022-09-19

Generative Visual Prompt: Unifying Distributional Control of Pre-Trained Generative Models

Chen Henry Wu, Saman Motamed, Shaunak Srivastava, Fernando De la Torre

NeurIPS 2022. Paper Github

2022-09-14

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman

arXiv 2022. Paper Project Github

2022-08-25

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models

Robin Rombach¹, Andreas Blattmann¹, Björn Ommer

arXiv 2022. Paper Github

2022-07-26

Discrete Contrastive Diffusion for Cross-Modal and Conditional Generation

Ye Zhu, Yu Wu, Kyle Olszewski, Jian Ren, Sergey Tulyakov, Yan Yan

arXiv 2022. Paper Github

2022-06-15

Blended Latent Diffusion

Omri Avrahami, Ohad Fried, Dani Lischinski

ACM 2022. Paper Project Github

2022-06-06

Compositional Visual Generation with Composable Diffusion Models

Nan Liu¹, Shuang Li¹, Yilun Du¹, Antonio Torralba, Joshua B. Tenenbaum

ECCV 2022. Paper Project Github

2022-06-03

DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder

Jie Shi¹, Chenfei Wu¹, Jian Liang, Xiang Liu, Nan Duan

arXiv 2022. Paper

2022-06-01

Text2Human: Text-Driven Controllable Human Image Generation

Yuming Jiang, Shuai Yang, Haonan Qiu, Wayne Wu, Chen Change Loy, Ziwei Liu

ACM 2022. Paper Github

2022-05-31

Improved Vector Quantized Diffusion Models

Zhicong Tang, Shuyang Gu, Jianmin Bao, Dong Chen, Fang Wen

arXiv 2022. Paper Github

2022-05-31

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Chitwan Saharia¹, William Chan¹, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, Mohammad Norouzi

NeurIPS 2022. Paper Github

2022-05-23

Retrieval-Augmented Diffusion Models

Andreas Blattmann¹, Robin Rombach¹, Kaan Oktay, Björn Ommer

arXiv 2022. Paper Github

2022-04-25

Hierarchical Text-Conditional Image Generation with CLIP Latents

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen

arXiv 2022. Paper Github

2022-04-13

KNN-Diffusion: Image Generation via Large-Scale Retrieval

Oron Ashual, Shelly Sheynin, Adam Polyak, Uriel Singer, Oran Gafni, Eliya Nachmani, Yaniv Taigman

arXiv 2022. Paper

2022-04-06

High-Resolution Image Synthesis with Latent Diffusion Models

Robin Rombach¹, Andreas Blattmann¹, Dominik Lorenz, Patrick Esser, Björn Ommer

CVPR 2022. Paper Github

2021-12-20

Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

Zhisheng Xiao, Karsten Kreis, Arash Vahdat

ICLR 2022 (Spotlight). Paper Project

2021-12-15

More Control for Free! Image Synthesis with Semantic Diffusion Guidance

Xihui Liu, Dong Huk Park, Samaneh Azadi, Gong Zhang, Arman Chopikyan, Yuxiao Hu, Humphrey Shi, Anna Rohrbach, Trevor Darrell

arXiv 2021. Paper Project

2021-12-10

Blended Diffusion for Text-driven Editing of Natural Images

Omri Avrahami, Dani Lischinski, Ohad Fried

CVPR 2022. Paper Project Github

2021-11-29

Vector Quantized Diffusion Model for Text-to-Image Synthesis

Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen, Lu Yuan, Baining Guo

CVPR 2022. Paper Github

2021-11-29

DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models

Gwanghyun Kim, Jong Chul Ye

CVPR 2022. Paper

2021-10-06