Awesome Diffusion

UnitSpeech: Speaker-adaptive Speech Synthesis with Untranscribed Data

Heeseung Kim, Sungwon Kim, Jiheum Yeom, Sungroh Yoon

arXiv 2023. Paper

2023-06-28

Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis

Shivam Mehta, Siyang Wang, Simon Alexanderson, Jonas Beskow, Éva Székely, Gustav Eje Henter

arXiv 2023. Paper

2023-06-15

HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio Codec and Latent Diffusion Models

Ji-Sang Hwang, Sang-Hoon Lee, Seong-Whan Lee

arXiv 2023. Paper

2023-06-12

Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion

Haogeng Liu, Tao Wang, Jie Cao, Ran He, Jianhua Tao

arXiv 2023. Paper

2023-06-09

EmoMix: Emotion Mixing via Diffusion Models for Emotional Speech Synthesis

Haobin Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao

InterSpeech 2023. Paper

2023-06-01

Efficient Neural Music Generation

Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang

arXiv 2023. Paper Github

2023-05-25

Generating symbolic music using diffusion models

Lilac Atassi

arXiv 2023. Paper

2023-03-15

DiffuseRoll: Multi-track multi-category music generation based on diffusion model

Hongfei Wang

arXiv 2023. Paper

2023-03-14

Multi-Source Diffusion Models for Simultaneous Music Generation and Separation

Giorgio Mariani, Irene Tallini, Emilian Postolache, Michele Mancusi, Luca Cosmo, Emanuele Rodolà

arXiv 2023. Paper Project

2023-02-04

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

Ludan Ruan, Yiyang Ma, Huan Yang, Huiguo He, Bei Liu, Jianlong Fu, Nicholas Jing Yuan, Qin Jin, Baining Guo

CVPR 2023. Paper Github

2022-12-19

SDMuse: Stochastic Differential Music Editing and Generation via Hybrid Representation

Chen Zhang, Yi Ren, Kejun Zhang, Shuicheng Yan

arXiv 2022. Paper Project

2022-11-01

Full-band General Audio Synthesis with Score-based Diffusion

Santiago Pascual, Gautam Bhattacharya, Chunghsin Yeh, Jordi Pons, Joan Serrà

arXiv 2022. Paper

2022-10-26

Hierarchical Diffusion Models for Singing Voice Neural Vocoder

Naoya Takahashi, Mayank Kumar, Singh, Yuki Mitsufuji

arXiv 2022. Paper

2022-10-14

Mandarin Singing Voice Synthesis with Denoising Diffusion Probabilistic Wasserstein GAN

Yin-Ping Cho, Yu Tsao, Hsin-Min Wang, Yi-Wen Liu

arXiv 2022. Paper Project

2022-09-21

DDSP-based Singing Vocoders: A New Subtractive-based Synthesizer and A Comprehensive Evaluation

Da-Yi Wu, Wen-Yi Hsiao, Fu-Rong Yang, Oscar Friedman, Warren Jackson, Scott Bruzenak, Yi-Wen Liu, Yi-Hsuan Yang

ISMIR 2022. Paper Github

2022-08-09

ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech

Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, Yi Ren

ACM Multimedia 2022. Paper Project

2022-07-13

CARD: Classification and Regression Diffusion Models

Xizewen Han, Huangjie Zheng, Mingyuan Zhou

NeurIPS 2022. Paper

2022-06-15

Adversarial Audio Synthesis with Complex-valued Polynomial Networks

Yongtao Wu, Grigorios G Chrysos, Volkan Cevher

ICML workshop 2022. Paper

2022-06-14

Multi-instrument Music Synthesis with Spectrogram Diffusion

Curtis Hawthorne, Ian Simon, Adam Roberts, Neil Zeghidour, Josh Gardner, Ethan Manilow, Jesse Engel

ISMIR 2022. Paper

2022-06-11

BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for Binaural Audio Synthesis

Yichong Leng, Zehua Chen, Junliang Guo, Haohe Liu, Jiawei Chen, Xu Tan, Danilo Mandic, Lei He, Xiang-Yang Li, Tao Qin, Sheng Zhao, Tie-Yan Liu

NeurIPS 2022. Paper Github

2022-05-30

FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis

Rongjie Huang, Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu, Yi Ren, Zhou Zhao

IJCAI 2022. Paper Project Github

2022-04-21

SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping

Yuma Koizumi, Heiga Zen, Kohei Yatabe, Nanxin Chen, Michiel Bacchiani

Interspeech 2022. Paper

2022-03-31

BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality Speech Synthesis

Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu

ICLR 2022. Paper Github

2022-03-25

ItôWave: Itô Stochastic Differential Equation Is All You Need For Wave Generation

Shoule Wu, Ziqiang Shi

CoRR 2022. Paper Project

2022-01-29

Itô-Taylor Sampling Scheme for Denoising Diffusion Probabilistic Models using Ideal Derivatives

Hideyuki Tachibana, Mocho Go, Muneyoshi Inahara, Yotaro Katayama, Yotaro Watanabe

arXiv 2021. Paper

2021-12-26

Denoising Diffusion Gamma Models

Eliya Nachmani, Robin San Roman, Lior Wolf

arXiv 2021. Paper

2021-10-10

Variational Diffusion Models

Diederik P. Kingma, Tim Salimans, Ben Poole, Jonathan Ho

NeurIPS 2021. Paper Github

2021-07-01

CRASH: Raw Audio Score-based Generative Modeling for Controllable High-resolution Drum Sound Synthesis

Simon Rouard, Gaëtan Hadjeres

ISMIR 2021. Paper Project

2021-06-14

PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Driven Adaptive Prior

Sang-gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sungroh Yoon, Tie-Yan Liu

ICLR 2022. Paper Project

2021-06-11

ItôTTS and ItôWave: Linear Stochastic Differential Equation Is All You Need For Audio Generation

Shoule Wu, Ziqiang Shi

arXiv 2022. Paper Project

2021-05-17

DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism

Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, Peng Liu, Zhou Zhao

AAAI 2022. Paper Project Github

2021-05-06

Symbolic Music Generation with Diffusion Models

Gautam Mittal, Jesse Engel, Curtis Hawthorne, Ian Simon

ISMIR 2021. Paper Github

2021-03-30

DiffWave: A Versatile Diffusion Model for Audio Synthesis

Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, Bryan Catanzaro

ICLR 2021. Paper Github

2020-09-21

WaveGrad: Estimating Gradients for Waveform Generation

Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi, William Cha

ICLR 2021. Paper Project Github

2020-09-02