Introduction

Expertise

PhD in Information Science & Technology Conferred by the University of Tokyo [URL][certificate]
Selected as a Stanford/Elsevier World’s Top 2% Scientist [certificate]
Having Papers Published at Top Venues, e.g., CVPR, ICLR, NeurIPS, ICML (See “Selected Papers“)
Fluent in Japanese (Native), English (英検1級), French (仏検準1級)

Experience

Distinguished Engineer, Sony Group Corporation [profile]
- Building Technologies to Expand the Future of Sound for Creators [URL]
Lead Research Scientist / VP of AI Research, Sony AI [profile]
- Sights on AI: Yuki Mitsufuji Shares Inspiration for AI Research into Music and Sound [URL]
- Interview with Yuki Mitsufuji: Improving AI Image Generation [URL]
Head of Ethical Creative & Protective AI Lab, Sony R&D [URL][demo]
- Music Restoration of a Canadian Pianist Glen Gould [YouTube]
- Soundtrack Restoration of a Classic Movie Lawrence of Arabia [YouTube]
Visiting Research Professor at New York University 2025–present
Former Specially Appointed Associate Professor at Tokyo Institute of Technology 2022–2024 [2022][2023]
IEEE Senior Member [certificate][URL]
Associate Editor of the SPS Open Journal of Signal Processing (OJSP) [URL]
Area Chair of NeurIPS, ICLR, ICML, ACL, ICASSP
Invited Researcher at IRCAM 2011–2012 [URL]
- Contributed to the 3DTV Content Search Project Sponsored by European Project FP7 [URL]

News

I gave a talk at the United Nations
4 papers were accepted to ECCV 2026
I gave a tutorial on continuous & discrete diffusion at CVPR 2026
I gave a keynote talk at the IEEE S&P 2026 ArtSec workshop
I gave a keynote talk at the ICASSP 2026 SMM workshop
3 papers were accepted to ICML 2026 (+two TMLR papers to be presented)
My interview on Protective AI was published in Nikkei Journal on Mar. 14, 2026 [URL]
1 blog post was accepted to ICLR 2026 [blog]
4 papers were accepted to CVPR 2026 (PAVAS as Oral)
My interview on Protective AI was published in Nikkei Digital Governance on Feb. 19, 2026 [URL]
Our project was featured on the front page of Nikkei Journal on Feb. 16, 2026 [URL]
Our diffusion tutorial was accepted to CVPR 2026 [tutorial][URL]
8 papers were accepted to ICLR 2026
9 papers were accepted to ICASSP 2026
5 papers were accepted to NeurIPS 2025

Publications

Selected Papers

Dongseok Shim, Julian Tanke, Kengo Uchida, Christian simon, Koichi Saito, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, “Odoriko: A Shape-Aware Multimodal Diffusion Framework for Human Motion,” accepted at European Conference on Computer Vision (ECCV), 2026 [arXiv][demo]
Yuya Kobayashi, Masato Ishii, Yuhta Takida, Takashi Shibuya, Yuki Mitsufuji, “Spectral Prior for Reducing Exposure Bias in Diffusion Models,” accepted at European Conference on Computer Vision (ECCV), 2026
Naveen George, Naoki Murata, Yuhta Takida, Konda Reddy Mopuri, Yuki Mitsufuji, “Locality-Aware Continual Unlearning for Diffusion Models,” accepted at European Conference on Computer Vision (ECCV), 2026 [arXiv][code]
Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji, “Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance,” accepted at European Conference on Computer Vision (ECCV), 2026 [arXiv]
Naoki Murata, Yuhta Takida, Chieh-Hsin Lai, Toshimitsu Uesaka, Bac Nguyen, Stefano Ermon, Yuki Mitsufuji, “GUDA: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning,” accepted at International Conference on Machine Learning (ICML), 2026 [arXiv][code]
Silin Gao, Hao Zhao, Zeming Chen, Sepideh Mamooler, Antara Raaghavi Bhattacharya, Qiyu Wu, Hiromi Wakaki, Yuki Mitsufuji, Li Mi, Syrielle Montariol, Antoine Bosselut, “Schema-Guided World Modeling for Understanding Hierarchical Visual Dynamics,” accepted at International Conference on Machine Learning (ICML), 2026 [arXiv][code]
Geyang Guo, Hiromi Wakaki, Yuki Mitsufuji, Alan Ritter, Wei Xu, “Learning to Route Languages for Multilingual Preference Optimization,” accepted at International Conference on Machine Learning (ICML), 2026 [arXiv][code]
Satoshi Hayakawa, Yuhta Takida, Masaaki Imaizumi, Hiromi Wakaki, Yuki Mitsufuji, “Demystifying MaskGIT Sampler and Beyond: Adaptive Order Selection in Masked Diffusion,” Transactions on Machine Learning Research (TMLR), 2026 [OpenReview][arXiv] – Featured Certification
Zheyuan Hu, Chieh-Hsin Lai, Ge Wu, Yuki Mitsufuji, Stefano Ermon, “MeanFlow Transformers with Representation Autoencoders,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 25709–25718, 2026 [CVF][arXiv][code]
Oh Hyun-Bin, Yuhta Takida, Toshimitsu Uesaka, Tae-Hyun Oh, Yuki Mitsufuji, “PAVAS: Physics-Aware Video-to-Audio Synthesis,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14481–14491, 2026 [CVF][arXiv][demo] – Oral
Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, “Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 15840–15849, 2026 [CVF][arXiv][demo]
Honggyu An, Jaewoo Jung, Mungyeom Kim, Chaehyun Kim, Minkyeong Jeon, Jisang Han, Kazumi Fukuda, Takuya Narihira, Hyunah Ko, Junsu Kim, Sunghwan Hong, Yuki Mitsufuji, Seungryong Kim, “Learning Concept 3D Representations from Feed-Forward Novel View Synthesis,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 363–373, 2026 [CVF][arXiv][code][demo]

Books

Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon, “The Principles of Diffusion Models,” 2025 [arX i v][project][ICLR blog][CVPR tutorial][teaching guide]

Journal Papers

Satoshi Hayakawa, Yuhta Takida, Masaaki Imaizumi, Hiromi Wakaki, Yuki Mitsufuji, “Demystifying MaskGIT Sampler and Beyond: Adaptive Order Selection in Masked Diffusion,” Transactions on Machine Learning Research (TMLR), 2026 [OpenReview][arXiv] – Featured Certification
Masato Hirano, Shimada Kazuki, Yuichiro Koyama, Shusuke Takahashi, Yuki Mitsufuji, “Diffusion-based Signal Refiner for Speech Enhancement and Separation,” IEEE Transactions on Audio, Speech, and Language Processing (Trans. ASLP), pp. 1–16, 2026 [IEEE][arXiv]
Fabio Morreale, Marco Martinez-Ramirez, Raul Masu, WeiHsiang Liao, Yuki Mitsufuji, “Reductive, Exclusionary, Normalising: The Limits of Generative AI,” Transactions of the International Society for Music Information Retrieval (Trans. ISMIR), vol. 8, no. 1, pp. 300–312, 2025 [TISMIR]
Naoki Murata, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Bac Nguyen, Stefano Ermon, Yuki Mitsufuji, “G2D2: Gradient-Guided Discrete Diffusion for Image Inverse Problem Solving,” Transactions on Machine Learning Research (TMLR), 2025 [OpenReview][arXiv][code] – Journal-to-Conference Certification
M. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass, “GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models,” Transactions on Machine Learning Research (TMLR), 2025 [OpenReview][arXiv][code]
Yutong He, Alexander Robey, Naoki Murata, Yiding Jiang, Joshua Williams, George J. Pappas, Hamed Hassani, Yuki Mitsufuji, Ruslan Salakhutdinov, J. Zico Kolter, “Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation,” Transactions on Machine Learning Research (TMLR), 2025 [OpenReview][arXiv][code][demo]
Kazuki Shimada, Kengo Uchida, Yuichiro Koyama, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, Tatsuya Kawahara, “Open-Vocabulary Sound Event Localization and Detection with Joint Learning of CLAP Embedding and Activity-Coupled Cartesian DOA Vector,” IEEE Transactions on Audio, Speech, and Language Processing (Trans. ASLP), vol. 33, pp.2946–2960, 2025 [IEEE]
Sungho Lee, Marco Martínez-Ramírez, Weihsiang Liao, Stefan Uhlich, Giorgio Fabbro, Kyogu Lee, Yuki Mitsufuji, “Reverse Engineering of Music Mixing Graphs with Differentiable Processors and Iterative Pruning,” Journal of the Audio Engineering Society (JAES), vol. 73, issue 6, pp. 344–365, 2025 [AES][arXiv][code]
WeiHsiang Liao, Yuhta Takida, Yukara Ikemiya, Zhi Zhong, Chieh-Hsin Lai, Giorgio Fabbro, Kazuki Shimada, Keisuke Toyama, Kinwai Cheuk, Marco A. Martínez-Ramírez, Shusuke Takahashi, Stefan Uhlich, Taketo Akama, Woosung Choi, Yuichiro Koyama, Yuki Mitsufuji, “Music Foundation Model as Generic Booster for Music Downstream Tasks,” Transactions on Machine Learning Research (TMLR), 2025 [OpenReview][arXiv]
Ryosuke Sawata, Naoya Takahashi, Stefan Uhlich, Shusuke Takahashi, Yuki Mitsufuji, “The Whole Is Greater than the Sum of Its Parts: Improving Music Source Separation by Bridging Networks,” EURASIP Journal Audio, Speech, and Music Processing (EURASIP J. ASMP), vol. 2024, Issue 1, pp. 39–58, 2024 [EURASHIP][arXiv]
Yuhta Takida, Yukara Ikemiya, Takashi Shibuya, Kazuki Shimada, Woosung Choi, Chieh-Hsin Lai, Naoki Murata, Toshimitsu Uesaka, Kengo Uchida, Wei-Hsiang Liao, Yuki Mitsufuji, “HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes,” Transactions on Machine Learning Research (TMLR), 2024 [OpenReview][arXiv]
Stefan Uhlich, Giorgio Fabbro, Masato Hirano, Shusuke Takahashi, Gordon Wichern, Jonathan Le Roux, Dipam Chakraborty, Sharada Mohanty, Kai Li, Yi Luo, Jianwei Yu, Rongzhi Gu, Roman Solovyev, Alexander Stempkovskiy, Tatiana Habruseva, Mikhail Sukhovei, Yuki Mitsufuji, “The Sound Demixing Challenge 2023 – Cinematic Demixing Track,” Transactions of the International Society for Music Information Retrieval (Trans. ISMIR), vol. 7, Issue 1, pp. 44–62, 2024 [TISMIR][arXiv][challenge]
Giorgio Fabbro, Stefan Uhlich, Chieh-Hsin Lai, Woosung Choi, Marco Martínez-Ramírez, Weihsiang Liao, Igor Gadelha, Geraldo Ramos, Eddie Hsu, Hugo Rodrigues, Fabian-Robert Stöter, Alexandre Défossez, Yi Luo, Jianwei Yu, Dipam Chakraborty, Sharada Mohanty, Roman Solovyev, Alexander Stempkovskiy, Tatiana Habruseva, Nabarun Goswami, Tatsuya Harada, Minseok Kim, Jun Hyung Lee, Yuanliang Dong, Xinran Zhang, Jiafeng Liu, Yuki Mitsufuji, “The Sound Demixing Challenge 2023 – Music Demixing Track,” Transactions of the International Society for Music Information Retrieval (Trans. ISMIR), vol. 7, Issue 1, pp. 63–84, 2024 [TISMIR][arXiv][dataset][challenge]
Yuhta Takida, Wei-Hsiang Liao, Toshimitsu Uesaka, Shusuke Takahashi, Yuki Mitsufuji, “Preventing Oversmoothing in VAE via Generalized Variance Parameterization,” Neurocomputing, vol. 509, pp. 137–156, 2022 [Elsevier][arXiv]
Yuki Mitsufuji, Giorgio Fabbro, Stefan Uhlich, Fabian-Robert Stöter, Alexandre Défossez, Minseok Kim, Woosung Choi, Chin-Yun Yu, Kin-Wai Cheuk, “Music Demixing Challenge 2021,” Frontiers in Signal Processing (Front. signal process.), vol. 1, 2022 [Frontiers][arXiv][challenge][bibtex]
Jihui Aimee Zhang, Naoki Murata, Yu Maeno, Prasanga N. Samarasinghe, Thushara D. Abhayapala, Yuki Mitsufuji, “Coherence-Based Performance Analysis on Noise Reduction in Multichannel Active Noise Control Systems,” Journal of the Acoustical Society of America (JASA), vol. 148, issue 3, 2020 [ASA]
Yuki Mitsufuji, Norihiro Takamune, Shoichi Koyama, Hiroshi Saruwatari, “Multichannel Blind Source Separation Based on Evanescent-Region-Aware Non-Negative Tensor Factorization in Spherical Harmonic Domain,” IEEE/ACM Transactions on Audio, Speech, and Language Processing (Trans. ASLP), vol. 29, pp. 607–617, 2020 [IEEE][bibtex]
Tetsu Magariyachi, Yuki Mitsufuji, “Analytic Error Control Methods for Efficient Rotation in Dynamic Binaural Rendering of Ambisonics,” Journal of the Acoustical Society of America (JASA), vol. 147, issue 1, 2020 [ASA]
Yu Maeno, Yuki Mitsufuji, Prasanga N. Samarasinghe, Naoki Murata, Thushara D. Abhayapala, “Spherical-Harmonic-Domain Feedforward Active Noise Control Using Sparse Decomposition of Reference Signals from Distributed Sensor Arrays,” IEEE/ACM Transactions on Audio, Speech, and Language Processing (Trans. ASLP), vol. 28, pp. 656–670, 2019 [IEEE][bibtex]
Yuki Mitsufuji, Stefan Uhlich, Norihiro Takamune, Daichi Kitamura, Shoichi Koyama, Hiroshi Saruwatari, “Multichannel Non-Negative Matrix Factorization Using Banded Spatial Covariance Matrices in Wavenumber Domain,” IEEE/ACM Transactions on Audio, Speech, and Language Processing (Trans. ASLP), vol. 28, pp. 49–60, 2019 [IEEE][bibtex]
Fabian-Robert Stöter, Stefan Uhlich, Antoine Liutkus, Yuki Mitsufuji, “Open-Unmix – A Reference Implementation for Music Source Separation,” Journal of Open Source Software (JOSS), vol. 4, no. 41, pp. 1667, 2019 [OSI][code][bibtex]
Yuki Mitsufuji, Axel Röbel, “On the Use of a Spatial Cue as Prior Information for Stereo Sound Source Separation Based on Spatially Weighted Non-Negative Tensor Factorization,” EURASIP Journal of Advancement of Signal Processing (EURASIP J. Adv. Signal Process.), issue 1, 2014 [Springer][bibtex]

Conference Papers

Sungho Lee, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Kyogu Lee, Yuki Mitsufuji, “Exploring the Design Space of Representation Learning for Audio Transformations,” accepted at International Society for Music Information Retrieval (ISMIR) Conference, 2026
Recep Oguz Araz, Joan Serrà, Yuki Mitsufuji, Xavier Serra, Dmitry Bogdanov, Unified Musical Track and Version Identification at Scale and in the Wild,” accepted at International Society for Music Information Retrieval (ISMIR) Conference, 2026
Dongseok Shim, Julian Tanke, Kengo Uchida, Christian simon, Koichi Saito, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, “Odoriko: A Shape-Aware Multimodal Diffusion Framework for Human Motion,” accepted at European Conference on Computer Vision (ECCV), 2026 [arXiv][demo]
Yuya Kobayashi, Masato Ishii, Yuhta Takida, Takashi Shibuya, Yuki Mitsufuji, “Spectral Prior for Reducing Exposure Bias in Diffusion Models,” accepted at European Conference on Computer Vision (ECCV), 2026
Naveen George, Naoki Murata, Yuhta Takida, Konda Reddy Mopuri, Yuki Mitsufuji, “Locality-Aware Continual Unlearning for Diffusion Models,” accepted at European Conference on Computer Vision (ECCV), 2026 [arXiv][code]
Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji, “Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance,” accepted at European Conference on Computer Vision (ECCV), 2026 [arXiv]
Purnima Kamath, Adrian S. Roman, Koichi Saito, Yuki Mitsufuji, Juan P. Bello, “Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry,” accepted at Annual Conference of the International Speech Communication Association (INTERSPEECH), 2026 [arXiv]
Naoki Murata, Yuhta Takida, Chieh-Hsin Lai, Toshimitsu Uesaka, Bac Nguyen, Stefano Ermon, Yuki Mitsufuji, “GUDA: Counterfactual Group-wise Training Data Attribution for Diffusion Models via Unlearning,” accepted at International Conference on Machine Learning (ICML), 2026 [arXiv][code]
Silin Gao, Hao Zhao, Zeming Chen, Sepideh Mamooler, Antara Raaghavi Bhattacharya, Qiyu Wu, Hiromi Wakaki, Yuki Mitsufuji, Li Mi, Syrielle Montariol, Antoine Bosselut, “Schema-Guided World Modeling for Understanding Hierarchical Visual Dynamics,” accepted at International Conference on Machine Learning (ICML), 2026 [arXiv][code]
Geyang Guo, Hiromi Wakaki, Yuki Mitsufuji, Alan Ritter, Wei Xu, “Learning to Route Languages for Multilingual Preference Optimization,” accepted at International Conference on Machine Learning (ICML), 2026 [arXiv][code]
Zheyuan Hu, Chieh-Hsin Lai, Ge Wu, Yuki Mitsufuji, Stefano Ermon, “MeanFlow Transformers with Representation Autoencoders,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 25709–25718, 2026 [CVF][arXiv][code]
Oh Hyun-Bin, Yuhta Takida, Toshimitsu Uesaka, Tae-Hyun Oh, Yuki Mitsufuji, “PAVAS: Physics-Aware Video-to-Audio Synthesis,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14481–14491, 2026 [CVF][arXiv][demo] – Oral
Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, “Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 15840–15849, 2026 [CVF][arXiv][demo]
Honggyu An, Jaewoo Jung, Mungyeom Kim, Chaehyun Kim, Minkyeong Jeon, Jisang Han, Kazumi Fukuda, Takuya Narihira, Hyunah Ko, Junsu Kim, Sunghwan Hong, Yuki Mitsufuji, Seungryong Kim, “Learning Concept 3D Representations from Feed-Forward Novel View Synthesis,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 363–373, 2026 [CVF][arXiv][code][demo]
Kevin Rojas, Ye He, Chieh-Hsin Lai, Yuta Takida, Yuki Mitsufuji, Molei Tao, “Improving Classifier-Free Guidance in Masked Diffusion: Low-Dim Theoretical Insights with High-Dim Impact,” in Proc. International Conference on Learning Representations (ICLR), 2026 [OpenReview][arXiv]
JoungBin Lee, Jaewoo Jung, Jisang Han, Takuya Narihira, Kazumi Fukuda, Junyoung Seo, Sunghwan Hong, Yuki Mitsufuji, Seungryong Kim, “3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation,” in Proc. International Conference on Learning Representations (ICLR), 2026 [OpenReview][arXiv][code][demo]
Seungheon Doh, Junghyun Koo, Marco A. Martínez-Ramírez, Woosung Choi, Wei-Hsiang Liao, Qiyu Wu, Juhan Nam, Yuki Mitsufuji, “LLM2Fx-Tools: Tool Calling For Music Post-Production,” in Proc. International Conference on Learning Representations (ICLR), 2026 [OpenReview][arXiv][demo]
Yuhta Takida, Satoshi Hayakawa, Takashi Shibuya, Masaaki Imaizumi, Naoki Murata, Bac Nguyen, Toshimitsu Uesaka, Chieh-Hsin Lai, Yuki Mitsufuji, “SONA: Learning Conditional, Unconditional, and Matching-Aware Discriminator,” in Proc. International Conference on Learning Representations (ICLR), 2026 [OpenReview][arXiv]
Bac Nguyen, Yuhta Takida, Naoki Murata, Chieh-Hsin Lai, Toshimitsu Uesaka, Stefano Ermon, Yuki Mitsufuji, “Improved Object-Centric Diffusion Learning with Registers and Contrastive Alignment,” in Proc. International Conference on Learning Representations (ICLR), 2026 [OpenReview][arXiv]
Yonghyun Park, Chieh-Hsin Lai, Satoshi Hayakawa, Yuhta Takida, Naoki Murata, Wei-Hsiang Liao, Woosung Choi, Kin Wai Cheuk, Junghyun Koo, Yuki Mitsufuji, “Concept-TRAK: Understanding How Diffusion Models Learn Concepts through Concept-Level Attribution,” in Proc. International Conference on Learning Representations (ICLR), 2026 [OpenReview][arXiv]
Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji, Stefano Ermon, “CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models,” in Proc. International Conference on Learning Representations (ICLR), 2026 [OpenReview][arXiv][code]
Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji, “VIRTUE: Visual-Interactive Text-Image Universal Embedder,” in Proc. International Conference on Learning Representations (ICLR), 2026 [OpenReview][arXiv]
Yongyi Zang, Jiarui Hai, Wanying Ge, Qiuqiang Kong, Zheqi Dai, Helin Wang, Yuki Mitsufuji, Mark D. Plumbley, “Summary of The Inaugural Music Source Restoration Challenge,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 21853–21855, 2026 [IEEE][arXiv]
Satvik Dixit, Koichi Saito, Zhi Zhong, Yuki Mitsufuji, Chris Donahue, “FoleyBench: A Benchmark For Video-to-Audio Models,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 14512–14516, 2026 [IEEE][arXiv][dataset][demo]
Eloi Moliner, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Kin Wai Cheuk, Joan Serrà, Vesa Välimäki, Yuki Mitsufuji, “Automatic Music Mixing Using a Generative Model of Effect Embeddings,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 14582–14586, 2026 [IEEE][arXiv][code][demo]
Alain Riou, Joan Serrà, Yuki Mitsufuji, “Automatic Music Sample Identification with Multi-Track Contrastive Learning,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 14587–14591, 2026 [IEEE][arXiv][code]
Zachary Novack, Koichi Saito, Zhi Zhong, Takashi Shibuya, Shuyang Cui, Julian McAuley, Taylor Berg-Kirkpatrick, Christian Simon, Shusuke Takahashi, Yuki Mitsufuji, “FlashFoley: Fast Interactive Sketch2Audio Generation,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 15497–15501, 2026 [IEEE][demo]
Eleonora Mancini, Joan Serrà, Paolo Torroni, Yuki Mitsufuji, “Leveraging Whisper Embeddings for Audio-based Lyrics Matching,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 15967–15971, 2026 [IEEE][arXiv][code]
Akira Takahashi, Shusuke Takahashi, Yuki Mitsufuji, “MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 15667–15671, 2026 [IEEE][arXiv][code]
Azalea Gui, Woosung Choi, Junghyun Koo, Kazuki Shimada, Takashi Shibuya, Joan Serrà, Wei-Hsiang Liao, Yuki Mitsufuji, “Towards Blind Data Cleaning: A Case Study in Music Source Separation,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 14882–14886, 2026 [IEEE][arXiv]
Kazuki Shimada, Christian Simon, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, “SAVGBench: Benchmarking Spatially Aligned Audio-Video Generation,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 11977–11981, 2026 [IEEE][arXiv][code][dataset]
Keisuke Toyama, Zhi Zhong, Akira Takahashi, Shusuke Takahashi, Yuki Mitsufuji, “Do Foundational Audio Encoders Understand Music Structure?,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 15242–15246, 2026 [IEEE][arXiv][code]
Fabio Morreale, Joan Serrà, Yuki Mitsufuji, “Emergent, not Immanent: A Baradian Reading of Explainable AI,” in Proc. the ACM Conference on Human Factors in Computing Systems (CHI), pp. 1–15, 2026 [ACM][arXiv]
Xinlei Niu, Kin Wai Cheuk, Jing Zhang, Naoki Murata, Chieh-Hsin Lai, Michele Mancusi, Woosung Choi, Giorgio Fabbro, Wei-Hsiang Liao, Charles Patrick Martin, Yuki Mitsufuji, “SteerMusic: Enhanced Musical Consistency for Zero-shot Text-Guided and Personalized Music Editing,” in Proc. Annual AAAI Conference on Artificial Intelligence (AAAI), pp. 2000–2010, 2026 [AAAI][arXiv][code][demo]
Junyoung Seo, Jisang Han, Jaewoo Jung, Siyoon Jin, Joungbin Lee, Takuya Narihira, Kazumi Fukuda, Takashi Shibuya, Donghoon Ahn, Shoukang Hu, Seungryong Kim, Yuki Mitsufuji, “Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry,” in Proc. Annual AAAI Conference on Artificial Intelligence (AAAI), pp.8787–8795, 2026 [AAAI][arXiv][code][demo]
Woosung Choi, Junghyun Koo, Kin Wai Cheuk, Joan Serrà, Marco A. Martínez-Ramírez, Yukara Ikemiya, Naoki Murata, Yuhta Takida, Wei-Hsiang Liao, Yuki Mitsufuji, “Large-Scale Training Data Attribution for Music Generative Models via Unlearning,” in Proc. Neural Information Processing Systems (NeurIPS), 2025 [OpenReview][arXiv]
Yonghyun Kim, Wayne Chi, Anastasios N. Angelopoulos, Wei-Lin Chiang, Koichi Saito, Shinji Watanabe, Yuki Mitsufuji, Chris Donahue, “Music Arena: Live Evaluation for Text-to-Music,” in Proc. Neural Information Processing Systems (NeurIPS), 2025 [OpenReview][arXiv][code][demo]
Chihiro Nagashima, Akira Takahashi, Zhi Zhong, Shusuke Takahashi, Yuki Mitsufuji, “Studies for: A Human-AI Co-Creative Sound Artwork Using a Real-time Multi-channel Sound Generation Model,” in Proc. Neural Information Processing Systems (NeurIPS), 2025 [OpenReview][arXiv][demo][video]
Jisang Han, Honggyu An, Jaewoo Jung, Takuya Narihira, Junyoung Seo, Kazumi Fukuda, Chaehyun Kim, Sunghwan Hong, Yuki Mitsufuji, Seungryong Kim, “Enhancing 3D Reconstruction for Dynamic Scenes,” in Proc. Neural Information Processing Systems (NeurIPS), pp. 1210–1234, 2025 [NeurIPS][OpenReview][arXiv][demo]
Jiaben Chen, Zixin Wang, Ailing Zeng, Yang Fu, Xueyang Yu, Siyuan Cen, Julian Tanke, Yihang Chen, Koichi Saito, Yuki Mitsufuji, Chuang Gan, “TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation,” in Proc. Neural Information Processing Systems (NeurIPS), 2025 [NeurIPS][OpenReview][arXiv][dataset][demo]
Jihui (Aimee) Zhang, Thushara D. Abhayapala, Naoki Murata, Prasanga N. Samarasinghe, Yu Maeno, Yuki Mitsufuji, “Performance Analysis of Active Noise Control over a Spatial Region,” in Proc. Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), 2025 [IEEE]
Zhuoyuan Mao, Mengjie Zhao, Qiyu Wu, Hiromi Wakaki, Yuki Mitsufuji, “DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning,” in Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 12937–12959, 2025 [ACL][arXiv][code][dataset]
Geyang Guo, Tarek Naous, Hiromi Wakaki, Yukiko Nishimura, Yuki Mitsufuji, Alan Ritter, Wei Xu, “CARE: Aligning Language Models for Regional Cultural Awareness,” in Proc. Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 32854–32883, 2025 [ACL][arXiv][code][dataset]
Yuanhong Chen, Kazuki Shimada, Christian Simon, Yukara Ikemiya, Takashi Shibuya, Yuki Mitsufuji, “CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation,” in Proc. ACM Multimedia (ACMMM), pp.7510–7518, 2025 [ACM][arXiv][code] – ACM Showcase [URL]
Shuichiro Nishigori, Koichi Saito, Naoki Murata, Masato Hirano, Shusuke Takahashi, Yuki Mitsufuji, “Schrödinger Bridge Consistency Trajectory Models for Speech Enhancement,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2025 [IEEE][arXiv][code]
Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Yuki Mitsufuji, György Fazekas, “Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2025 [IEEE][arXiv][code]
Zhi Zhong, Akira Takahashi, Shuyang Cui, Keisuke Toyama, Shusuke Takahashi, Yuki Mitsufuji, “SpecMaskFoley: Steering Pretrained Spectral Masked Generative Transformer Toward Synchronized Video-to-audio Synthesis via ControlNet,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2025 [IEEE][arXiv][demo]
Seungheon Doh, Junghyun Koo, Marco A. Martínez-Ramírez, Wei-Hsiang Liao, Juhan Nam, Yuki Mitsufuji, “Can Large Language Models Predict Audio Effects Parameters from Natural Language?,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2025 [IEEE][arXiv][code][dataset][demo]
Christian Simon, Masato Ishii, Akio Hayakawa, Zhi Zhong, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji, “TITAN-Guide: Taming Inference-Time Alignment for Guided Text-to-Video Diffusion Models,” in Proc. International Conference on Computer Vision (ICCV), pp. 16662–16671, 2025 [CVF][arXiv][demo]
Zerui Tao, Yuhta Takida, Naoki Murata, Qibin Zhao, Yuki Mitsufuji, “Transformed Low-rank Adaptation via Tensor Decomposition and Its Applications to Text-to-Image Models,” in Proc. International Conference on Computer Vision (ICCV), pp. 16333–16344, 2025 [CVF][arXiv][code]
Yichen Huang, Zachary Novack, Koichi Saito, Jiatong Shi, Shinji Watanabe, Yuki Mitsufuji, John Thickstun, Chris Donahue, “Aligning Text-to-Music Evaluation with Human Preferences,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, 2025 [ISMIR][arXiv][code][dataset][demo]
Junghyun Koo, Marco A. Martínez-Ramírez, Wei-Hsiang Liao, Giorgio Fabbro, Michele Mancusi, Yuki Mitsufuji, “ITO-Master: Inference-Time Optimization for Audio Effects Modeling of Music Mastering Processors,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, 2025 [ISMIR][arXiv][code]
Yen-Tung Yeh, Junghyun Koo, Marco Martínez-Ramírez, Wei-Hsiang Liao, Yi-Hsuan Yang, Yuki Mitsufuji, “Fx-Encoder++: Extracting Instrument-Wise Audio Effect Representations from Mixtures,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, 2025 [ISMIR][arXiv][code]
Recep Oguz Araz, Guillem Cortès-Sebastià, Emilio Molina, Joan Serrà, Xavier Serra, Yuki Mitsufuji, Dmitry Bogdanov, “Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, 2025 [ISMIR][arXiv][code][dataset]
Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon, “Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, 2025 [ISMIR][arXiv][code][demo]
Yigitcan Özer, Woosung Choi, Joan Serrà, Mayank Kumar Singh, Wei-Hsiang Liao, Yuki Mitsufuji, “A Comprehensive Real-World Assessment of Audio Watermarking Algorithms: Will They Survive Neural Codecs?,” in Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 5113–5117, 2025 [ISCA][arXiv][code]
Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji, “DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions,” in Proc. Digital Audio Effect Conference (DAFx), pp. 334–341, 2025 [DAFx][arXiv][code]
Satoshi Hayakawa, Yuhta Takida, Masaaki Imaizumi, Hiromi Wakaki, Yuki Mitsufuji, “Distillation of Discrete Diffusion through Dimensional Correlations,” in Proc. International Conference on Machine Learning (ICML), pp. 22259–22297, 2025 [PRML][OpenReview][arXiv][code]
Joan Serrà, R. Oguz Araz, Dmitry Bogdanov, Yuki Mitsufuji, “Supervised Contrastive Learning from Weakly-labeled Audio Segments for Musical Version Matching,” in Proc. International Conference on Machine Learning (ICML), pp. 53923–53939, 2025 [PRML][OpenReview][arXiv][code]
Gianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji, “VCT: Training Consistency Models with Variational Noise Coupling,” in Proc. International Conference on Machine Learning (ICML), pp. 55657–55683, 2025 [PRML][OpenReview][arXiv][code]
Masato Ishii, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji, “A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation,” in Proc. IEEE International Joint Conference on Neural Networks (IJCNN), 2025 [IEEE][arXiv][code]
Bac Nguyen, Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Stefano Ermon, Yuki Mitsufuji, “Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion,” in Proc. IEEE International Joint Conference on Neural Networks (IJCNN), 2025 [IEEE][arXiv] – Best Industrial Paper Award [URL][certificate]
Yuya Kobayashi, Yuhta Takida, Takashi Shibuya, Yuki Mitsufuji, “Efficiency without Compromise: CLIP-aided Text-to-Image GANs with Increased Diversity,” in Proc. IEEE International Joint Conference on Neural Networks (IJCNN), 2025 [IEEE][arXiv]
Christian Marinoni, Riccardo Fosco Gramaccioni, Kazuki Shimada, Takashi Shibuya, Yuki Mitsufuji, Danilo Comminiello, “StereoSync: Spatially-Aware Stereo Audio Generation from Videos,” in Proc. IEEE International Joint Conference on Neural Networks (IJCNN), 2025 [arXiv]
Silin Gao, Sheryl Mathew, Li Mi, Sepideh Mamooler, Mengjie Zhao, Hiromi Wakaki, Yuki Mitsufuji, Syrielle Montariol, Antoine Bosselut, “VinaBench: Benchmark for Faithful and Consistent Visual Narratives,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2870–2879, 2025 [CVF][IEEE][arXiv][code][demo]
Anubhav Jain, Yuya Kobayashi, Takashi Shibuya, Yuhta Takida, Nasir Memon, Julian Togelius, Yuki Mitsufuji, “Classifier-Free Guidance inside the Attraction Basin May Cause Memorization,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 12871–12879, 2025 [CVF][IEEE][arXiv][code]
Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji, “MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 28901–28911, 2025 [CVF][IEEE][arXiv][code][demo][colab]
Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji, “SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation,” in Proc. International Conference on Learning Representations (ICLR), pp. 57803–57832, 2025 [ICLR][OpenReview][arXiv][code][demo]
Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji, “MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation,” in Proc. International Conference on Learning Representations (ICLR), pp. 54368–54393, 2025 [ICLR][OpenReview][arXiv][code]
Yong-Hyun Park, Chieh-Hsin Lai, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji, “Jump Your Steps: Optimizing Sampling Schedule of Discrete Diffusion Models,” in Proc. International Conference on Learning Representations (ICLR), pp. 96272–96300, 2025 [ICLR][OpenReview][arXiv][code]
Ayano Hiranaka, Shang-Fu Chen, Chieh-Hsin Lai, Dongjun Kim, Naoki Murata, Takashi Shibuya, Wei-Hsiang Liao, Shao-Hua Sun, Yuki Mitsufuji, “HERO: Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning,” in Proc. International Conference on Learning Representations (ICLR), 54942–54971, 2025 [ICLR][OpenReview][arXiv][code][demo]
Saurav Jha, Shiqi Yang, Masato Ishii, Mengjie Zhao, Christian Simon, Jehanzeb Mirza, Dong Gong, Lina Yao, Shusuke Takahashi, Yuki Mitsufuji, “Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models,” in Proc. International Conference on Learning Representations (ICLR), pp. 102294–102323, 2025 [ICLR][OpenReview][arXiv][demo]
Toshimitsu Uesaka, Taiji Suzuki, Yuhta Takida, Chieh-Hsin Lai, Naoki Murata, Yuki Mitsufuji, “Weighted Point Set Embedding for Multimodal Contrastive Learning Toward Optimal Similarity Metric,” in Proc. International Conference on Learning Representations (ICLR), pp. 32997–33018, 2025 [ICLR][OpenReview][arXiv][code] – Spotlight
Shoko Araki, Nobutaka Ito, Reinhold Haeb-Umbach, Gordon Wichern, Zhong-Qiu Wang, Yuki Mitsufuji, “30+ Years of Source Separation Research: Achievements and Future Challenges,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025 [IEEE][arXiv]
Geoffroy Peeters, Zafar Rafii, Magdalena Fuentes, Zhiyao Duan, Emmanouil Benetos, Juhan Nam, Yuki Mitsufuji, “Twenty-Five Years of MIR Research: Achievements, Practices, Evaluations, and Future Challenges,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025 [IEEE][arXiv]
Michele Mancusi, Yurii Halychansky, Kin Wai Cheuk, Chieh-Hsin Lai, Stefan Uhlich, Junghyun Koo, Marco A. Martínez-Ramírez, Wei-Hsiang Liao, Giorgio Fabbro, Yuki Mitsufuji, “Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025 [IEEE][arxiv][code][demo]
Yunkee Chae, Woosung Choi, Yuhta Takida, Junghyun Koo, Yukara Ikemiya, Zhi Zhong, Kin Wai Cheuk, Marco A. Martínez-Ramírez, Kyogu Lee, Wei-Hsiang Liao, Yuki Mitsufuji, “Variable Bitrate Residual Vector Quantization for Audio Coding,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025 [IEEE][arXiv][code][demo]
Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, “PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher,” in Proc. Neural Information Processing Systems (NeurIPS), pp. 19167–19208, 2024 [NeurIPS][arXiv][code]
Junyoung Seo, Kazumi Fukuda, Takashi Shibuya, Takuya Narihira, Naoki Murata, Shoukang Hu, Chieh-Hsin Lai, Seungryong Kim, Yuki Mitsufuji, “GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping,” in Proc. Neural Information Processing Systems (NeurIPS), pp. 80220–80243, 2024 [NeurIPS][arXiv][code][demo]
Roser Batlle-Roca, Wei-Hsiang Liao, Xavier Serra, Yuki Mitsufuji, Emilia Gómez, “Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, pp. 1004–1011, 2024 [ISMIR][arXiv][code]
Marco Comunita, Zhi Zhong, Akira Takahashi, Shiqi Yang, Mengjie Zhao, Koichi Saito, Yukara Ikemiya. Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, “SpecMaskGIT: Masked Generative Modeling of Audio Spectrograms for Efficient Audio Synthesis and Beyond,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, pp. 420–428, 2024 [ISMIR][arXiv][demo]
Mayank Kumar Singh, Naoya Takahashi, Wei-Hsiang Liao, Yuki Mitsufuji, “SilentCipher: Deep Audio Watermarking,” in Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 2235–2239, 2024 [ISCA][arXiv][code][demo]
Silin Gao, Mete Ismayilzada, Mengjie Zhao, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut, “DiffuCOMET: Contextual Commonsense Knowledge Diffusion,” in Proc. the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 4809–4831, 2024 [ACL][arXiv][code]
Mengjie Zhao, Junya Ono, Zhi Zhong, Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Wei-Hsiang Liao, Takashi Shibuya, Hiromi Wakaki, Yuki Mitsufuji, “On the Language Encoder of Contrastive Cross-modal Models,” In Findings of the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 4923–4940, 2024 [ACL][arXiv]
Sungho Lee, Marco Martínez-Ramírez, Wei-Hsiang Liao, Stefan Uhlich, Giorgio Fabbro, Kyogu Lee, Yuki Mitsufuji, “Searching For Music Mixing Graphs: A Pruning Approach,” in Proc. Digital Audio Effect Conference (DAFx), pp. 147–154, 2024 [DAFx][arXiv][code][demo] – Beset Show & Tell Award [certificate]
Yu-Hua Chen, Woosung Choi, Wei-Hsiang Liao, Marco A. Martínez-Ramírez, Kin Wai Cheuk, Yuki Mitsufuji, Jyh-Shing Roger Jang and Yi-Hsuan Yang, “Improving Unsupervised Clean-to-Rendered Guitar Tone Transformation Using GANs and Integrated Unaligned Clean Data,” in Proc. Digital Audio Effect Conference (DAFx), pp. 192–199, 2024 [DAFx][arXiv][demo]
Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Martínez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon, “MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models,” in Proc. International Joint Conferences on Artificial Intelligence (IJCAI) AI, Arts & Creativity Track, pp. 7805–7813, 2024 [IJCAI][arXiv][code][demo][video]
Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yutong He, Yuki Mitsufuji, Stefano Ermon, “Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion,” in Proc. International Conference on Learning Representations (ICLR), pp. 44493–44525, 2024 [ICLR][OpenReview][arXiv][code][demo]
Yutong He, Naoki Murata, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Dongjun Kim, Wei-Hsiang Liao, Yuki Mitsufuji, Zico Kolter, Ruslan Salakhutdinov, Stefano Ermon, “Manifold Preserving Guided Diffusion,” in Proc. International Conference on Learning Representations (ICLR), pp. 44819–44850, 2024 [ICLR][OpenReview][arXiv][code][demo]
Yuhta Takida, Masaaki Imaizumi, Takashi Shibuya, Chieh-Hsin Lai, Toshimitsu Uesaka, Naoki Murata, Yuki Mitsufuji, “SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer,” in Proc. International Conference on Learning Representations (ICLR), pp. 9609–9641, 2024 [ICLR][OpenReview][arXiv][code][demo]
Carlos Hernandez-Olivan, Koichi Saito, Naoki Murata, Chieh-Hsin Lai, Marco A. Martínez-Ramirez, Wei-Hsiang Liao, Yuki Mitsufuji, “VRDMG: Vocal Restoration via Diffusion Posterior Sampling with Multiple Guidance,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 596–600, 2024 [IEEE][arXiv][demo]
Kazuki Shimada, Kengo Uchida, Yuichiro Koyama, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, Tatsuya Kawahara, “Zero- and Few-shot Sound Event Localization and Detection,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 636–640, 2024 [IEEE][arXiv]
Frank Cwitkowitz, Kin-Wai Cheuk, Woosung Choi, Marco A. Martínez-Ramírez, Keisuke Toyama, Wei-Hsiang Liao, Yuki Mitsufuji, “Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music Transcription,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 1291–1295, 2024 [IEEE][arXiv][code][demo]
Takashi Shibuya, Yuhta Takida, Yuki Mitsufuji, “BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network,” in Proc. at International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 10121–10125, 2024 [IEEE][arXiv][demo][code]
Hao Shi, Kazuki Shimada, Masato Hirano, Takashi Shibuya, Yuichiro Koyama, Zhi Zhong, Shusuke Takahashi, Tatsuya Kawahara, Yuki Mitsufuji, “Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 12951–12955, 2024 [IEEE][arXiv]
Eleonora Grassucci, Yuki Mitsufuji, Ping Zhang, Danilo Comminiello, “Enhancing Semantic Communication with Deep Generative Models – An ICASSP Special Session Overview,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 13021–13025, 2024 [IEEE][arXiv]
Kazuki Shimada, Archontis Politis, Parthasaarathy Sudarsanam, Daniel Krause, Kengo Uchida, Sharath Adavanne, Aapo Hakala, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji, “STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events,” in Proc. Neural Information Processing Systems (NeurIPS), pp. 72931–72957, 2023 [NeurIPS][OpenReview][arXiv][code][dataset][demo]
Zhi Zhong, Hao Shi, Masato Hirano, Kazuki Shimada, Kazuya Tateishi, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, “Extending Audio Masked Autoencoders Toward Audio Restoration,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 1–5, 2023 [IEEE][arXiv][demo][bibtex]
Keisuke Toyama, Taketo Akama, Yukara Ikemiya, Yuhta Takida, WeiHsiang Liao, Yuki Mitsufuji, “Automatic Piano Transcription with Hierarchical Frequency-Time Transformer,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, pp. 215–222, 2023 [ISMIR][arXiv][code]
Ryosuke Sawata, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, “Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement,” in Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 3824–3828, 2023 [ISCA][arXiv][code]
Silin Gao, Beatriz Borges, Soyoung Oh, Deniz Bayazit, Saya Kanno, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut, “PeaCoK: Persona Commonsense Knowledge for Consistent and Engaging Narratives,” in Proc. the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 6569–6591, 2023 [ACL][arXiv][code][bibtex] – Outstanding Paper Award [certificate]
Naoki Murata, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, “GibbsDDRM: A Partially Collapsed Gibbs Sampler for Solving Blind Linear Inverse Problems with Denoising Diffusion Restoration,” in Proc. International Conference on Machine Learning (ICML), pp. 25501–25522, 2023 [PRML][OpenReview][arXiv][code][bibtex] – Oral
Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, “FP-Diffusion: Improving Score-based Diffusion Models by Enforcing the Underlying Score Fokker-Planck Equation,” in Proc. International Conference on Machine Learning (ICML), pp. 18365–18398, 2023 [PRML][OpenReview][arXiv][code][bibtex]
Zhi Zhong, Masato Hirano, Kazuki Shimada, Kazuya Tateishi, Shusuke Takahashi, Yuki Mitsufuji, “An Attention-based Approach to Hierarchical Multi-label Music Instrument Classification,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp.1–5, 2023 [IEEE][arXiv][bibtex]
Koichi Saito, Naoki Murata, Toshimitsu Uesaka, Chieh-Hsin Lai, Yuhta Takida, Takao Fukui, Yuki Mitsufuji, “Unsupervised Vocal Dereverberation with Diffusion-based Generative Models,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 [IEEE][arXiv][demo][bibtex]
Junghyun Koo, Marco A. Martı́nez-Ramı́rez, Wei-Hsiang Liao, Stefan Uhlich, Kyogu Lee, Yuki Mitsufuji, “Music Mixing Style Transfer: A Contrastive Learning Approach to Disentangle Audio Effects,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 [IEEE][arXiv][demo][code][bibtex]
Naoya Takahashi, Mayank Kumar, Singh, Yuki Mitsufuji, “Hierarchical Diffusion Models for Singing Voice Neural Vocoder,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 [IEEE][arXiv][demo][bibtex]
Kin-Wai Cheuk, Ryosuke Sawata, Toshimitsu Uesaka, Naoki Murata, Naoya Takahashi, Shusuke Takahashi, Dorien Herremans, Yuki Mitsufuji, “DiffRoll: Diffusion-based Generative Music Transcription with Unsupervised Pretraining Capability,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 [IEEE][arXiv][demo][code][bibtex]
Hao-Wen Dong, Naoya Takahashi, Yuki Mitsufuji, Julian McAuley, Taylor Berg-Kirkpatrick, “CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled Videos,” in Proc. International Conference on Learning Representations (ICLR), 2023 [OpenReview][arXiv][demo][code][bibtex]
Silin Gao, Jena D. Hwang, Saya Kanno, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut, “ComFact: A Benchmark for Linking Contextual Commonsense Knowledge,” In Findings of Conference on Empirical Methods in Natural Language Processing (EMNLP), pp.1656–1675, 2022 [ACL][arXiv][code][bibtex]
Marco A. Martínez Ramírez, WeiHsiang Liao, Giorgio Fabbro, Stefan Uhlich, Chihiro Nagashima, Yuki Mitsufuji, “Automatic Music Mixing with Deep Learning and Out-of-Domain Data,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, pp.411–418, 2022 [ISMIR][arXiv][demo][code]
Johannes Imort, Giorgio Fabbro, Marco A. Martinez Ramirez, Stefan Uhlich, Yuichiro Koyama, Yuki Mitsufuji, “Distortion Audio Effects: Learning How to Recover the Clean Signal,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, pp.218–225, 2022 [ISMIR][arXiv][demo]
Yuhta Takida, Takashi Shibuya, WeiHsiang Liao, Chieh-Hsin Lai, Junki Ohmura, Toshimitsu Uesaka, Naoki Murata, Shusuke Takahashi, Toshiyuki Kumakura, Yuki Mitsufuji, “SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization,” in Proc. International Conference on Machine Learning (ICML), pp.20987–21012, 2022 [PMLR][arXiv][code][bibtex]
Kazuki Shimada, Yuichiro Koyama, Shusuke Takahashi, Naoya Takahashi, Emiru Tsunoo, Yuki Mitsufuji, “Multi-ACCDOA: Localizing and Detecting Overlapping Sounds from the Same Class with Auxiliary Duplicating Permutation Invariant Training,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 316–320, 2022 [IEEE][arXiv][bibtex]
Bo-Yu Chen, Wei-Han Hsu, Wei-Hsiang Liao, Marco A. Martínez Ramírez, Yuki Mitsufuji, Yi-Hsuan Yang, “Automatic DJ Transitions with Differentiable Audio Effects and Generative Adversarial Networks,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 466–470, 2022 [IEEE][arXiv][demo][code][bibtex]
Yuichiro Koyama, Kazuhide Shigemi, Masafumi Takahashi, Kazuki Shimada, Naoya Takahashi, Emiru Tsunoo, Shusuke Takahashi, Yuki Mitsufuji, “Spatial Data Augmentation with Simulated Room Impulse Responses for Sound Event Localization and Detection,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 8872–8876, 2022 [IEEE][arXiv][bibtex]
Yuichiro Koyama, Naoki Murata, Stefan Uhlich, Giorgio Fabbro, Shusuke Takahashi, Yuki Mitsufuji, “Music Source Separation with Deep Equilibrium Models,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 296–300, 2022 [IEEE][arXiv][bibtex]
Ricardo Falcon-Perez, Kazuki Shimada, Yuichiro Koyama, Shusuke Takahashi, Yuki Mitsufuji, “Spatial Mixup: Directional Loudness Modification as Data Augmentation for Sound Event Localization and Detection,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 431–435, 2022 [IEEE][arXiv][code][bibtex]
Naoya Takahashi, Yuki Mitsufuji, “Amicable Examples for Informed Source Separation,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 241–245, 2022 [IEEE][arXiv][bibtex]
Naoya Takahashi, Mayank Kumar Singh, Yuki Mitsufuji, “Source Mixing and Separation Robust Audio Steganography,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 4368–4372, 2022 [arXiv]
Yasuhide Hyodo, Chihiro Sugai, Junya Suzuki, Masafumi Takahashi, Masahiko Koizumi, Asako Tomura, Yuki Mitsufuji, Yota Komoriya, “Psychophysiological Effect of Immersive Spatial Audio Experience Enhanced Using Sound Field Synthesis,” in Proc. International Conference on Affective Computing & Intelligent Interaction (ACII), pp. 1–8, 2021 [IEEE][bibtex]
Naoya Takahashi, Kumar Singh Singh, Yuki Mitsufuji, “Hierarchical Disentangled Representation Learning for Singing Voice Conversion,” International Joint Conference on Neural Networks (IJCNN), pp. 1–7, 2021 [IEEE][arXiv][bibtex]
Naoya Takahashi, Yuki Mitsufuji, “Densely Connected Multi-Dilated Convolutional Networks for Dense Prediction Tasks,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 993–1002, 2021 [CVF][IEEE][arXiv][code][bibtex]
Kazuki Shimada, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Yuki Mitsufuji, “ACCDOA: Activity-Coupled Cartesian Direction of Arrival Representation for Sound Event Localization And Detection,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 915–919, 2021 [IEEE][arXiv][code][bibtex]
Naoya Takahashi, Shota Inoue, Yuki Mitsufuji, “Adversarial Attacks on Audio Source Separation,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 521–525, 2021 [IEEE][arXiv][bibtex]
Ryosuke Sawata, Stefan Uhlich, Shusuke Takahashi, Yuki Mitsufuji, “All for One and One for All: Improving Music Separation by Bridging Networks,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 51–55, 2021 [IEEE][arXiv][code][bibtex]
Yu Maeno, Yuhta Takida, Naoki Murata, Yuki Mitsufuji, “Array-Geometry-Aware Spatial Active Noise Control Based on Direction-of-Arrival Weighting,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 8414–8418, 2020 [IEEE][bibtex]
Naoya Takahashi, Mayank Kumar Singh, Sakya Basak, Parthasaarathy Sudarsanam, Sriram Ganapathy, Yuki Mitsufuji, “Improving Voice Separation by Incorporating End-To-End Speech Recognition,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 41–45, 2020 [IEEE][arXiv][bibtex]
Naoki Murata, Jihui Zhang, Yu Maeno, Yuki Mitsufuji, “Global and Local Mode Domain Adaptive Algorithms for Spatial Active Noise Control Using Higher-Order Sources,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 526–530, 2019 [IEEE][bibtex]
Naoya Takahashi, Sudarsanam Parthasaarathy, Nabarun Goswami, Yuki Mitsufuji, “Recursive Speech Separation for Unknown Number of Speakers,” in Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 1348–1352, 2019 [ISCA][arXiv][bibtex]
Naoya Takahashi, Purvi Agrawal, Nabarun Goswami, Yuki Mitsufuji, “PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation,” in Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 2713–2717, 2018 [ISCA][bibtex]
Wei-Hsiang Liao, Yuki Mitsufuji, Keiichi Osako, Kazunobu Ohkuri, “Microphone Array Geometry for Two Dimensional Broadband Sound Field Recording,” in Proc. 145th Audio Engineering Society (AES) Convention, 2018 [AES][bibtex]
Yu Maeno, Yuki Mitsufuji, Prasanga N. Samarasinghe, Thushara D. Abhayapala, “Mode-domain Spatial Active Noise Control Using Multiple Circular Arrays,” in Proc. International Workshop on Acoustic Signal Enhancement (IWAENC), pp. 441–445, 2018 [IEEE][bibtex]
Naoya Takahashi, Nabarun Goswami, Yuki Mitsufuji, “MMDenseLSTM: An Efficient Combination of Convolutional and Recurrent Neural Networks for Audio Source Separation,” in Proc. International Workshop on Acoustic Signal Enhancement (IWAENC), 2018 [IEEE][arXiv][bibtex]
Yuki Mitsufuji, Asako Tomura, Kazunobu Ohkuri, “Creating a Highly-Realistic “Acoustic Vessel Odyssey” Using Sound field Synthesis with 576 Loudspeakers,” in Proc. Audio Engineering Society (AES) Conference on Spatial Reproduction-Aesthetics and Science, 2018 [AES][bibtex]
Yu Maeno, Yuki Mitsufuji, Thushara D. Abhayapala, “Mode Domain Spatial Active Noise Control Using Sparse Signal Representation,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 211–215, 2018 [IEEE][arXiv][bibtex]
Naoya Takahashi, Yuki Mitsufuji, “Multi-Scale Multi-Band DenseNets for Audio Source Separation,” in Proc. Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 21–25, 2017 [IEEE][arXiv][bibtex]
Stefan Uhlich, Marcello Porcu, Franck Giron, Michael Enenkl, Thomas Kemp, Naoya Takahashi, Yuki Mitsufuji, “Improving Music Source Separation Based on Deep Neural Networks Through Data Augmentation and Network Blending,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 261–265, 2017 [IEEE][bibtex]
Keiichi Osako, Yuki Mitsufuji, Rita Singh, Bhiksha Raj, “Supervised Monaural Source Separation Based on Autoencoders,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 11–15, 2017 [IEEE][bibtex]
Yuki Mitsufuji, Shoichi Koyama, Hiroshi Saruwatari, “Multichannel Blind Source Separation Based on Non-Negative Tensor Factorization in Wavenumber Domain,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 56–60, 2016 [IEEE][bibtex]
Stefan Uhlich, Franck Giron, Yuki Mitsufuji, “Deep Neural Network Based Instrument Extraction from Music,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 2135–2139, 2015 [IEEE][bibtex]
Xin Guo, Stefan Uhlich, Yuki Mitsufuji, “NMF-Based Blind Source Separation Using a Linear Predictive Coding Error Clustering Criterion,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 261–265, 2015 [IEEE][bibtex]
Yuki Mitsufuji, Marco Liuni, Alex Baker, Axel Röbel, “Online Non-Negative Tensor Deconvolution for Source Detection in 3DTV Audio,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 3082–3086, 2014 [IEEE][bibtex]
Yuki Mitsufuji, Axel Röbel, “Sound Source Separation Based on Non-Negative Tensor Factorization Incorporating Spatial Cue as Prior Knowledge,” in Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 71–75, 2013 [IEEE][bibtex]

Workshop Papers and Demos

Oh Hyun-Bin, Yuhta Takida, Toshimitsu Uesaka, Tae-Hyun Oh, Yuki Mitsufuji, “PAVAS: Physics-Aware Video-to-Audio Synthesis,” ICML Workshop on Machine Learning for Audio (ICML MLA), 2026 [arXiv]
Gabriel Raya, Bac Nguyen, Georgios Batzolis, Yuhta Takida, Dejan Stancevic, Naoki Murata, Chieh-Hsin Lai, Yuki Mitsufuji, Luca Ambrogioni, “Noise Scheduling as Information-Guided Allocation in Diffusion Training,” ICML Workshop on Structured Probabilistic Inference & Generative Modeling (ICML SPIGM), 2026 [OpenReview]
Chunsan Hong, Sanghyun Lee, Chieh-Hsin Lai, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji, Seungryong Kim, Jong Chul Ye, “Understanding and AcceleratinUnderstanding and Acceleratingg the Training of Masked Diffusion Language Models,” ICML Workshop on Structured Probabilistic Inference & Generative Modeling (ICML SPIGM), 2026 [OpenReview][arXiv]
Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao, “A Unified View of Score-Based and Drifting Models,” ICML Workshop on Structured Probabilistic Inference & Generative Modeling (ICML SPIGM), 2026 [OpenReview][arXiv]
Akira Takahashi, Ryosuke Sawata, Shusuke Takahashi, Yuki Mitsufuji, “MMAudioReverbs: Video-Guided Acoustic Modeling for Dereverberation and Room Impulse Response Estimation,” CVPR Workshop on Sight and Sound (CVPR WSS), 2026 [URL][arXiv]
Kazuya Tateishi, Akira Takahashi, Atsuo Hiroe, Hirofumi Takeda, Shusuke Takahashi, Yuki Mitsufuji, “MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video,” CVPR Workshop on Sight and Sound (CVPR WSS), 2026 [URL][arXiv]
Oh Hyun-Bin, Yuhta Takida, Toshimitsu Uesaka, Tae-Hyun Oh, Yuki Mitsufuji, “PAVAS: Physics-Aware Video-to-Audio Synthesis,” CVPR Workshop on AI for Content Creation (CVPR AICC), 2026 [URL][arXiv]
Honggyu An, Jaewoo Jung, Mungyeom Kim, Chaehyun Kim, Minkyeong Jeon, Jisang Han, Kazumi Fukuda, Takuya Narihira, Hyunah Ko, Junsu Kim, Sunghwan Hong, Yuki Mitsufuji, Seungryong Kim, “C3G: Learning Compact 3D Representations with 2K Gaussians,” CVPR Workshop on Open-World 3D Scene Understanding with Foundation Models (CVPR OpenSUN3D), 2026 [OpenReview][arXiv]
Kazuki Ozeki, Shun Kenney, Yuto Shibata, Eisuke Takeuchi, Takuya Narihira, Kazumi Fukuda, Ryosuke Sawata, Yuki Mitsufuji, Yoshimitsu Aoki, “4D Reconstruction from Sparse Dynamic Cameras,” CVPR Workshop on 4D Vision: Modeling the Dynamic World (CVPR 4DV), 2026 [OpenReview][arXiv]
Michail Dontas, Yutong He, Naoki Murata, Yuki Mitsufuji, J. Zico Kolter, Ruslan Salakhutdinov, “Blind Inverse Problem Solving Made Easy by Text-to-Image Latent Diffusion,” NeurIPS Workshop on Structured Probabilistic Inference & Generative Modeling (NeurIPS SPIGM), 2025 [arXiv]
Zachary Novack, Koichi Saito, Zhi Zhong, Takashi Shibuya, Shuyang Cui, Julian McAuley, Taylor Berg-Kirkpatrick, Christian Simon, Shusuke Takahashi, Yuki Mitsufuji, “FlashFoley: Fast Interactive Sketch2Audio Generation,” NeurIPS Workshop on Generative and Protective AI for Content Creation (NeurIPS GenProCC), 2025 [demo]
Zachary Novack, Koichi Saito, Zhi Zhong, Takashi Shibuya, Shuyang Cui, Julian McAuley, Taylor Berg-Kirkpatrick, Christian Simon, Shusuke Takahashi, Yuki Mitsufuji, “FlashFoley: Fast Interactive Sketch2Audio Generation,” NeurIPS Workshop on AI for Music (NeurIPS AI4Music), 2025 [Openreview][demo]
Kazuki Shimada, Archontis Politis, Iran R. Roman, Parthasaarathy Sudarsanam, David Diaz-Guerra, Ruchi Pandey, Kengo Uchida, Yuichiro Koyama, Naoya Takahashi, Takashi Shibuya, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji, “Stereo Sound Event Localization and Detection with Onscreen/Offscreen Classification,” Detection and Classification of Acoustic Scenes and Events 2025 Workshop (DCASE Workshop), 2025 [DCASE][arXiv][code][dataset]
“PCA-DiffVox: Augmenting Vocal Effects Tweakability With a Bijective Latent Space,” Demo Track of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA Demo) [WASPAA]
Qiyu Wu, Mengjie Zhao, Yutong He, Lang Huang, Junya Ono, Hiromi Wakaki, Yuki Mitsufuji, “Towards Reporting Bias in Visual-Language Datasets: Bimodal Augmentation by Decoupling Object-Attribute Association,” ICCV Workshop on Multimodal Representation and Retrieval (ICCV MRR), 2025 [arXiv]
Zhi Zhong, Akira Takahashi, Shuyang Cui, Keisuke Toyama, Shusuke Takahashi, Yuki Mitsufuji, “SpecMaskFoley: Steering Pretrained Spectral Masked Generative Transformer Toward Synchronized Video-to-audio Synthesis via ControlNet,” ICCV Workshop on Generative AI for Audio-Visual Content Creation (ICCV Gen4AVC), 2025 [arXiv][demo]
Woosung Choi, Junghyun Koo, Kin Wai Cheuk, Joan Serrà, Marco A. Martínez-Ramírez, Yukara Ikemiya, Naoki Murata, Yuhta Takida, Wei-Hsiang Liao, Yuki Mitsufuji, “Large-Scale Training Data Attribution for Music Generative Models via Unlearning,” accepted at ICML Workshop on Machine Learning for Audio (ICML MLA), 2025 [arXiv]
Kazuki Shimada, Christian Simon, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji, “SAVGBench: Benchmarking Spatially Aligned Audio-Video Generation,” CVPR Workshop Sight and Sound (CVPR WSS), 2025 [arXiv]
Kengo Uchida, Takashi Shibuya, Yuhta Takida, Naoki Murata, Julian Tanke, Shusuke Takahashi, Yuki Mitsufuji, “MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training,” accepted at CVPR Workshop on Human Motion Generation (CVPR HuMoGen), 2025 [arXiv][code][demo]
Julian Tanke, Takashi Shibuya, Kengo Uchida, Koichi Saito, Yuki Mitsufuji, “Dyadic Mamba: Long-term Dyadic Human Motion Synthesis,” CVPR Workshop on Human Motion Generation (CVPR HuMoGen), 2025 [arXiv]
Zhuoyuan Mao, Mengjie Zhao, Qiyu Wu, Zhi Zhong, Wei-Hsiang Liao, Hiromi Wakaki, Yuki Mitsufuji, “Cross-Modal Learning for Music-to-Music-Video Description Generation,” NAACL Workshop on Representation Learning for NLP (NAACL RepL4NLP), 2025 [arXiv]
Gianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji, “Training Consistency Models with Variational Noise Coupling,” ICLR2025 Workshop on Deep Generative Model in Machine Learning: Theory, Principle and Efficacy (ICLR DeLTa), 2025 [arXiv][code]
Bac Nguyen, Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Stefano Ermon, Yuki Mitsufuji, “Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion,” ICLR Workshop on Deep Generative Model in Machine Learning: Theory, Principle and Efficacy (ICLR DeLTa), 2025
Yangming Li, Chieh-Hsin Lai, Carola-Bibiane Schönlieb, Yuki Mitsufuji, Stefano Ermon, “Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space,” ICLR Workshop on Frontiers in Probabilistic Inference: Learning Meets Sampling (ICLR FPI), 2025 [arXiv]
Felix Leeb, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji, “Partial Alignment of Representations via Interventional Consistency,” ICLR Workshop on Representational Alignment (ICLR Re-Align), 2025 [OpenReview]
R. Oguz Araz, Joan Serrà, Xavier Serra, Yuki Mitsufuji, Dmitry Bogdanov, “DISCOGS-VINET-MIREX,” Cover Song Identification Track (MIREX), 2024 [MIREX]
Mengjie Zhao, Zhi Zhong, Zhuoyuan Mao, Shiqi Yang, Wei-Hsiang Liao, Shusuke Takahashi, Hiromi Wakaki, Yuki Mitsufuji, “Demonstrating OpenMU-LightBench: A Benchmark Suite for Music Understanding,” ISMIR Late Breaking Demo (ISMIR LBD), 2024 [ISMIR]
Junghyun Koo, Marco A. Martínez-Ramírez, Wei-Hsiang Liao, Giorgio Fabbro, Michele Mancusi, Yuki Mitsufuji, “ITO-Master: Inference-Time Optimization for Music Mastering Style Transfer,” ISMIR Late Breaking Demo (ISMIR LBD), 2024 [ISMIR]
Yin-Jyun Luo, Kin Wai Cheuk, Woosung Choi, Toshimitsu Uesaka, Keisuke Toyama, Wei-Hsiang Liao, Simon Dixon, Yuki Mitsufuji, “Source-Level Pitch and Timbre Editing for Mixtures of Tones Using Disentangled Representations,” ISMIR Late Breaking Demo (ISMIR LBD), 2024 [ISMIR]
David Diaz-Guerra, Archontis Politis, Parthasaarathy Sudarsanam, Kazuki Shimada, Daniel A. Krause, Kengo Uchida, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji, Tuomas Virtanen, “Baseline Models and Evaluation of Sound Event Localization and Detection with Distance Estimation in DCASE2024 Challenge,” in Proc. Detection and Classification of Acoustic Scenes and Events 2024 Workshop (DCASE Workshop), 41–45, 2024 [DCASE]
Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji, “SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation,” NeurIPS Workshop on AI-Driven Speech, Music, and Sound Generation (NeurIPS Audio Imagination), 2024 [arXiv][code][demo]
Yin-Jyun Luo, Kin Wai Cheuk, Woosung Choi, Toshimitsu Uesaka, Keisuke Toyama, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Wei-Hsiang Liao, Simon Dixon, Yuki Mitsufuji, “Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation,” NeurIPS Workshop on AI-Driven Speech, Music, and Sound Generation (NeurIPS Audio Imagination), 2024 [arXiv]
Mayank Kumar Singh, Naoya Takahashi, Wei-Hsiang Liao, Yuki Mitsufuji, “LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking,” NeurIPS Workshop on AI-Driven Speech, Music, and Sound Generation (NeurIPS Audio Imagination), 2024 [arxiv][demo]
Yutong He, Alexander Robey, Naoki Murata, Yiding Jiang, Joshua Williams, George J. Pappas, Hamed Hassani, Yuki Mitsufuji, Ruslan Salakhutdinov, J. Zico Kolter, “Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation,” NeurIPS Workshop on Creativity and Artificial Intelligence (NeurIPS Creativity), 2024 [arXiv]
Satoshi Hayakawa, Yuhta Takida, Masaaki Imaizumi, Hiromi Wakaki, Yuki Mitsufuji, “Distillation of Discrete Diffusion through Dimensional Correlations,” NeurIPS Workshop on Machine Learning and Compression (NeurIPS Neural Compression), 2024 [arXiv][code]
Yunkee Chae, Woosung Choi, Yuhta Takida, Junghyun Koo, Yukara Ikemiya, Zhi Zhong, Kin Wai Cheuk, Marco A. Martínez-Ramírez, Kyogu Lee, Wei-Hsiang Liao, Yuki Mitsufuji, “VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression,” NeurIPS Workshop on Machine Learning and Compression (NeurIPS Neural Compression), 2024 [arXiv]
Masato Ishii, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji, “A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation,” ECCV Workshop Audio-Visual Generation and Learning (ECCV AVGenL), 2024 [arXiv]
Silin Gao, Mete Ismayilzada, Mengjie Zhao, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut, “DiffuCOMET: Contextual Commonsense Knowledge Diffusion,” ACL Workshop on Knowledge Augmented Methods for NLP (ACL KnowledgeNLP), 2024 [URL]
Sungho Lee, Marco Martínez-Ramírez, Wei-Hsiang Liao, Stefan Uhlich, Giorgio Fabbro, Kyogu Lee, Yuki Mitsufuji, “GRAFX: An Open-source Library for Audio Processing Graphs in PyTorch,” DAFx Demo/LBR (DAFx Demo/LBR), 2024 [DAFx][arXiv]
Toshimitsu Uesaka, Taiji Suzuki, Yuhta Takida, Chieh-Hsin Lai, Naoki Murata, Yuki Mitsufuji, “Understanding Multimodal Contrastive Learning Through Pointwise Mutual Information,” ICLR Workshop on Bridging the Gap Between Practice and Theory in Deep Learning (ICLR BGPT), 2024 [arXiv]
Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yutong He, Yuki Mitsufuji, Stefano Ermon, “Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion,” NeurIPS Workshop on Diffusion Models (NeurIPS WDM), 2023 [URL]
Yu-Hua Chen, Woosung Choi, WeiHsiang Liao, Marco A. Martínez-Ramírez, Kin-Wai Cheuk, Yi-Hsuan Yang, Yuki Mitsufuji, “Neural Amplifier Modelling with Several GAN Variants,” ISMIR Late Breaking Demo (ISMIR LBD), 2023 [ISMIR][demo]
Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Naoki Murata, Yuki Mitsufuji, Stefano Ermon, “On the Equivalence of Consistency-Type Models: Consistency Models, Consistent Diffusion Models, and Fokker-Planck Regularization,” ICML2023 Workshop on Structured Probabilistic Inference & Generative Modeling (ICML SPIGM), 2023 [OpenReview][arXiv]
Kazuki Shimada, Archontis Politis, Parthasaarathy Sudarsanam, Daniel Krause, Kengo Uchida, Sharath Adavanne, Aapo Hakala, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji, “Toward an Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events,” CVPR Workshop Sight and Sound (CVPR WSS), 2023 [URL][dataset]
Silin Gao, Jena D. Hwang, Saya Kanno, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut, “ComFact: A Benchmark for Linking Contextual Commonsense Knowledge,” AAAI Workshop on Knowledge Augmented Methods for NLP (KnowledgeNLP-AAAI), 2023 [AAAI][code]
Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, “Regularizing Score-based Models with Score Fokker-Planck Equations,” NeurIPS Workshop on Score-Based Methods (NeurIPS SBM), 2022 [OpenReview]
Archontis Politis, Kazuki Shimada, Parthasaarathy Sudarsanam, Sharath Adavanne, Daniel Krause, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Yuki Mitsufuji, Tuomas Virtanen, “STARSS22: A Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events,” in Proc. Detection and Classification of Acoustic Scenes and Events 2022 Workshop (DCASE Workshop), 2022 [DCASE][arXiv][dataset]
Fabian-Robert Stöter, Maria Clara Machry, Delton de Andrade Vaz, Stefan Uhlich, Yuki Mitsufuji, Antoine Liutkus, “Open.Unmix.app – Towards Audio Separation on the Edge,” Wave Audio Conference (WAC), 2021 [URL][demo]
Joachim Muth, Stefan Uhlich, Nathanael Perraudin, Thomas Kemp, Fabien Cardinaux, Yuki Mitsufuji, “Improving DNN-based Music Source Separation Using Phase Features,” Joint Workshop on Machine Learning for Music at ICML, IJCAI/ECAI and AAMAS, 2018 [arXiv]

Papers Under Review

Giannis Daras, Hyungjin Chung, Chieh-Hsin Lai, Yuki Mitsufuji, Jong Chul Ye, Peyman Milanfar, Alexandros G. Dimakis, Mauricio Delbracio, “A Survey on Diffusion Models for Inverse Problems,” 2024 [arXiv]
Roser Batlle-Roca, Emilia Gómez, Wei-Hsiang Liao, Xavier Serra, Yuki Mitsufuji, “Transparency in Music-Generative AI: A Systematic Literature Review,” 2024 [preprint]
Gaëtan Hadjeres, Marc Ferras, Khaled Koutini, Benno Weck, Alexandre Bittar, Thomas Hummel, Zineb Lahrici, Hakim Missoum, Joan Serrà, Yuki Mitsufuji, “Woosh: A Sound Effects Foundation Model,” 2026 [arXiv][code][demo]
Chieh-Hsin Lai, Bac Nguyen, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, “PadvFlow: Towards Learning Imperceptible Adversarial Distribution for Black-Box Attacks against Image Classifiers and Automatic Speech Recognition Systems,” 2024
Naoya Takahashi, Mayank Kumar, Singh, Yuki Mitsufuji, “Robust One-Shot Singing Voice Conversion,” 2024 [arXiv][demo]
Hao Hao Tan, Kin Wai Cheuk, Taemin Cho, Wei-Hsiang Liao, Yuki Mitsufuji, “MR-MT3: Memory Retaining Multi-Track Music Transcription to Mitigate Instrument Leakage,” 2024 [arXiv]
Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji, “Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation,” 2024 [arXiv]
Hiromi Wakaki, Yuki Mitsufuji, Yoshinori Maeda, Yukiko Nishimura, Silin Gao, Mengjie Zhao, Keiichi Yamada, Antoine Bosselut, “ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark,” 2024 [arXiv][dataset]
Mengjie Zhao, Zhi Zhong, Zhuoyuan Mao, Shiqi Yang, Wei-Hsiang Liao, Shusuke Takahashi, Hiromi Wakaki, Yuki Mitsufuji, “OpenMU: Your Swiss Army Knife for Music Understanding,” 2024 [arXiv][code][demo][dataset]
Shoukang Hu, Takuya Narihira, Kazumi Fukuda, Ryosuke Sawata, Takashi Shibuya, Yuki Mitsufuji, “HumanGif: Single-View Human Diffusion with Generative Prior,” under review, 2025 [arXiv][code][demo]
Anshuk Uppal, Yuhta Takida, Chieh-Hsin Lai, Yuki Mitsufuji, “Denoising Multi-Beta VAE: Representation Learning for Disentanglement and Generation,” under review, 2025 [arXiv]
Anubhav Jain, Yuya Kobayashi, Takashi Shibuya, Yuhta Takida, Nasir Memon, Julian Togelius, Yuki Mitsufuji, “TraSCE: Trajectory Steering for Concept Erasure,” under review, 2024 [arXiv][code]
Anubhav Jain, Yuya Kobayashi, Naoki Murata, Yuhta Takida, Takashi Shibuya, Yuki Mitsufuji, Niv Cohen, Nasir Memon, Julian Togelius, “Forging and Removing Latent-Noise Diffusion Watermarks Using a Single Image,” under review, 2025 [arXiv][code]
Koichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji, “SoundReactor: Frame-level Online Video-to-Audio Generation,” under review, 2026 [arXiv][demo]
Fabio Morreale, Wiebke Hutiri, Joan Serrà, Alice Xiang, Yuki Mitsufuji, “Attribution-by-Design: Ensuring Inference-Time Provenance in Generative Music Systems,” under review, 2026 [arXiv]
Yongyi Zang, Jiarui Hai, Wanying Ge, Qiuqiang Kong, Zheqi Dai, Helin Wang, Yuki Mitsufuji, Mark D. Plumbley, “MSRBench: A Benchmarking Dataset for Music Source Restoration,” under review, 2025 [arXiv][dataset]
Naoki Yoshida, Satoshi Hayakawa, Yuhta Takida, Toshimitsu Uesaka, Hiromi Wakaki, Yuki Mitsufuji, “Theoretical Refinement of CLIP by Utilizing Linear Structure of Optimal Similarity,” under review, 2026 [arXiv]
Qiyu Wu, Shuyang Cui, Satoshi Hayakawa, Wei-Yao Wang, Hiromi Wakaki, Yuki Mitsufuji, “MCA: Modality Composition Awareness for Robust Composed Multimodal Retrieval,” under review, 2026 [arXi v]
Masato Ishii, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji, “Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits,” under review, 2026 [arXiv]
Zhengyang Yu, Akio Hayakawa, Masato Ishii, Qingtao Yu, Takashi Shibuya, Jing Zhang, Yuki Mitsufuji, “AutoRefiner: Improving Autoregressive Video Diffusion Models via Reflective Refinement Over the Stochastic Sampling Path,” under review, 2026 [arXiv]
Weihan Xu, Kan Jen Cheng, Koichi Saito, Muhammad Jehanzeb Mirza, Tingle Li, Yisi Liu, Alexander H. Liu, Liming Wang, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji, Gopala Anumanchipalli, Paul Pu Liang, “Schrodinger Audio-Visual Editor: Object-Level Audiovisual Removal,” under review, 2026 [arXiv]
Fabio Morreale, Joan Serrà, Wiebke Hutiri, Alice Xiang, Yuki Mitsufuji, “Stop the Guesswork – Just Ask the User! Attributable Conditioning in Generative Music,” under review, 2026
Gabriel Raya, Bac Nguyen, Georgios Batzolis, Yuhta Takida, Dejan Stancevic, Naoki Murata, Chieh-Hsin Lai, Yuki Mitsufuji, Luca Ambrogioni, “Information-Guided Noise Allocation for Efficient Diffusion Training,” under review, 2026 [arXiv]
Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao, “A Unified View of Drifting and Score-Based Models,” under review, 2026 [arXiv]
Chunsan Hong, Sanghyun Lee, Chieh-Hsin Lai, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji, Seungryong Kim, Jong Chul Ye, “Understanding and Accelerating the Training of Masked Diffusion Language Models,” under review, 2026 [arXiv]
Joan Serrà, Dipam Goswami, Fabio Morreale, Wei-Hsiang Liao, Yuki Mitsufuji, “Training Data Attribution in Diffusion Models via Mirrored Unlearning and Noise-Consistent Skew,” under review, 2026 [arXiv]
Daeyong Kwon, Qiyu Wu, Shinobu Kuriya, Junghyun Koo, Shuyang Cui, Zhi Zhong, Wei-Hsiang Liao, Hiromi Wakaki, Yuki Mitsufuji, “MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs,” under review, 2026 [arXiv]
Mungyeom Kim, Minkyeong Jeon, Honggyu An, Jaewoo Jung, Hyuna Ko, Jisang Han, Hyeonseo Yu, Donghwan Shin, Sunghwan Hong, Takuya Narihira, Kazumi Fukuda, Yuki Mitsufuji, Seungryong Kim, “Learning Global Motion with Compact Gaussians for Feed-Forward 4D Reconstruction,” under review, 2026 [arXiv]
Oh Hyun-Bin, Kazuki Shimada, Yuhta Takida, Kim Sung-Bin, Toshimitsu Uesaka, Takashi Shibuya, Kyeongyoon Lee, Tae-Hyun Oh, Yuki Mitsufuji, “Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources,” under review, 2026 [arXiv]
Yoonjeon Kim, Yuhta Takida, Chieh-Hsin Lai, Eunho Yang, Yuki Mitsufuji, “Efficient Reinforcement for Visual-Textual Thinking with Discrete Diffusion Model,” under review, 2026 [arXiv]
Yonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris Donahue, “TuneJury: An Open Metric for Improving Music Generation Preference Alignment,” under review, 2026 [arXiv][code][demo]
JoungBin Lee, Jaewoo Jung, Jongmin Lee, Tongmin Kim, Hyunsung Kim, Takuya Narihira, Kazumi Fukuda, Jahyeok Koo, Jisang Han, Yuki Mitsufuji, Seungryong Kim, “MVTrack4Gen: Multi-View Point Tracking as Geometric Supervision for 4D Video Generation,” under review, 2026 [arXiv][code][demo]
Austin T. Hoag, Apostolos Modas, Yunhao Ba, Julienne M. LaChance, Jinru Xue, Wiebke Hutiri, Jan Simson, Tiffany Georgievski, Alex Towli, Joseph Smith, Yuki Mitsufuji, Alice Xiang, “Evaluating Intellectual Property Guardrails of Generative Image Models: A Technical Report,” 2026 [arXiv]
Naveen George, Naoki Murata, Yuhta Takida, Konda Reddy Mopuri, Yuki Mitsufuji, “TILDE: TILt-based Distributional Erasure for Concept Unlearning,” under review, 2026 [arXiv]

Awards and Competitions

Awards

S+T+ARTS Prize Nomination for the sound artwork with Evala “Studies for,” Ars Electronica, 2026 [URL]
AICA Award for the sound artwork with Evala “Studies for,” AI Creative Future Awards (AICA), 2025 [URL][certificate]
Stanford/Elsevier World’s Top 2% Scientist, 2025 [certificate]
Yagami Award for “Research and Development of Audio Source Separation Technology and Its Contribution to Commercialization and Social Implementation (Translated from the Japanese Title),” Keio University, 2025 [URL]
Best Industrial Paper Award for “Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion,” IEEE International Joint Conference on Neural Networks (IJCNN), 2025 [URL][certificate]
Best Show & Tell Award for “Searching For Music Mixing Graphs: A Pruning Approach,” Digital Audio Effect Conference (DAFx), 2024 [certificate]
Outstanding Paper Award for “PeaCoK: Persona Commonsense Knowledge for Consistent and Engaging Narratives,” the Annual Meeting of the Association for Computational Linguistics (ACL), 2023 [URL][certificate]
Local Commendation for Invention Award for “Sound Separation Technology Using Multiple AI Models (Patent No. 6981417),” Japan Institute of Invention and Innovation, 2022 [URL][certificate]
Ranked 1st in Task 3 at DCASE2021 Challenge (IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events) [URL][arXiv]
Ranked 3rd in Task 3 at DCASE2020 Challenge (IEEE AASP Challenge on Detection and Classification of Acoustic Scenes and Events) [arXiv]
Japan Media Arts Festival Jury Selections for the sound artwork with Evala “Acoustic Vessel Odyssey,” Japan Media Arts Festival, 2019 [URL][AES]
Ranked 1st in Music Task at the 2018 Signal Separation Evaluation Campaign [URL]
Ranked 1st in Music Task at the 2016 Signal Separation Evaluation Campaign [URL]
Ranked 1st in Music Task at the 2015 Signal Separation Evaluation Campaign [URL]

Competition Organizer

IEEE ICASSP Music Source Restoration (MSR) Challenge 2026 [URL][benchmark][report][dataset]
Sounding Video Generation Challenge
- Sounding Video Generation (SVG) Challenge 2024 [URL][dataset]
Commonsense Persona-grounded Dialogue Challenge
- Commonsense Persona-grounded Dialogue (CPD) Challenge 2025 [URL]
- Commonsense Persona-grounded Dialogue (CPD) Challenge 2023 [URL][report][dataset]
Music/Sound Demixing Challenge
- Sound Demixing (SDX) Challenge 2023 [URL][report MDX track][report CDX track][Workshop]
- Music Demixing (MDX) Challenge 2021 [URL] [report][Workshop]
IEEE DCASE Challenge
- DCASE2026 Challenge Task 3: “Semantic Acoustic Imaging for Sound Event Localization and Detection from Spatial Audio and Audiovisual Scenes” [URL][dataset]
- DCASE2025 Challenge Task 3: “Stereo Sound Event Localization and Detection in Regular Video Content” [URL][report][code][dataset]
- DCASE2024 Challenge Task 3: “Audio and Audiovisual Sound Event Localization and Detection with Source Distance Estimation” [URL][report][dataset]
- DCASE2023 Challenge Task 3: “Sound Event Localization and Detection Evaluated in Real Spatial Sound Scenes” [URL][report][dataset]
- DCASE2022 Challenge Task 3: “Sound Event Localization and Detection Evaluated in Real Spatial Sound Scenes” [URL][report][dataset]

Granted Patents

US11067661B2 “Information processing device and information processing method” [URL]
US10924849B2 “Sound source separation device and method” [URL]
US10880638B2 “Sound field forming apparatus and method” [URL]
US10757505B2 “Signal processing device, method, and program stored on a computer-readable medium, enabling a sound to be reproduced at a remote location and a different sound to be reproduced at a location neighboring the remote location” [URL]
US10674255B2 “Sound processing device, method and program” [URL]
US10657973B2 “Method, apparatus and system” [URL]
US10650841B2 “Sound source separation apparatus and method” [URL]
US10602266B2 “Audio processing apparatus and method, and program” [URL]
US10595148B2 “Sound processing apparatus and method, and program” [URL]
US10567872B2 “Locally silenced sound field forming apparatus and method” [URL]
US10524075B2 “Sound processing apparatus, method, and program” [URL]
US10477309B2 “Sound field reproduction device, sound field reproduction method, and program” [URL]
US10412531B2 “Audio processing apparatus, method, and program” [URL]
US10380991B2 “Signal processing device, signal processing method, and program for selectable spatial correction of multichannel audio signal” [URL]
US10206034B2 “Sound field collecting apparatus and method, sound field reproducing apparatus and method” [URL]
US10015615B2 “Sound field reproduction apparatus and method, and program” [URL]
US9711161B2 “Voice processing apparatus, voice processing method, and program” [URL]
US9654872B2 “Input device, signal processing method, program, and recording medium” [URL]
US9426564B2 “Audio processing device, method and program” [URL]
US9406312B2 “Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program” [URL]
US9380398B2 “Sound processing apparatus, method, and program” [URL]
US9208795B2 “Frequency band extending device and method, encoding device and method, decoding device and method, and program” [URL]
US8295507B2 “Frequency band extending apparatus, frequency band extending method, player apparatus, playing method, program and recording medium” [URL]

Academic Services and Activities

Committee Member / Session Chair

IEEE IJCNN
- Session Chair at IEEE IJCNN 2025 for “Leveraging Foundation Models for Efficiently Developing Generative Models” [URL]
- Competition Chair at IEEE IJCNN 2025 [URL]
IEEE Audio and Acoustic Signal Processing Technical Committee (AASP TC) Member 2023–2026 [URL]
IEEE ICCE Japan Program Committee Chair 2021–2023
IEEE ICASSP
- Session Chair at IEEE ICASSP 2024 for“Generative Semantic Communication: How Generative Models Enhance Semantic Communications” [URL]
- Session Chair at IEEE ICASSP 2023 for “Diffusion-based Generative Models for Audio and Speech” [URL]
- Session Chair at IEEE ICASSP 2022 for Signal Processing and Neural Approaches for Soundscapes (SiNApS)” [URL]
- Session Chair at IEEE ICASSP 2020 for “Active Control of Acoustic Noise over Spatial Regions” [URL]

PhD Supervision

TRAMUCA: Transparency in AI-powered Music Creation Algorithms, 4-year Fully-funded PhD Studentship by Sony and MTG-UPF, Joint Supervision with Dr. Emilia Gómez and Dr. Xavier Serra [URL]
- “Transparency in Music-Generative AI: A Systematic Literature Review” [preprint]
- Roser Batlle-Roca, Wei-Hsiang Liao, Xavier Serra, Yuki Mitsufuji, Emilia Gómez, “Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio,” in Proc. International Society for Music Information Retrieval (ISMIR) Conference, pp. 1004–1011, 2024 [ISMIR][arXiv][code]

Guest Lectures at University

“Protective AI for Creators,” MARL, New York University, Apr. 28, 2026
“AI for Creators: Pushing Creative Abilities to the Next Level,” GenAudio & AI, New York University, Nov. 10, 2025 [URL]
“AI for Creators: Pushing Creative Abilities to the Next Level,” MILA, University of Montreal, Jun. 19, 2025 [URL]
“AI for Creators: Pushing Creative Abilities to the Next Level,” DAPLab, Columbia University, Mar. 11, 2025
“AI for Creators: Pushing Creative Abilities to the Next Level,” MARL, New York University, Feb. 27, 2025
“AI for Creators: Pushing Creative Abilities to the Next Level,” Matsuo Lab, the University of Tokyo, Dec. 12, 2024 [URL]
“AI for Creators: Pushing Creative Abilities to the Next Level,” Kakei Lab, the University of Tokyo, Dec. 10, 2024 [URL]
“Deep Generative Models for Audio Applications,” AI Research Center, National Institute of Advanced Industrial Science and Technology (AIST), Mar. 22, 2024 [URL]
“Deep Generative Models for Audio Applications,” TélécomParis (Audio/ADASP group), Jan. 25, 2024 [URL]
“AI x Creators: Pushing Creative Abilities to the Next Level,” Matsuo Lab, the University of Tokyo, Nov. 24, 2023 [URL]
“AI & Network Communication Systems”, 7-lecture Course, Tokyo Institute of Technology, 2023 [URL]
“AI x Creators: Pushing Creative Abilities to the Next Level,” Matsuo Lab, the University of Tokyo, Dec. 16, 2022 [URL]
“AI & Network Communication Systems”, 7-lecture Course, Tokyo Institute of Technology, 2022 [URL]
“AI x Creators: Pushing Creative Abilities to the Next Level,” Matsuo Lab, the University of Tokyo, Feb. 16, 2022 [URL]
“Content Creation by Cutting Edge AI-powered Music Technology,” Tokyo Institute of Technology, Dec. 1, 2021 [URL]
“AI x Creators: Pushing Creative Abilities to the Next Level,” Keio University, Oct. 21, 2021

Workshops

Organizer at ECCV 2026 Workshop on Generative AI for Audio-Visual Content Creation (ECCV Gen4AVC) [URL]
Organizer at NeurIPS 2025 Workshop on Generative and Protective AI for Content Creation (NeurIPS GenProCC) [URL]
Organizer at ICCV 2025 Workshop on Generative AI for Audio-Visual Content Creation (ICCV Gen4AVC) [URL]
Organizer at ECCV 2024 Workshop on Audio- Visual Generation and Learning (ECCV AVGenL) [URL]

Tutorials

“The Principles of Diffusion Models: From Origins to Real-Time Diffusion & Tokenized Vision Models,” CVPR 2026 Tutorial [tutorial][URL]
“Diffusion Models and Flows,” IJCNN 2025 Tutorial [tutorial]
“Transforming Chaos into Harmony: Diffusion Models in Audio Signal Processing,” ICASSP 2025 Tutorial [ICASSP][tutorial][pdf][video]
“From White Noise to Symphony: Diffusion Models for Music and Sound,” ISMIR 2024 Tutorial [ISMIR][tutorial][gitpage][pdf][video][notebook]

Keynote Speeches

“AI for Creators: Advancing Creativity with Protection,” Copyright + Technology Conference (CopyrightTech), Sep. 2026 [URL]
“AI for Creators: Pushing Creative Abilities to the Next Level,” Meeting on Image and Recognition (MIRU), Aug. 2026 [URL]
“AI for Creators: Advancing Creativity with Protection,” IEEE S&P Workshop Artwork Security and Provenance in the Age of AI (S&P ArtSec), May. 2026 [URL]
“AI for Creators: Pushing Creative Abilities to the Next Level,” ICASSP Workshop on Speech, Music and Mind (ICASSP SMM), May. 2026 [URL]
“Advances in Audiovisual Generative Models,” ICCV Workshop on AI for Content Generation, Quality Enhancement and Streaming (ICCV AIGENS), Oct. 2025 [URL]

Invited Talks and Media

Invited Talks

“AI for Creators: Advancing Creativity with Protection,” the United Nations, Jun. 2026
“Art Content Creation: When Demands are Met by Pipelines (or Not),” Creative AI Panel at NeurIPS 2025, Dec. 2025 [URL]
“AI for Creators: Pushing Creative Abilities to the Next Level,” Speech and Audio in the Northeast (SANE) Workshop, Nov. 2025 [URL][video]
“AI in Music Production: Pioneering the Future,” Soundtrax, Oct. 2025 [URL]
“State of AI in Music,” Mondo.NYC, Oct. 2025 [URL][bio]
“AI for Creators: Pushing Creative Abilities to the Next Level,” ISMIR Workshop on Large Language Models for Music & Audio (ISMIR LLM4Music), Sep. 2025 [URL]
“AI for Creators: Pushing Creative Abilities to the Next Level,” Wallifornia MusicTech, Jul. 2025 [URL][video]
“Artists’ Talk evala vol. 1,” Feb. 2025 [URL][video]
“Copying and Attributing Training Data in Audio Generative Models,” AES Show NY, Oct. 2024 [URL]
“How AI is Shaking up the Music Industry,” MIDEM Digital, Nov. 2021 [URL]
“AI & the Future of Television Part 1: Content Production,” MIPCOM Online+, Oct. 2020

Web Articles

Mar. 2026, Courrier International, “Technologies. Au Japon, Sony développe des outils pour protéger les créateurs du pillage par l’IA” [URL]
Jul. 2025, AIhub, “Interview with Yuki Mitsufuji: Text-to-sound generation” [URL]
Apr. 2025, Stories by Sony, “Building Technologies to Expand the Future of Sound for Creators” [URL]
Mar. 2025, Sony AI Blog, “Unlocking the Future of Video-to-Audio Synthesis: Inside the MMAudio Model” [URL]
Jan. 2025, AIhub, “Interview with Yuki Mitsufuji: Improving AI image generation” [URL]
Aug. 2024, Sony AI Blog, “Sights on AI: Yuki Mitsufuji Shares Inspiration for AI Research into Music and Sound” [URL]
May. 2024, Sony AI Blog, “Revolutionizing Creativity with CTM and SAN: Sony AI’s Groundbreaking Advances in Generative AI for Creators” [URL]
Feb. 2024, InsideBIGDATA, “Sony AI Big Data Industry Predictions for 2024” [URL]
Nov. 2020, Reviving the Sound of Classic Movies with AI “AI Sound Separation” [URL]
Oct. 2020, New Excitement and Fun Ways to Enjoy Video and Audio Content “AI Sound Separation x Entertainment”
The freedom to extract audio gives you the freedom to create new music “Audio source separation”

Invited Talks (Japanese)

May. 2025, 音学シンポジウム「Deep Generative Models for Audio Applications」 [URL]
Mar. 2024, 人工知能研究センター「音声AIを支える基盤技術の最前線」 [URL]
Jun. 2023, ソニックアカデミーサロン「ソニー最新音楽AIテクノロジー特別体験会」 [URL]
Jul. 2020, DCAJビジネスセミナー「ソニーのR&Dが仕掛ける最先端音響技術」 [URL]
先端テクノロジーコース「ソニーの技術力×アーティストの表現力　サウンドVRがつくる演出最前線」
Jul. 2019, SDMシンポジウム「Sonic Surf VR: 音のVRを実現する波面合成技術とコンテンツクリエーションについて」 [URL]

Web Articles (Japanese)

Mar. 2026, 日経新聞電子版,「ジブリ風」も生成NG 著作権守る技術, ソニーGが開発 [URL]
Feb. 2026, 日経デジタルガバナンス,「ジブリ風」も生成NG 著作権守る技術, ソニーGが開発 [URL]
Feb. 2026, 日経新聞朝刊, ソニーグループ、作曲AIの学習データを特定創作者への対価算出可能に [URL]
Feb. 2026, 三田評論オンライン, 光藤祐基: 音源分離技術でエンターテインメントを革新する [URL]
Oct. 2025, LALALA USA,【ロサンゼルスで暮らす人々】アーティストが力を発揮できる仕組みづくりを AI×エンタメの研究分野は今が正念場 [URL]
Jul. 2025, 日経xTech, 第三回 CVPR 2025のベストペーパー「VGGT」に熱視線、8人の有識者がイチオシ論文を披露 [URL]
Apr. 2025, ソニーTech Stories, 音の価値と可能性を広げる技術に挑む。クリエイターが力を発揮できる仕組みづくりとは [URL]
Nov. 2022, 日経Robotics12月号, ソニーが新型の深層生成モデルを自社開発、まずは高性能VAEの利用を容易に [URL]
Oct. 2022, DTMステーション, ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能 [URL]
Jul. 2022, DTMステーション, ソニー開発のディープラーニングによる世界最高の音源分離技術を利用できる、音楽制作サービス、Soundmain [URL]
Jan. 2022, レコード芸術2月号傑作ファイヴ2021 俺のオーディオ pp. 188–189 [URL]
Jun. 2021, Phile Web, ソニーが時空を越えたアーティストのコラボを実現、「AI音源分離」技術とは何か [URL]
Jun. 2021, Sony Group Career Forum 2022, AIで音楽ビジネスを変える、ソニーのグループシナジーに迫る。 [URL]
Apr. 2021, AI Start Lab, ソニーが提示する、AIによる音源分離で広がるエンターテイメント世界の可能性とは
Jan. 2021, Stereo Sound Online, ソニーの「AIによる音源分離」は、過去の名作に新しい魅力を与える。世界初の画期的技術はどうやって実現できたのか（前）：麻倉怜士のいいもの研究所レポート42 [URL]
Jan. 2021, Stereo Sound Online, ソニーの「AIによる音源分離」は、過去の名作に新しい魅力を与える。世界初の画期的技術はどうやって実現できたのか（後）：麻倉怜士のいいもの研究所レポート43 [URL]
Dec. 2020, Cocotame, 『LINE MUSIC』でカラオケを実現させた「音源分離技術」は過去と現在の音をつなぐ夢の技術だった【前編】 [URL]
Dec. 2020, Cocotame, 『LINE MUSIC』でカラオケを実現させた「音源分離技術」は過去と現在の音をつなぐ夢の技術だった【後編】 [URL]
Jul. 2020, 日経エレクトロニクス,「音だって超現実～音場を操り、世界を一変～」 [URL]
Sep. 2019, Sounmain Blog, 音楽制作の世界が変わる。世界最先端の「音源分離技術」が作りだす未来とは？
May 2019, サウンド＆レコーディングマガジン, 6月号ソニーの最新技術Sonic Surf VRを体感するインスタレーション展　Touch that Sound！
Mar. 2019, Impress Watch, ソニー「Sonic Surf VR」で音が自在に動く不思議体験。仕組みを聞いた [URL]

Media Appearances (Japanese)

Sep. 2021, Tokyo FMラジオミュージックバード, 石丸幹二と共演？ソニーの新技術で甦るグレン・グールド [radio]
Apr. 2021, Podcast, ソニーが語る「AI×音楽」の可能性。アーティストの働き方にも変化？ [podcast]
Apr. 2021, YouTube Channel サンボマスター, 【近藤洋一 Sony テクノロジー体験編～後編～】 [YouTube]
Jul. 2020, NHK TV放送ららら♪クラシック,「渋谷慶一郎が語る～テクノロジーと音楽～」 [TV]