Research

Publications

M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training
Minheng Ni, Haoyang Huang, Lin Su, Edward Cui, Taroon Bharti, Lijuan Wang, Dongdong Zhang, Nan Duan
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021.
ImaginaryNet: Learning Object Detectors without Real Images and Annotations
Minheng Ni, Zitong Huang, Kailai Feng, Wangmeng Zuo
Proceedings of the International Conference on Learning Representations (ICLR), 2023.
NÜWA-LIP: Language Guided Image Inpainting with Defect-free VQGAN
Minheng Ni, Xiaoming Li, Wangmeng Zuo
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
ORES: Open-vocabulary Responsible Visual Synthesis
Minheng Ni, Chenfei Wu, Xiaodong Wang, Shengming Yin, Lijuan Wang, Zicheng Liu, Nan Duan
Proceedings of the AAAI conference on Artificial Intelligence (AAAI), 2023.
Responsible Visual Editing
Minheng Ni, Yeli Shen, Lei Zhang, Wangmeng Zuo
Proceedings of the European Conference on Computer Vision (ECCV), 2024.
Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning
Minheng Ni, Yutao Fan, Lei Zhang, Wangmeng Zuo
Proceedings of the International Conference on Learning Representations (ICLR), 2025.
Ref-diff: Zero-shot Referring Image Segmentation with Generative Models
Minheng Ni, Yabo Zhang, Kailai Feng, Xiaoming Li, Yiwen Guo, Wangmeng Zuo
Science China Information Sciences (SCIS), 2025.
Robot be Harmful: Responsible Robotic Manipulation via Safety-as-Policy
Minheng Ni, Lei Zhang, Zihan Chen, Kaixin Bai, Zhaopeng Chen, Jianwei Zhang, Lei Zhang, Wangmeng Zuo
IEEE Robotics and Automation Letters (RA-L), 2025.
Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning
Minheng Ni, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Kevin Lin, Wangmeng Zuo, Lijuan Wang
Advances in Neural Information Processing Systems (NeurIPS), 2025.
AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition
Minheng Ni, Chenfei Wu, Huaying Yuan, Zhengyuan Yang, Ming Gong, Lijuan Wang, Zicheng Liu, Wangmeng Zuo, Nan Duan
ArXiv Preprint, 2024.
Measurement of LLM’s Philosophies of Human Nature
Minheng Ni, Ennan Wu, Zidong Gong, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Kevin Lin, Lijuan Wang, Wangmeng Zuo
ArXiv Preprint, 2025.
Cosda-ml: Multi-lingual Code-switching Data Augmentation for Zero-shot Cross-lingual NLP
Libo Qin, Minheng Ni, Yue Zhang, Wanxiang Che
Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence (IJCAI), 2021.
Multi-Attentional Distance for Zero-Shot Classification with Text-to-Image Diffusion Model
Kailai Feng, Minheng Ni, Jiaxiu Jiang, Zhilu Zhang, Wangmeng Zuo
Proceedings of the IEEE International Conference on Multimedia and Expo (ICME), 2024
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM
Bowen Dong, Minheng Ni, Zitong Huang, Guanglei Yang, Wangmeng Zuo, Lei Zhang
Advances in Neural Information Processing Systems (NeurIPS), 2025.
Knowing Where to Leverage: Context-aware Graph Convolutional Network with an Adaptive Fusion Layer for Contextual Spoken Language Understanding
Libo Qin, Wanxiang Che, Minheng Ni, Yangming Li, Ting Liu
IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), 2021.
Multi-domain Spoken Language Understanding Using Domain-and Task-aware Parameterization
Libo Qin, Wanxiang Che, Minheng Ni, Yangming Li, Ting Liu
ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP), 2022.
Dcr-net: A Deep Co-interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classification
Libo Qin, Wanxiang Che, Yangming Li, Minheng Ni, Ting Liu
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020.
Co-gat: A Co-interactive Graph Attention Network for Joint Dialog Act Recognition and Sentiment Classification
Libo Qin, Zhouyang Li, Wanxiang Che, Minheng Ni, Ting Liu
Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2021.
StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis
Zecheng Tang, Chenfei Wu, Zekai Zhang, Minheng Ni, Shengming Yin, Yu Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan
Proceedings of the International Conference on Machine Learning (ICML), 2024.
Learning 3D Photography Videos via Self-supervised Diffusion on Single Images
Xiaodong Wang, Chenfei Wu, Shengming Yin, Minheng Ni, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Fan Yang, Lijuan Wang, Zicheng Liu, Yuejian Fang, Nan Duan
Proceedings of the Thirty-Second International Conference on International Joint Conferences on Artificial Intelligence (IJCAI), 2023.
FineRAG: Fine-grained Retrieval-Augmented Text-to-lmage Generation
Huaying Yuan, Ziliang Zhao, Shuting Wang, Shitao Xiao, Minheng Ni, Zheng Liu, Zhicheng Dou
Proceedings of the International Conference on Computational Linguistics (COLING), 2025.
NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation
Shengming Yin, Chenfei Wu, Huan Yang, Jianfeng Wang, Xiaodong Wang, Minheng Ni, Zhengyuan Yang, Linjie Li, Shuguang Liu, Fan Yang, Jianlong Fu, Gong Ming, Lijuan Wang, Zicheng Liu, Houqiang Li, Nan Duan
Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (ACL), 2023.

Please find my most up-to-date papers on my Google Scholar profile.

Services

Chair/Organizer

AAAI AI Hackathon Track(2025)

Journal Reviewer

Nature Humanities and Social Sciences Communications (HSSComms)
Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
International Journal of Computer Vision (IJCV)
IEEE Transactions on Multimedia (TMM)
Science China Information Sciences (SCIS)

Conference PC Member

ML&AI: ICML(2022-)、ICLR(2023-)、NeurIPS(2024-)、AAAI(2021-)、AISTATS(2025-)
CV&MM: CVPR(2021-)、ECCV(2022, 2024)、ICCV(2025)、MM(2024-)
NLP: ACL(2023-)、EMNLP(2023-)
Robotics: ICRA(2025-)

Minheng Ni

Research

Publications

Services

Chair/Organizer

Journal Reviewer

Conference PC Member