Publications

Image Generation

Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach

Jiayang Li*, Chengjie Jiang*, Junjun Jiang†, Pengwei Liang, Jiayi Ma, Liqiang Nie

TPAMI 2026 IF:18.6

A unified Diffusion Transformer framework for semantic and controllable image fusion, supporting multiple fusion tasks and extending image fusion toward text-controllable fusion and multimodal segmentation.

Diffusion Transformer Text-Controlled Image Fusion Multimodal Segmentation

Project PDF Code Model

RIS-FUSION: Rethinking Text-Driven Infrared and Visible Image Fusion From The Perspective of Referring Image Segmentation

Siju Ma, Changxiyu Gong, Xiaofeng Fan, Yong Ma, Chengjie Jiang†

ICASSP 2026 Oral

A referring-image-segmentation perspective on text-driven infrared-visible image fusion, improving interpretability and downstream consistency.

Infrared-Visible Fusion Referring Image Segmentation Text-Driven Fusion

PDF Code Dataset

Two in One: Robust Fusion of Infrared and Visible Images in Rainy Condition

Jing Li, Jiafeng Yan, Chengjie Jiang, Bin Yang†

JAS 2026 IF:19.2

A coupled image fusion and rain-removal framework that improves robustness for infrared-visible perception in rainy scenes.

Infrared-Visible Fusion Rain Removal Robust Perception Coupled Restoration

Where Fusion Meets Dehazing: A Coupled Framework for Robust Visible-Infrared Image Fusion in Haze

Jing Li, Jiafeng Yan, Chengjie Jiang, Bin Yang, Yu Liu†

TIP Under Review

A coupled fusion and dehazing framework for robust visible-infrared image fusion in hazy environments.

Infrared-Visible Fusion Image Dehazing Adverse Weather Coupled Restoration

Multimodal Understanding

FOVIS: Foveated Vision for Ultra-High-Resolution Remote Sensing Reasoning

Y. Zhou*, Chengjie Jiang*, H. Zheng, X. Wang, S. Xu, Z. Long, L. Shi, X. Fan, C. Yuan†

Under Review

A foveated vision approach for ultra-high-resolution remote sensing reasoning, dynamically selecting key regions for fine-grained attention.

Remote Sensing Reasoning Ultra-High Resolution Foveated Attention

Look Where It Matters: Training-Free Ultra-HR Remote Sensing VQA via Adaptive Zoom Search

Yunqi Zhou*, Chengjie Jiang*, Chun Yuan, Jing Li†

Arxiv 2025

A training-free pipeline for ultra-high-resolution remote sensing VQA that adaptively zooms into key regions, reducing token and memory cost while improving reasoning efficiency.

Remote Sensing VQA Ultra-High Resolution Training-Free Plug-and-play

Project PDF Code

GRASP: Geospatial Pixel Reasoning via Structured Policy Learning

Chengjie Jiang, Y. Zhou, J. Yan, J. Li†, J. Li, Y. Zhou, H. He, J. Li

Arxiv 2025

A structured policy learning framework for geospatial pixel reasoning, improving language-to-pixel segmentation generalization with reduced reliance on dense mask supervision.

Remote Sensing Geospatial Pixel Reasoning Structured Policy Learning

PDF

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

M. Lin*, W. Huang*, Y. Li, Chengjie Jiang, K. Wu, F. Zhong, S. Qian†, X. Wang, X. Qi†

Arxiv 2025

A multimodal embodied reasoning benchmark for evaluating models across exploration, dynamic spatial-semantic reasoning, and multi-step task execution.

Embodied AI VLA Benchmark Dynamic Spatial Reasoning Multi-Step Action

PDF

Chengjie Jiang（蒋铖杰）

Publications

Image Generation

Multimodal Understanding