MLLM - a ChunjiangGe Collection

ChunjiangGe 's Collections

MLLM

updated Apr 7

Towards Pixel-Level VLM Perception via Simple Points Prediction

Paper • 2601.19228 • Published Jan 27 • 19
Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

Paper • 2601.19895 • Published Jan 27 • 27
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Paper • 2601.19798 • Published Jan 27 • 44
OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Paper • 2601.21639 • Published Jan 29 • 52
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

Paper • 2601.21957 • Published Jan 29 • 23
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

Paper • 2602.01785 • Published Feb 2 • 97
WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

Paper • 2602.02537 • Published Jan 28 • 6
STEM: Scaling Transformers with Embedding Modules

Paper • 2601.10639 • Published Jan 15 • 2
SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

Paper • 2602.03916 • Published Feb 3 • 11
EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

Paper • 2601.15876 • Published Jan 22 • 92
MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods

Paper • 2601.21821 • Published Jan 29 • 62
Agentic Very Long Video Understanding

Paper • 2601.18157 • Published Jan 26 • 20
P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

Paper • 2602.09443 • Published Feb 10 • 59
MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

Paper • 2602.11337 • Published Feb 11 • 9
Code2World: A GUI World Model via Renderable Code Generation

Paper • 2602.09856 • Published Feb 10 • 201
Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning

Paper • 2601.23224 • Published Jan 30 • 3
PyVision-RL: Forging Open Agentic Vision Models via RL

Paper • 2602.20739 • Published Feb 24 • 31
Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention

Paper • 2602.04789 • Published Feb 4 • 4