2025-03-27 Papers

Paper 1

Qwen2.5-Omni Technical Report

Published: 2025-03-26

Link: http://arxiv.org/pdf/2503.20215

1. 📘 Topic and Domain: A technical report introducing Qwen2.5-Omni, an end-to-end multimodal model capable of perceiving text, images, audio, and video while generating text and speech responses in a streaming manner.

2. 💡 Previous Research and New Ideas: Based on previous language models (LLMs), visual-language models (LVLMs), and audio-language models, it introduces novel TMRoPE positioning, Thinker-Talker architecture, and streaming capabilities.

3. ❓ Problem: The challenge of efficiently unifying different modalities in an end-to-end fashion, synchronizing temporal aspects of audio and visual signals, and managing potential interference between different modality outputs.

4. 🛠️ Methods: Uses block-wise processing for audio/visual encoders, TMRoPE for temporal alignment, Thinker-Talker architecture for separate text/speech generation, and sliding-window attention for streaming audio generation.

5. 📊 Results and Evaluation: Achieves state-of-the-art performance on multimodal benchmarks like OmniBench, demonstrates comparable performance to similarly-sized single-modality models, and shows strong capabilities in speech generation with low error rates on seed-tts-eval benchmarks.

Paper 2

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

Published: 2025-03-25

Link: http://arxiv.org/pdf/2503.19757

1. 📘 Topic and Domain: A diffusion transformer-based policy model called Dita for generalist robotic learning combining vision, language and action capabilities.

2. 💡 Previous Research and New Ideas: Based on prior vision-language-action models and diffusion policies, proposes a novel in-context conditioning mechanism that directly denoises continuous action sequences through a unified transformer architecture.

3. ❓ Problem: Existing robot learning models struggle to generalize across diverse embodiments, tasks and environments while being constrained by compact action heads that limit adaptability.

4. 🛠️ Methods: Uses a causal transformer with in-context conditioning to denoise action sequences, combining CLIP for language encoding, DINOv2 for vision processing, and Q-Former for feature selection, trained on large-scale cross-embodiment datasets.

5. 📊 Results and Evaluation: Achieves state-of-the-art performance across multiple simulation benchmarks (SimplerEnv, LIBERO, CALVIN, ManiSkill2) and successfully generalizes to complex real-world robot tasks with just 10-shot finetuning.

Paper 3

Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

Published: 2025-03-26

Link: http://arxiv.org/pdf/2503.20240

1. 📘 Topic and Domain: The paper focuses on improving conditional image generation using diffusion models by addressing issues with unconditional priors in fine-tuned models.

2. 💡 Previous Research and New Ideas: Based on Classifier-Free Guidance (CFG) and fine-tuning techniques for diffusion models, the paper proposes using unconditional noise predictions from base models instead of fine-tuned models.

3. ❓ Problem: Fine-tuned conditional diffusion models suffer from poor unconditional noise predictions, which negatively impacts the quality of conditional generation.

4. 🛠️ Methods: They replace the unconditional noise predictions in fine-tuned models with those from base models (like Stable Diffusion) during the sampling process, without requiring additional training.

5. 📊 Results and Evaluation: The approach showed significant improvements across multiple applications (Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter, InstructPix2Pix), demonstrating better image quality and condition alignment as measured by metrics like FID, LPIPS, and CLIP scores.