new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Dec 8

Submitted by

kenshinn

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

inclusionAI

Submitted by

taesiri

EditThinker: Unlocking Iterative Reasoning for Any Image Editor

·
14 authors

Submitted by

Jinyang23

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

·
12 authors

Submitted by

Joohnzxcv

EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

·
5 authors

Submitted by

ChengyouJia

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling

X-GenGroup

Submitted by

AdinaY

SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations

zai-org

Z.ai

Submitted by

Suu

Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning

·
10 authors

2

Submitted by

Yanran21

Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

Tsinghua-IVG

Submitted by

Starrrrrry

COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence

·
11 authors

Submitted by

SereinH

RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards

·
10 authors

Submitted by

taesiri

Self-Improving VLM Judges Without Human Annotations

metaresearch

Submitted by

taesiri

World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty

·
5 authors

Submitted by

taesiri

SpaceControl: Introducing Test-Time Spatial Control to 3D Generative Modeling

·
6 authors

Submitted by

Tangerine24

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

·
7 authors

Submitted by

spermwhale

AI & Human Co-Improvement for Safer Co-Superintelligence

metaresearch

Submitted by

AdithyaSK

M3DR: Towards Universal Multilingual Multimodal Document Retrieval

Cognitive-Lab

Submitted by

akhaliq

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

·
9 authors

Submitted by

saeedranjbar12

From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model

vbdai

Huawei's Vancouver VBDAI Lab

Submitted by

taesiri

ProPhy: Progressive Physical Alignment for Dynamic World Simulation

·
10 authors

Submitted by

HRXUST

SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs

·
7 authors

Submitted by

Barisylmz

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

·
4 authors

Submitted by

DanielJi

Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

AustralianNationalUniversity

The Australian National University

Submitted by

nicholasKluge

From FLOPs to Footprints: The Resource Cost of Artificial Intelligence

·
5 authors

2

Submitted by

mnandwana

Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models

Roblox

Roblox Corporation