new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Dec 3

Submitted by

taesiri

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

deepseek-ai

Submitted by

shizhediao

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

nvidia

Submitted by

DecoderWQH666

MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

KlingTeam

4

Submitted by

kaleidudu

MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory

TheHKU

Hong Kong University

Submitted by

OrlandoHugBot

Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

Skywork

Submitted by

FayeHongfeiZhang

DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

·
9 authors

Submitted by

ChengsongHuang

Guided Self-Evolving LLMs with Minimal Human Supervision

tencent

Submitted by

georgeliu23333

SimScale: Learning to Drive via Real-World Simulation at Scale

OpenDriveLab

Submitted by

Ningyu

InnoGym: Benchmarking the Innovation Potential of AI Agents

zju-community

Zhejiang University

Submitted by

Dubhe-zmc

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

zju

Zhejiang University

Submitted by

akhaliq

Glance: Accelerating Diffusion Models with 1 Sample

·
8 authors

Submitted by

wgcyeo

WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

kaist-ai

Submitted by

Vfrz

Deep Research: A Systematic Survey

·
26 authors

Submitted by

yeates

PixelDiT: Pixel Diffusion Transformers for Image Generation

nvidia

Submitted by

Timsty

Mixture of Horizons in Action Chunking

·
10 authors

Submitted by

softmax

WUSH: Near-Optimal Adaptive Transforms for LLM Quantization

ISTA-DASLab

IST Austria Distributed Algorithms and Systems Lab

2

Submitted by

Carlos133386

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

NanyangTechnologicalUniversity

Nanyang Technological University

1

Submitted by

xxiaoyali

CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

deepreinforce-ai

Submitted by

jianzongwu

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

PekingUniversity

Peking University

Submitted by

Taewhoo

The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

Korea University

Submitted by

zawnpn

DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

BeingBeyond

Submitted by

hexmSeeU

RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

·
10 authors

Submitted by

Carkham

TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

·
16 authors

Submitted by

akhaliq

MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

·
14 authors

Submitted by

Richard1999

Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

ByteDance-Seed

Submitted by

taesiri

PAI-Bench: A Comprehensive Benchmark For Physical AI

·
5 authors

Submitted by

akhaliq

Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

·
9 authors

Submitted by

akhaliq

YingVideo-MV: Music-Driven Multi-Stage Video Generation

·
6 authors

Submitted by

mao1207

SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds

·
23 authors

Submitted by

ZhengZhu

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

GigaAI-Research

GigaAI-Research

Submitted by

Flourish

Ovis-Image Technical Report

·
11 authors

Submitted by

taesiri

GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

·
12 authors

Submitted by

ZipW

FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

Submitted by

SteveZeyuZhang

BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

Alibaba-DAMO-Academy

Submitted by

Kairong-Han

C^2DLM: Causal Concept-Guided Diffusion Large Language Models

·
9 authors

Submitted by

Chaoxu0309

Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents

Zhejiang University

Submitted by

SagiPolaczek

In-Context Sync-LoRA for Portrait Video Editing

·
4 authors

Submitted by

taesiri

Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench

·
10 authors

Submitted by

Shwai

Understanding and Harnessing Sparsity in Unified Multimodal Models

ByteDance-Seed

Submitted by

shaoweiliu

Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

syp115

Artemis: Structured Visual Reasoning for Perception Policy Learning

·
8 authors

Submitted by

taesiri

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

·
10 authors

Submitted by

dqj5182

Shoe Style-Invariant and Ground-Aware Learning for Dense Foot Contact Estimation

SeoulNatlUniv

Seoul National University

Submitted by

MasterVito

Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions

microsoft

Submitted by

jpiskorz

Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models

qualcomm

2

Submitted by

RenlyH

CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

umich

University of Michigan

2

Submitted by

skoneru

BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion

kit-isl-ai4lt

ISL & AI4LT @ KIT

Submitted by

awsaf49

Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

UCSantaBarbara

University of California, Santa Barbara

2