new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Oct 14

Submitted by

AaronHuangWei

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

nvidia

Submitted by

tsbpp

Diffusion Transformers with Representation Autoencoders

nyu-visionx

Submitted by

CheeryLJH

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

NJU-LINK

Submitted by

Monta3Pt

Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States

KCL

King's College London

Submitted by

JingHaoZ

RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

·
7 authors

Submitted by

Xiaoye08

Spotlight on Token Perception for Multimodal Reinforcement Learning

·
7 authors

Submitted by

fenghora

DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training

·
5 authors

Submitted by

DogNeverSleep

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

·
12 authors

Submitted by

wenhu

BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions

TIGER-Lab

Submitted by

Lingaaaaaaa

Demystifying Reinforcement Learning in Agentic Reasoning

·
5 authors

Submitted by

HowieHwong

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

·
14 authors

Submitted by

DreamW1ngs

Making Mathematical Reasoning Adaptive

·
10 authors

Submitted by

KiyotakaWang

InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

InternSVG

Submitted by

JinChengRen

ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems

PersonalAILab

OPPO-Personal-AI-Lab

1

Submitted by

jeepliu

DocReward: A Document Reward Model for Structuring and Stylizing

MicrosoftResearch

Microsoft Research

2

Submitted by

IcyFish

Don't Just Fine-tune the Agent, Tune the Environment

inclusionAI

3

Submitted by

YanAdjeNole

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

TheFinAI

Submitted by

taesiri

GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

Submitted by

lyabc

AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes

KwaiVGI

Kuaishou Visual Generation and Interaction Center

Submitted by

ganlinyang

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning

Submitted by

wangchy

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

metaresearch

Submitted by

LucasFang

CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

hkuhk

The University of Hong Kong

Submitted by

Agorium

On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models

SeoulNatlUniv

Seoul National University

Submitted by

huangsiteng

High-Fidelity Simulated Data Generation for Real-World Zero-Shot Robotic Manipulation Learning with Gaussian Splatting

Alibaba-DAMO-Academy

Submitted by

xxzcc

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

tencent

Submitted by

yinghuihe

Skill-Targeted Adaptive Training

PrincetonUniversity

Princeton University

Submitted by

emrecanacikgoz

Self-Improving LLM Agents at Test-Time

·
5 authors

1

Submitted by

isaacchung

HUME: Measuring the Human-Model Performance Gap in Text Embedding Task

mteb

Massive Text Embedding Benchmark

2

Submitted by

Albus-Chen

PEAR: Phase Entropy Aware Reward for Efficient Reasoning

iNLP-Lab

iNLP Lab @ SUTD

Submitted by

SoroushMehraban

FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

vector-institute

Vector Institute

Submitted by

wymanCV

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling

epfl-vita

Submitted by

taesiri

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

·
8 authors

Submitted by

Jan150000

SwarmSys: Decentralized Swarm-Inspired Agents for Scalable and Adaptive Reasoning

·
10 authors

1

Submitted by

xwjzds

The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

amazon

Submitted by

RickyDeSkywalker

GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

·
5 authors

Submitted by

taesiri

InfiniHuman: Infinite 3D Human Creation with Precise Control

·
4 authors

Submitted by

eaglew

oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning

·
5 authors

Submitted by

abenechehab

From Data to Rewards: a Bilevel Optimization Perspective on Maximum Likelihood Estimation

·
8 authors

Submitted by

jroh

World-To-Image: Grounding Text-to-Image Generation with Agent-Driven World Knowledge

·
5 authors

Submitted by

yuzc19

RePro: Training Language Models to Faithfully Recycle the Web for Pretraining

Chenyan Xiong Research Group at CMU

Submitted by

FeYuan

LLaMAX2: Your Translation-Enhanced Model also Performs Well in Reasoning

·
6 authors

Submitted by

iliashum

The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections

·
14 authors

Submitted by

Liang-ZX

VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing

Berkeley

Submitted by

taesiri

IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

·
10 authors

Submitted by

mikewang

Multimodal Policy Internalization for Conversational Agents

amazon

Submitted by

liuganghuggingface

Graph Diffusion Transformers are In-Context Molecular Designers

·
7 authors

Submitted by

fz-rit-hf

Through the Perspective of LiDAR: A Feature-Enriched and Uncertainty-Aware Annotation Pipeline for Terrestrial Point Cloud Segmentation

·
7 authors

2

Submitted by

SipengZ

A Tale of LLMs and Induced Small Proxies: Scalable Agents for Knowledge Mining

University of California San Diego

Submitted by

taesiri

Are Large Reasoning Models Interruptible?

·
6 authors

Submitted by

beckhamchen

AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model

OPPOer

OPPO

Submitted by

Ricky06662

ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models

·
7 authors

2

Submitted by

Neo111x

The Hidden DNA of LLM-Generated JavaScript: Structural Patterns Enable High-Accuracy Authorship Attribution

·
5 authors

Submitted by

kargaranamir

CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs

·
3 authors

Submitted by

zhihuang

Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior

zhihuanglab

Submitted by

saadob12

The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers

WueNLP

Submitted by

shellygolan

VLM-Guided Adaptive Negative Prompting for Creative Generation

·
4 authors

1

Submitted by

tmaham

MultiCOIN: Multi-Modal COntrollable Video INbetweening

·
7 authors