new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Oct 17

Submitted by

Vasily

When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA

AIRI-Institute

AIRI - Artificial Intelligence Research Institute

Submitted by

dongguanting

Agentic Entropy-Balanced Policy Optimization

RUC

Renmin University of China

Submitted by

taesiri

WithAnyone: Towards Controllable and ID Consistent Image Generation

stepfun-ai

Submitted by

zichenwen

AI for Service: Proactive Assistance with AI Glasses

SJTU

Shanghai Jiao Tong University

Submitted by

Paranioar

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

SenseTime

Submitted by

xiaochonglinghu

ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

GD-ML

Submitted by

Keven16

LaSeR: Reinforcement Learning with Last-Token Self-Rewarding

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

KID-22

Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

antgroup

Submitted by

pengyunie

TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar

UWaterloo

University of Waterloo

Submitted by

taesiri

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

PaddlePaddle

Submitted by

buaahsh

BitNet Distillation

MicrosoftResearch

Microsoft Research

Submitted by

mukul54

Attention Is All You Need for KV Cache in Diffusion LLMs

MBZUAI

Mohamed Bin Zayed University of Artificial Intelligence

2

Submitted by

taesiri

MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

·
14 authors

Submitted by

CheeryLJH

VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

NJU-LINK

Submitted by

kenchan0226

Large Language Models Do NOT Really Know What They Don't Know

SingaporeManagementUniversity

Singapore Management University

2

Submitted by

han1997

VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

zju

Zhejiang University

2

Submitted by

XINLI1997

COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

m-a-p

Multimodal Art Projection

Submitted by

quicktensor

LLM-guided Hierarchical Retrieval

google

Submitted by

XINLI1997

Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

ByteDance-Seed

Submitted by

jyhong836

LLMs Can Get "Brain Rot"!

vita-group

Visual Informatics Group @ University of Texas at Austin

Submitted by

bclavie

Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report

mixedbread-ai

2

Submitted by

shenweijie

Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning

·
13 authors

2

Submitted by

taesiri

Qwen3Guard Technical Report

Qwen

Qwen

Submitted by

MilaWang

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

·
10 authors

2

Submitted by

wy1iu

Agentic Design of Compositional Machines

·
3 authors

Submitted by

ankgoyal

VLA-0: Building State-of-the-Art VLAs with Zero Modification

nvidia

Submitted by

prt66

SimKO: Simple Pass@K Policy Optimization

·
5 authors

Submitted by

jiwonsong

LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

snu

Seoul National University

Submitted by

taesiri

Learning an Image Editing Model without Image Editing Pairs

adobe

Submitted by

Lakonik

pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation

adobe

Submitted by

DaYin

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

uclanlp

Submitted by

hk

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

uclanlp

Submitted by

HJGO

VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

·
6 authors

Submitted by

JonasGeiping

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

ELLIS-Institute-Tuebingen

ELLIS Institute Tübingen

Submitted by

Ziqi

RealDPO: Real or Not Real, that is the Preference

·
6 authors

Submitted by

stefan-it

The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

coralnlp

CORAL NLP Research

Submitted by

kylemontgomery

Budget-aware Test-time Scaling via Discriminative Verification

·
7 authors

Submitted by

jenyag

On Pretraining for Project-Level Code Completion

JetBrains-Research

JetBrains Research

Submitted by

shaoweiliu

Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

Snapchat

Submitted by

kylemontgomery

Predicting Task Performance with Context-aware Scaling Laws

·
7 authors

Submitted by

Robot2050

MoM: Mixtures of Scenario-Aware Document Memories for Retrieval-Augmented Generation Systems

·
6 authors

2

Submitted by

SP2001

Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms

·
7 authors

Submitted by

wimmerth

AnyUp: Universal Feature Upsampling

MPI-INF

Max Planck Institute for Informatics

Submitted by

ZYao720

GroundedPRM: Tree-Guided and Fidelity-Aware Process Reward Modeling for Step-Level Reasoning

LMU

Ludwig Maximilian University of Munich

Submitted by

augustus2011

Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

Submitted by

awni00

Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning

·
4 authors

Submitted by

zhangchen1991

RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems

NationalUniversityofSingapore

National University of Singapore

Submitted by

qiranzou

FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth

NationalUniversityofSingapore

National University of Singapore

Submitted by

aashiqmuhamed

RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

amazon-agi

Submitted by

kedaxiaoqiu

SCas4D: Structural Cascaded Optimization for Boosting Persistent 4D Novel View Synthesis

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

NickNickGo

Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

apple