new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Oct 15

Submitted by

Wenxuan123

Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

Submitted by

xiaochonglinghu

Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

GD-ML

Submitted by

Everything-is-Ok

DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation

NextGenWhu

Submitted by

gowitheflow

Scaling Language-Centric Omnimodal Representation Learning

Alibaba-DAMO-Academy

Submitted by

fracapuano

Robot Learning: A Tutorial

lerobot

Submitted by

taesiri

Detect Anything via Next Point Prediction

IDEA-Research

Submitted by

YuyaoGe

A Survey of Vibe Coding with Large Language Models

ict-cas

Institute of Computing Technology, Chinese Academy of Sciences

Submitted by

taesiri

FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution

·
7 authors

Submitted by

ahmedheakl

Dr.LLM: Dynamic Layer Routing in LLMs

parameterlab

Submitted by

raymin0223

Temporal Alignment Guidance: On-Manifold Sampling in Diffusion Models

kaist-ai

Submitted by

Ray2333

ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning

UIUC-CS

University of Illinois at Urbana-Champaign

2

Submitted by

Wayne-King

SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models

hkuhk

The University of Hong Kong

Submitted by

taesiri

UniFusion: Vision-Language Model as Unified Encoder in Image Generation

adobe

Submitted by

XingweiT

Deconstructing Attention: Investigating Design Principles for Effective Language Modeling

·
3 authors

Submitted by

TokerZ

Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks

·
6 authors

2

Submitted by

NeoZ123

Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models

zai-org

Z.ai

Submitted by

simonycl

Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

stanfordnlp

Submitted by

hbXNov

HoneyBee: Data Recipes for Vision-Language Reasoners

Submitted by

taesiri

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

apple

Submitted by

taesiri

SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

ByteDance

Submitted by

dongyuanjushi

R-WoM: Retrieval-augmented World Model For Computer-use Agents

·
7 authors

Submitted by

stefan-baumann

What If : Understanding Motion Through Sparse Interactions

CompVis

Submitted by

ArmelRandy

LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens

almanach

ALMAnaCH (Inria)

Submitted by

ruihangxu

ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation

·
4 authors

Submitted by

MasterZhou

The Geometry of Reasoning: Flowing Logics in Representation Space

·
5 authors

Submitted by

Franck-Dernoncourt

MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces

·
15 authors

Submitted by

kz919

Cautious Weight Decay

·
9 authors

Submitted by

codezakh

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

·
5 authors

Submitted by

AdinaY

SR-Scientist: Scientific Equation Discovery With Agentic AI

GAIR

Submitted by

linghan199

ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

OpenGVLab

Submitted by

YongdingTao

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

Peking University

Submitted by

orpatashnik

Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing

·
6 authors

Submitted by

CuiLong7

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution

OpenGVLab

Submitted by

ConnorZhong

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

thuml

THUML @ Tsinghua University

2

Submitted by

Rbin

RAG-Anything: All-in-One RAG Framework

hkuds

Data Intelligence Lab@HKU

Submitted by

ttttonyhe

Locket: Robust Feature-Locking Technique for Language Models

UWaterloo

University of Waterloo

Submitted by

ShuoChen99

Deep Research Brings Deeper Harm

·
10 authors

Submitted by

ShuoChen99

Bag of Tricks for Subverting Reasoning-based Safety Guardrails

·
9 authors

Submitted by

JiayuDing

Information-Preserving Reformulation of Reasoning Traces for Antidistillation

microsoft

Submitted by

southKH

Diffusion-Link: Diffusion Probabilistic Model for Bridging the Audio-Text Modality Gap

·
5 authors

2

Submitted by

MasterZhou

Why Do Transformers Fail to Forecast Time Series In-Context?

·
4 authors

Submitted by

iliashum

SynthID-Image: Image watermarking at internet scale

google

Submitted by

cesun

ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

·
4 authors

2

Submitted by

SSamDav

Tensor Logic: The Language of AI

·
1 authors

Submitted by

sunweiwei

Scaling Long-Horizon LLM Agent via Context-Folding

ByteDance-Seed

Submitted by

zhengda1936

dInfer: An Efficient Inference Framework for Diffusion Language Models

·
23 authors

Submitted by

sunweiwei

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management

·
7 authors