new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Oct 28

Submitted by

Gofinge

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Pointcept

Submitted by

MoshiQAQ

ReCode: Unify Plan and Action for Universal Granularity Control

·
13 authors

Submitted by

derrickzhu

A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

·
25 authors

Submitted by

wujie10

FARMER: Flow AutoRegressive Transformer over Pixels

·
9 authors

1

Submitted by

jyseo

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

·
9 authors

Submitted by

yifanzhang114

VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting

·
18 authors

Submitted by

mpark

ACG: Action Coherence Guidance for Flow-based VLA models

DAVIAN-Robotics

DAVIAN Robotics

Submitted by

TyangJN

Open Multimodal Retrieval-Augmented Factual Image Generation

·
6 authors

Submitted by

liuqi6777

E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker

Alibaba-NLP

Submitted by

Liuff23

IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

·
11 authors

Submitted by

jinzhuoran

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

CASIA

Chinese Academic of Science Institute of Automation

Submitted by

Zcchill

Knocking-Heads Attention

·
5 authors

1

Submitted by

taesiri

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

·
9 authors

2

Submitted by

jenyag

The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation

JetBrains

1

Submitted by

taesiri

LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

·
11 authors

Submitted by

taesiri

LongCat-Video Technical Report

·
11 authors

Submitted by

songtingyu

LimRank: Less is More for Reasoning-Intensive Information Reranking

·
5 authors

1

Submitted by

lingjie23

Code Aesthetics with Agentic Reward Feedback

·
8 authors

Submitted by

fjxmlzn

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

·
7 authors

2

Submitted by

taesiri

RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation

·
9 authors

Submitted by

Xin1118

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

WestlakeUniversity

Westlake University

Submitted by

zsqzz

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

UIUC-CS

University of Illinois at Urbana-Champaign

Submitted by

taesiri

PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

apple

Submitted by

rishitdagli

VoMP: Predicting Volumetric Mechanical Property Fields

nvidia

Submitted by

yifAI

Language Server CLI Empowers Language Agents with Process Rewards

·
2 authors

1

Submitted by

steinad

Once Upon an Input: Reasoning via Per-Instance Program Synthesis

·
4 authors

Submitted by

zkyseus

DiffusionLane: Diffusion Model for Lane Detection

NanTongUniversity

NanTong University

Submitted by

senmaonk

EchoDistill: Bidirectional Concept Distillation for One-Step Diffusion Personalization

·
7 authors

Submitted by

WenhaoWang

Scaling Laws for Deepfake Detection

·
5 authors

Submitted by

AdinaY

SyncHuman: Synchronizing 2D and 3D Generative Models for Single-view Human Reconstruction

·
9 authors

Submitted by

ShuhongZheng

Track, Inpaint, Resplat: Subject-driven 3D and 4D Generation with Progressive Texture Infilling

·
3 authors

Submitted by

hisoka94

Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS

ImperialCollegeLondon

Imperial College London

Submitted by

antalvdb

Memory-based Language Models: An Efficient, Explainable, and Eco-friendly Approach to Large Language Modeling

utrechtuniversity

Utrecht University

Submitted by

orronai

FlowOpt: Fast Optimization Through Whole Flow Processes for Training-Free Editing

·
3 authors

Submitted by

DogyunPark

Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers

snap-research

Submitted by

Lewis-Lau

MARS-M: When Variance Reduction Meets Matrices

UCLA

University of California, Los Angeles