Wenqi Zhang's picture

Wenqi Zhang

zwq2018

·

zwq2018

AI & ML interests

LLM, Multimodal, Robotics

Recent Activity

upvoted a paper 6 days ago

GR-3 Technical Report

upvoted a paper 6 days ago

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

upvoted a paper 7 days ago

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

View all activity

Organizations

upvoted 2 papers 6 days ago

GR-3 Technical Report

Paper • 2507.15493 • Published 7 days ago • 41

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

Paper • 2507.15758 • Published 7 days ago • 31

upvoted 2 papers 7 days ago

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization

Paper • 2507.14683 • Published 9 days ago • 113

GUI-G^2: Gaussian Reward Modeling for GUI Grounding

Paper • 2507.15846 • Published 7 days ago • 118

upvoted a paper about 1 month ago

AR-RAG: Autoregressive Retrieval Augmentation for Image Generation

Paper • 2506.06962 • Published Jun 8 • 29

upvoted 3 papers about 2 months ago

TimeHC-RL: Temporal-aware Hierarchical Cognitive Reinforcement Learning for Enhancing LLMs' Social Intelligence

Paper • 2505.24500 • Published May 30 • 12

SVGenius: Benchmarking LLMs in SVG Understanding, Editing and Generation

Paper • 2506.03139 • Published Jun 3 • 15

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Paper • 2506.01939 • Published Jun 2 • 174

upvoted 7 papers 2 months ago

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

Paper • 2505.15801 • Published May 21 • 17

Let LLMs Break Free from Overthinking via Self-Braking Tuning

Paper • 2505.14604 • Published May 20 • 23

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

Paper • 2505.14684 • Published May 20 • 23

Thinkless: LLM Learns When to Think

Paper • 2505.13379 • Published May 19 • 51

AdaptThink: Reasoning Models Can Learn When to Think

Paper • 2505.13417 • Published May 19 • 80

AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning

Paper • 2505.11896 • Published May 17 • 58

Chain-of-Model Learning for Language Model

Paper • 2505.11820 • Published May 17 • 120

upvoted 3 papers 3 months ago

DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

Paper • 2505.07233 • Published May 12 • 8

Seed1.5-VL Technical Report

Paper • 2505.07062 • Published May 11 • 148

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Paper • 2504.18589 • Published Apr 24 • 13

upvoted 2 papers 4 months ago

OmniSVG: A Unified Scalable Vector Graphics Generation Model

Paper • 2504.06263 • Published Apr 8 • 173

Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Paper • 2503.21696 • Published Mar 27 • 23