12 23 28

Hanze Dong

hendrydong

https://hendrydong.github.io

hendrydong

AI & ML interests

None yet

Recent Activity

updated a dataset 2 days ago

hendrydong/reinforce-ada-passk-step-tables-20260308

published a dataset 2 days ago

hendrydong/reinforce-ada-passk-step-tables-20260308

updated a model 6 days ago

hendrydong/reinforce-ada-b64-mini64-n8-s1000-rlhflow-s15b

View all activity

Organizations

updated a dataset 2 days ago

hendrydong/reinforce-ada-passk-step-tables-20260308

Preview • Updated 2 days ago • 3

published a dataset 2 days ago

hendrydong/reinforce-ada-passk-step-tables-20260308

Preview • Updated 2 days ago • 3

updated 3 models 6 days ago

hendrydong/reinforce-ada-b64-mini64-n8-s1000-rlhflow-s15b

Updated 6 days ago

hendrydong/grpo-b64-mini64-n32-s1000-rlhflow-s15b

Updated 6 days ago

hendrydong/reinforce-ada-b64-mini64-n8-s1000-rlhflow-s15b-msrresrchvc-normstdtrue

Updated 6 days ago

published 3 models 6 days ago

hendrydong/grpo-b64-mini64-n32-s1000-rlhflow-s15b

Updated 6 days ago

hendrydong/reinforce-ada-b64-mini64-n8-s1000-rlhflow-s15b

Updated 6 days ago

hendrydong/reinforce-ada-b64-mini64-n8-s1000-rlhflow-s15b-msrresrchvc-normstdtrue

Updated 6 days ago

updated a dataset 7 days ago

hendrydong/bench0303

Updated 7 days ago • 10

published a dataset 7 days ago

hendrydong/bench0303

Updated 7 days ago • 10

updated a model 14 days ago

hendrydong/qwen_0221_iter150

31B • Updated 14 days ago • 11

published a model 14 days ago

hendrydong/qwen_0221_iter150

31B • Updated 14 days ago • 11

updated a model 17 days ago

hendrydong/mcq_iter100

31B • Updated 17 days ago • 9

published a model 17 days ago

hendrydong/mcq_iter100

31B • Updated 17 days ago • 9

updated a model 17 days ago

hendrydong/qwen_0221_iter100

31B • Updated 17 days ago • 8

published a model 17 days ago

hendrydong/qwen_0221_iter100

31B • Updated 17 days ago • 8

upvoted a paper about 1 month ago

Self-Hinting Language Models Enhance Reinforcement Learning

Paper • 2602.03143 • Published Feb 3 • 30

upvoted a paper about 2 months ago

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Paper • 2601.09688 • Published Jan 14 • 127

upvoted a paper 2 months ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published Jan 8 • 229

updated a model 3 months ago

reinforce-flow/Reinforce-Ada-Est-1-p-Qwen2.5-Math-1.5B-500

Text Generation • 2B • Updated Nov 25, 2025 • 1

Hanze Dong

AI & ML interests

Recent Activity

Organizations

hendrydong's activity