vwxyzjn
·
AI & ML interests
None yet
Organizations
vwxyzjn/ppo_async
vwxyzjn/ppo_sync
vwxyzjn/online_dpo_sync
vwxyzjn/online_dpo_async
vwxyzjn/rm_zephyr_new
Text Classification
•
7B
•
Updated
•
3
vwxyzjn/online_dpo_vllm_thread_beta_0.03__allenai_open_instruct_dev
Updated
vwxyzjn/reward_modeling__EleutherAI_pythia-14m
vwxyzjn/online_dpo_vllm__vwxyzjn_btulu
vwxyzjn/online_dpo_vllm__allenai_llama-3-tulu-2-8b
vwxyzjn/btulu
Text Generation
•
8B
•
Updated
•
6
vwxyzjn/online_dpo_tulu_2
Text Generation
•
Updated
•
3
vwxyzjn/gkd-model
Updated
vwxyzjn/reward_modeling__allenai_llama-3-tulu-2-8b
vwxyzjn/online_dpo__cleanrl_EleutherAI_pythia-1b-deduped__sft__tldr
Updated
vwxyzjn/online_dpo__EleutherAI_pythia-14m
Updated
vwxyzjn/online_dpo__EleutherAI_pythia-1b-deduped
Updated
vwxyzjn/tulu3_7b_llama3
vwxyzjn/tulu3_7b_llama3-10000-max-samples
vwxyzjn/reward_modeling__EleutherAI_pythia-1b-deduped
Updated
vwxyzjn/EleutherAI_pythia-14m__reward_modeling__tldr
Updated
vwxyzjn/rejection_sampling_23251
Updated
vwxyzjn/online_sft_test1
Updated
vwxyzjn/online_sft_test
Updated
vwxyzjn/online_dpo_test
Updated
vwxyzjn/summarize_from_feedback_details
Updated
vwxyzjn/online_dpo_llmjudge_tldr_6.9b
Text Generation
•
7B
•
Updated
•
2
vwxyzjn/online_dpo_llmjudge
Text Generation
•
1B
•
Updated
•
2
vwxyzjn/online_dpo_llmjudge_tldr
Updated
vwxyzjn/online_dpo_tldr_6.9b
Text Generation
•
7B
•
Updated
•
4
vwxyzjn/online_dpo_tldr
Text Generation
•
1B
•
Updated
•
2