Shengyi Costa Huang's picture

Shengyi Costa Huang

vwxyzjn

·

http://costa.sh

AI & ML interests

None yet

Organizations

vwxyzjn 's models 393

vwxyzjn/ppo_async

Updated Feb 5 • 1

vwxyzjn/ppo_sync

vwxyzjn/online_dpo_sync

vwxyzjn/online_dpo_async

vwxyzjn/rm_zephyr_new

Text Classification • 7B • Updated Sep 26, 2024

vwxyzjn/online_dpo_vllm_thread_beta_0.03__allenai_open_instruct_dev

Updated Sep 11, 2024

vwxyzjn/reward_modeling__EleutherAI_pythia-14m

Updated Aug 24, 2024

vwxyzjn/online_dpo_vllm__vwxyzjn_btulu

Updated Aug 23, 2024

vwxyzjn/online_dpo_vllm__allenai_llama-3-tulu-2-8b

Updated Aug 19, 2024 • 3

vwxyzjn/btulu

Text Generation • 8B • Updated Aug 19, 2024

vwxyzjn/online_dpo_tulu_2

Text Generation • Updated Aug 19, 2024

vwxyzjn/gkd-model

Updated Aug 15, 2024

vwxyzjn/reward_modeling__allenai_llama-3-tulu-2-8b

Updated Aug 11, 2024

vwxyzjn/online_dpo__cleanrl_EleutherAI_pythia-1b-dedupedsfttldr

Updated Aug 9, 2024

vwxyzjn/online_dpo__EleutherAI_pythia-14m

Updated Aug 8, 2024

vwxyzjn/online_dpo__EleutherAI_pythia-1b-deduped

Updated Aug 8, 2024

vwxyzjn/tulu3_7b_llama3

Updated Aug 7, 2024

vwxyzjn/tulu3_7b_llama3-10000-max-samples

Updated Aug 6, 2024 • 1

vwxyzjn/reward_modeling__EleutherAI_pythia-1b-deduped

Updated Aug 5, 2024

vwxyzjn/EleutherAI_pythia-14m__reward_modeling__tldr

Updated Aug 5, 2024

vwxyzjn/rejection_sampling_23251

Updated Aug 4, 2024

vwxyzjn/online_sft_test1

Updated Jul 25, 2024

vwxyzjn/online_sft_test

Updated Jul 25, 2024

vwxyzjn/online_dpo_test

Updated Jul 24, 2024

vwxyzjn/summarize_from_feedback_details

Updated Jul 19, 2024

vwxyzjn/online_dpo_llmjudge_tldr_6.9b

Text Generation • 7B • Updated Jul 19, 2024

vwxyzjn/online_dpo_llmjudge

Text Generation • 1B • Updated Jul 17, 2024

vwxyzjn/online_dpo_llmjudge_tldr

Updated Jul 16, 2024

vwxyzjn/online_dpo_tldr_6.9b

Text Generation • 7B • Updated Jul 16, 2024

vwxyzjn/online_dpo_tldr

Text Generation • 1B • Updated Jul 15, 2024