samhitha2601
/

llama3.2-3b-ppo

Reinforcement Learning

text-generation

Model card Files Files and versions

llama3.2-3b-ppo

17.3 MB

1 contributor

History: 2 commits

samhitha2601's picture

Upload checkpoint from step 467

58a60b1 verified 30 days ago