Edit Models filters

Apps

Inference Providers

HF Inference API

Misc

reinforcement-learning

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

66,109

Full-text search

Active filters: reinforcement-learning

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning • 8B • Updated Mar 26 • 9.34k • 225

Adilbai/stock-trading-rl-agent

Reinforcement Learning • Updated Jul 5 • 116 • 35

vencortexio/DeOSAlphaCompactWorldModels

Reinforcement Learning • Updated 4 days ago • 2

osanseviero/test_sb3

Reinforcement Learning • Updated May 4, 2022 • 1 • 6

prithvinambiar/LunarLander-v2

Reinforcement Learning • Updated May 4, 2022 • 1

cajcodes/dqn-floorplan-navigator

Reinforcement Learning • Updated May 18, 2024 • 1

sb3/a2c-LunarLander-v3

Reinforcement Learning • Updated Jun 2 • 11 • 1

THU-KEG/LongWriter-Zero-32B

Text Generation • 33B • Updated Jul 3 • 388 • • 109

ValueFX9507/Tifa-DeepsexV3-14b-GGUF-Q6

Reinforcement Learning • 15B • Updated Jul 1 • 6.55k • 30

cycloneboy/SLM-SQL-Base-1.5B

Text Generation • 2B • Updated Jul 31 • 6 • 1

mradermacher/SLM-SQL-Base-1.5B-GGUF

Reinforcement Learning • 2B • Updated Jul 31 • 95 • 1

TMLR-Group-HF/Self-Certainty-Qwen3-1.7B-Base-MATH

Text Generation • 2B • Updated 6 days ago • 13 • 1

zfj1998/A2Search-3B-Instruct

Question Answering • 3B • Updated 8 days ago • 12 • 1

mradermacher/A2Search-3B-Instruct-GGUF

Reinforcement Learning • 3B • Updated 7 days ago • 177 • 1

JonusNattapong/AI-XAUUSD-Trading

Reinforcement Learning • Updated 7 days ago • 1

mradermacher/A2Search-3B-Instruct-i1-GGUF

Reinforcement Learning • 3B • Updated 7 days ago • 436 • 1

THU-KEG/LLaDA-8B-BGPO-math

Reinforcement Learning • 8B • Updated 3 days ago • 24 • 1

THU-KEG/LLaDA-8B-BGPO-code

Reinforcement Learning • 8B • Updated 3 days ago • 23 • 1

THU-KEG/LLaDA-8B-BGPO-countdown

Reinforcement Learning • 8B • Updated 3 days ago • 27 • 1

THU-KEG/LLaDA-8B-BGPO-sudoku

Reinforcement Learning • 8B • Updated 3 days ago • 26 • 1

mradermacher/Self-Certainty-Qwen3-1.7B-Base-MATH-GGUF

Reinforcement Learning • 2B • Updated 5 days ago • 251 • 1

DinukaM/ppo-LunarLander-v2

Reinforcement Learning • Updated 4 days ago • 22 • 1

dcardoner/dcardoner-taxiv3

Reinforcement Learning • Updated 3 days ago • 1

Babsie/DeepHermes-Egregore-8B-131K

Reinforcement Learning • 8B • Updated about 16 hours ago • 36 • 1

mradermacher/DeepHermes-Egregore-8B-131K-GGUF

Reinforcement Learning • 8B • Updated 1 day ago • 105 • 1

mradermacher/DeepHermes-Egregore-8B-131K-i1-GGUF

Reinforcement Learning • 8B • Updated 1 day ago • 173 • 1

ValueFX9507/Tifa-Deepsex-14b-CoT

Reinforcement Learning • 15B • Updated Feb 13 • 602 • 219

ThomasSimonini/ML-Agents-SnowballFight-1vs1

Reinforcement Learning • Updated Nov 30, 2021 • 9 • 10

ThomasSimonini/demo-hf-CartPole-v1

Reinforcement Learning • Updated May 3, 2023 • 13

ThomasSimonini/mlagents-snowballfight-1vs1-ppo

Reinforcement Learning • Updated Nov 22, 2021