YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

M-simple_test-sft

This model was created as part of the simple_test experiment using the SkillFactory experiment management system.

Model Details

Training Method: LLaMAFactory SFT (Supervised Fine-Tuning)
Stage Name: sft
Experiment: simple_test

Training Configuration

{"model_name_or_path": "Qwen/Qwen2.5-1.5B-Instruct", "trust_remote_code": true, "stage": "sft", "do_train": true, "finetuning_type": "full", "deepspeed": "/datastor1/mwadhwa/code/skill-factory/thirdparty/LLaMA-Factory/examples/deepspeed/ds_z3_config.json", "dataset": "TAUR_dev__SIEXP_sft_longmult2d_data__BON__convos", "template": "qwen", "cutoff_len": 16384, "max_samples": 1000, "overwrite_cache": true, "preprocessing_num_workers": 16, "output_dir": "/datastor1/mwadhwa/tmp/sf/llamafactory/checkpoints", "logging_steps": 10, "save_steps": 100000, "plot_loss": true, "overwrite_output_dir": true, "per_device_train_batch_size": 1, "gradient_accumulation_steps": 1, "learning_rate": 1e-06, "num_train_epochs": 4, "lr_scheduler_type": "cosine", "warmup_ratio": 0.05, "weight_decay": 0.0001, "adam_beta1": 0.9, "adam_beta2": 0.95, "bf16": true, "ddp_timeout": 180000000, "gradient_checkpointing": true, "save_only_model": true, "enable_masked_ranges": false, "val_size": 0.2, "eval_strategy": "steps", "eval_steps": 10, "per_device_eval_batch_size": 1, "report_to": "wandb"}

Experiment Tracking

🔗 View complete experiment details: Experiment Tracker Dataset

Usage

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("TAUR-dev/M-simple_test-sft")
model = AutoModelForCausalLM.from_pretrained("TAUR-dev/M-simple_test-sft")

Downloads last month: 4

Safetensors

Model size

1.54B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support