Spaces:

rivapereira123
/

firstaid

Running

App Files Files Community

firstaid / finetune_flan_t5.py

rivapereira123

Update finetune_flan_t5.py

c6a9cc3 verified about 1 month ago

raw

history blame contribute delete

1.73 kB

	from datasets import load_dataset
	from transformers import (
	T5ForConditionalGeneration, # Using specific model class
	AutoTokenizer,
	TrainingArguments,
	DataCollatorForSeq2Seq
	)
	from trl import SFTTrainer
	import torch



	# 2. Load and prepare dataset
	dataset = load_dataset("json", data_files="data/med_q_n_a_converted.jsonl", split="train")

	# Create properly formatted text field
	def format_example(example):
	return {
	"text": f"Instruction: {example['input']}\nResponse: {example['output']}",
	"input": example["input"],
	"output": example["output"]
	}

	dataset = dataset.map(format_example)

	# 3. Load model and tokenizer
	model_name = "google/flan-t5-base"
	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = T5ForConditionalGeneration.from_pretrained(model_name)

	# 4. Configure training
	training_args = TrainingArguments(
	output_dir="./flan-t5-medical-finetuned",
	per_device_train_batch_size=4,
	gradient_accumulation_steps=2,
	num_train_epochs=3,
	learning_rate=5e-5,
	logging_dir="./logs",
	save_strategy="epoch",
	evaluation_strategy="no",
	fp16=torch.cuda.is_available(),
	report_to="none",
	remove_unused_columns=False,
	# Add these to prevent version conflicts
	dataloader_pin_memory=False,
	dataloader_num_workers=0
	)

	# 5. Initialize trainer with proper config
	trainer = SFTTrainer(
	model=model,
	tokenizer=tokenizer,
	train_dataset=dataset,
	args=training_args,
	dataset_text_field="text",
	max_seq_length=512, # Explicitly set to avoid warning
	data_collator=DataCollatorForSeq2Seq(
	tokenizer,
	model=model,
	padding="longest"
	)
	)

	# 6. Start training
	trainer.train()