Full description (rus): https://github.com/TimeNtWait/llm_finetune_qlora_tsdae_kit/blob/master/README_e5_fine_tune-ru-products.md
SentenceTransformer
This is a sentence-transformers model trained. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 384 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'PeftModelForFeatureExtraction'})
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("TimeNtWait/e5-small-ru-products-qlora_v1")
# Run inference
sentences = [
' Планшет Samsung SM-T500N, 32GB, темно-серый. Технология матрицы: TFT, Страна-изготовитель: Китай, Число SIM-карт: 1, Разъемы: USB Type-C, Разрешение экрана: 2000x1200, Форм-фактор SIM: Nano-SIM, Цвет товара: темно-серый, Встроенная память, ГБ: 32, Оперативная память: 3 ГБ, Навигация: GPS, Модуль связи Bluetooth: 5.0, Бренд: Samsung, Тип карты памяти: microSD, Бренд процессора: Samsung, Разрешение основной камеры, Мпикс: 8, Гарантийный срок: 1 год, Процессор: Snapdragon 662 8 ядер, 2.0 ГГц, Тип: Планшет, Беспроводные интерфейсы: Wi-Fi',
' Планшет Samsung SM-T500N, 32GB, темно-серый. Технология матрицы: TFT, Страна-изготовитель: Китай, Число SIM-карт: 1, Разъемы: USB Type-C, Разрешение экрана: 2000x1200, Форм-фактор SIM: Nano-SIM, Цвет товара: темно-серый, Встроенная память, ГБ: 32, Оперативная память: 3 ГБ, Навигация: GPS, Модуль связи Bluetooth: 5.0, Бренд: Samsung, Тип карты памяти: microSD, Бренд процессора: Samsung, Разрешение основной камеры, Мпикс: 8, Гарантийный срок: 1 год, Процессор: Snapdragon 662 8 ядер, 2.0 ГГц, Тип: Планшет, Беспроводные интерфейсы: Wi-Fi',
'18 мм 20 мм 22 мм силиконовый ремешок для Samsung Galaxy GearS3 спортивный ремешок для часов Huawei active2 Huami. Бренд: Нет бренда, Вес товара, г: 100, Цвет товара: черный, Рекомендовано для: Samsung, Материал браслета/ремешка: Гипоаллергенный силикон, Название цвета: Виолетта, Страна-изготовитель: Китай',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 1.0000, 0.8924],
# [1.0000, 1.0000, 0.8924],
# [0.8924, 0.8924, 1.0000]])
Evaluation
Metrics
Semantic Similarity
- Dataset:
val_evaluator - Evaluated with
EmbeddingSimilarityEvaluator
| Metric | Value |
|---|---|
| pearson_cosine | 0.7883 |
| spearman_cosine | 0.716 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 32,157 training samples
- Columns:
sentence1andsentence2 - Approximate statistics based on the first 1000 samples:
sentence1 sentence2 type string string details - min: 16 tokens
- mean: 176.61 tokens
- max: 512 tokens
- min: 16 tokens
- mean: 176.61 tokens
- max: 512 tokens
- Samples:
sentence1 sentence2 300 ГБ Внутренний жесткий диск Dell HC492 (HC492). Бренд: Dell, Вес товара, г: 500, Тип: Внутренний жесткий диск, Размеры, мм: 150 x 50 x 100, Назначение: Для сервера, Объем: 300 ГБ, Форм-фактор: 3.5</code>300 ГБ Внутренний жесткий диск Dell HC492 (HC492). Бренд: Dell, Вес товара, г: 500, Тип: Внутренний жесткий диск, Размеры, мм: 150 x 50 x 100, Назначение: Для сервера, Объем: 300 ГБ, Форм-фактор: 3.5</code>Матрица / 1600x900 (HD+) / TN, глянцевая, для Lenovo B71-80 . Тип: Матрица для ноутбука, Тип подсветки: LED, Бренд: CHIP, Рекомендовано для: Lenovo, Гарантийный срок: 3 месяца, Разрешение экрана: 1600x900 HD+, Покрытие экрана: Глянцевое, Диагональ экрана, дюймы: 17.3, Страна-изготовитель: Китай ГонконгМатрица / 1600x900 (HD+) / TN, глянцевая, для Lenovo B71-80 . Тип: Матрица для ноутбука, Тип подсветки: LED, Бренд: CHIP, Рекомендовано для: Lenovo, Гарантийный срок: 3 месяца, Разрешение экрана: 1600x900 HD+, Покрытие экрана: Глянцевое, Диагональ экрана, дюймы: 17.3, Страна-изготовитель: Китай ГонконгКартридж CLP-510D5 M пурпурный, для принтера Samsung CLP-510 / CLP-511 / CLP-515 / CLP-560. Тип: Картридж, Назначение: для лазерного принтера, Цвет тонера/чернил: пурпурный, Страна-изготовитель: Китай, Бренд: GalaPrint, Ресурс: 5000 страниц, Комплектация: Картридж - 1 шт., Бренд печатающего устройства: Samsung, Количество в упаковке, шт: 1, Количество цветов: 1, Совместимые модели принтеров: Samsung CLP-510, Samsung CLP-511, Samsung CLP-515, Samsung CLP-560, Цветность: Цветной, Оригинальность расходника: совместимыйКартридж CLP-510D5 M пурпурный, для принтера Samsung CLP-510 / CLP-511 / CLP-515 / CLP-560. Тип: Картридж, Назначение: для лазерного принтера, Цвет тонера/чернил: пурпурный, Страна-изготовитель: Китай, Бренд: GalaPrint, Ресурс: 5000 страниц, Комплектация: Картридж - 1 шт., Бренд печатающего устройства: Samsung, Количество в упаковке, шт: 1, Количество цветов: 1, Совместимые модели принтеров: Samsung CLP-510, Samsung CLP-511, Samsung CLP-515, Samsung CLP-560, Цветность: Цветной, Оригинальность расходника: совместимый - Loss:
DenoisingAutoEncoderLoss
Evaluation Dataset
Unnamed Dataset
- Size: 3,573 evaluation samples
- Columns:
sentence1andsentence2 - Approximate statistics based on the first 1000 samples:
sentence1 sentence2 type string string details - min: 19 tokens
- mean: 177.65 tokens
- max: 512 tokens
- min: 19 tokens
- mean: 177.65 tokens
- max: 512 tokens
- Samples:
sentence1 sentence2 Смарт ТВ приставка OneTech TV-817. Бренд: Onetech, Тип: Медиаплеер, Цвет товара: черныйСмарт ТВ приставка OneTech TV-817. Бренд: Onetech, Тип: Медиаплеер, Цвет товара: черныйКонтейнер SIM для iPhone 12 mini Красный. Бренд: Нет бренда, Вид запчасти: Держатель SIM-карты, Страна-изготовитель: Китай, Тип: Запчасть для телефонаКонтейнер SIM для iPhone 12 mini Красный. Бренд: Нет бренда, Вид запчасти: Держатель SIM-карты, Страна-изготовитель: Китай, Тип: Запчасть для телефонаКлавиатура для HP 17-ca0135ur ноутбука черная с подсветкой. Тип: Клавиатура для ноутбука, Гарантийный срок: 6 месяцев, Страна-изготовитель: Россия, Бренд: Нет бренда, Партномер: 8504403281Клавиатура для HP 17-ca0135ur ноутбука черная с подсветкой. Тип: Клавиатура для ноутбука, Гарантийный срок: 6 месяцев, Страна-изготовитель: Россия, Бренд: Нет бренда, Партномер: 8504403281 - Loss:
DenoisingAutoEncoderLoss
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 4per_device_eval_batch_size: 2gradient_accumulation_steps: 4learning_rate: 2e-05weight_decay: 0.01num_train_epochs: 2warmup_ratio: 0.1bf16: Truedataloader_drop_last: Trueremove_unused_columns: Falseload_best_model_at_end: Trueignore_data_skip: Truedataloader_pin_memory: False
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 4per_device_eval_batch_size: 2per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 4eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 2max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Truedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Falselabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Truefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Falsedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}
Training Logs
| Epoch | Step | Training Loss | Validation Loss | val_evaluator_spearman_cosine |
|---|---|---|---|---|
| 0.0249 | 50 | 50.5829 | - | - |
| 0.0498 | 100 | 40.6255 | 9.0062 | 0.7200 |
| 0.0746 | 150 | 33.0871 | - | - |
| 0.0995 | 200 | 30.4189 | 7.4291 | 0.7068 |
| 0.1244 | 250 | 29.1024 | - | - |
| 0.1493 | 300 | 27.8623 | 6.7881 | 0.7135 |
| 0.1742 | 350 | 26.6369 | - | - |
| 0.1990 | 400 | 25.5836 | 6.3228 | 0.7290 |
| 0.2239 | 450 | 25.3958 | - | - |
| 0.2488 | 500 | 24.4666 | 6.0294 | 0.7277 |
| 0.2737 | 550 | 23.9786 | - | - |
| 0.2985 | 600 | 24.0528 | 5.9682 | 0.7519 |
| 0.3234 | 650 | 24.4052 | - | - |
| 0.3483 | 700 | 24.0349 | 5.9931 | 0.7177 |
| 0.3732 | 750 | 24.1263 | - | - |
| 0.3981 | 800 | 24.3114 | 6.1747 | 0.7175 |
| 0.4229 | 850 | 24.5871 | - | - |
| 0.4478 | 900 | 24.0154 | 5.9904 | 0.7093 |
| 0.4727 | 950 | 23.6821 | - | - |
| 0.4976 | 1000 | 23.7826 | 5.8860 | 0.7309 |
| 0.5225 | 1050 | 24.1249 | - | - |
| 0.5473 | 1100 | 23.8626 | 6.0215 | 0.7257 |
| 0.5722 | 1150 | 23.4409 | - | - |
| 0.5971 | 1200 | 23.7736 | 7.0140 | 0.6837 |
| 0.6220 | 1250 | 24.7391 | - | - |
| 0.6468 | 1300 | 26.8179 | 6.5331 | 0.7306 |
| 0.6717 | 1350 | 26.2037 | - | - |
| 0.6966 | 1400 | 26.0413 | 6.4329 | 0.7104 |
| 0.7215 | 1450 | 25.7263 | - | - |
| 0.7464 | 1500 | 25.7628 | 6.4311 | 0.6982 |
| 0.7712 | 1550 | 25.7511 | - | - |
| 0.7961 | 1600 | 25.6492 | 6.4139 | 0.6845 |
| 0.8210 | 1650 | 25.6498 | - | - |
| 0.8459 | 1700 | 25.6481 | 6.4235 | 0.7315 |
| 0.8708 | 1750 | 25.7208 | - | - |
| 0.8956 | 1800 | 25.7408 | 6.4055 | 0.7107 |
| 0.9205 | 1850 | 25.6135 | - | - |
| 0.9454 | 1900 | 25.5655 | 6.3829 | 0.7287 |
| 0.9703 | 1950 | 25.566 | - | - |
| 0.9951 | 2000 | 25.6305 | 6.3725 | 0.7522 |
| 1.0204 | 2050 | 25.5832 | - | - |
| 1.0453 | 2100 | 25.4271 | 6.3412 | 0.6959 |
| 1.0702 | 2150 | 25.5027 | - | - |
| 1.0950 | 2200 | 25.5137 | 6.3318 | 0.7097 |
| 1.1199 | 2250 | 25.3413 | - | - |
| 1.1448 | 2300 | 25.2634 | 6.3250 | 0.7093 |
| 1.1697 | 2350 | 25.2366 | - | - |
| 1.1946 | 2400 | 25.1903 | 6.3146 | 0.7300 |
| 1.2194 | 2450 | 25.3605 | - | - |
| 1.2443 | 2500 | 25.2244 | 6.3077 | 0.7194 |
| 1.2692 | 2550 | 25.2578 | - | - |
| 1.2941 | 2600 | 25.1764 | 6.3055 | 0.7404 |
| 1.3189 | 2650 | 25.287 | - | - |
| 1.3438 | 2700 | 25.2671 | 6.2933 | 0.7203 |
| 1.3687 | 2750 | 25.1747 | - | - |
| 1.3936 | 2800 | 25.0824 | 6.2832 | 0.6952 |
| 1.4185 | 2850 | 25.2061 | - | - |
| 1.4433 | 2900 | 25.0547 | 6.2767 | 0.7228 |
| 1.4682 | 2950 | 25.103 | - | - |
| 1.4931 | 3000 | 25.1054 | 6.2705 | 0.7116 |
| 1.5180 | 3050 | 25.0885 | - | - |
| 1.5429 | 3100 | 25.1039 | 6.2643 | 0.6877 |
| 1.5677 | 3150 | 25.0281 | - | - |
| 1.5926 | 3200 | 25.0906 | 6.2581 | 0.7483 |
| 1.6175 | 3250 | 24.9833 | - | - |
| 1.6424 | 3300 | 25.0486 | 6.2525 | 0.7363 |
| 1.6672 | 3350 | 25.0512 | - | - |
| 1.6921 | 3400 | 25.2035 | 6.2463 | 0.7221 |
| 1.7170 | 3450 | 25.0408 | - | - |
| 1.7419 | 3500 | 25.0175 | 6.2412 | 0.6702 |
| 1.7668 | 3550 | 25.0301 | - | - |
| 1.7916 | 3600 | 25.0462 | 6.2382 | 0.7210 |
| 1.8165 | 3650 | 24.9645 | - | - |
| 1.8414 | 3700 | 25.0913 | 6.2344 | 0.6940 |
| 1.8663 | 3750 | 25.0548 | - | - |
| 1.8912 | 3800 | 24.8374 | 6.2314 | 0.6910 |
| 1.9160 | 3850 | 24.8166 | - | - |
| 1.9409 | 3900 | 24.878 | 6.2295 | 0.7029 |
| 1.9658 | 3950 | 24.836 | - | - |
| 1.9907 | 4000 | 24.8803 | 6.2285 | 0.7160 |
Framework Versions
- Python: 3.10.0rc2
- Sentence Transformers: 5.0.0
- Transformers: 4.49.0
- PyTorch: 2.6.0+cu126
- Accelerate: 1.4.0
- Datasets: 3.3.2
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
DenoisingAutoEncoderLoss
@inproceedings{wang-2021-TSDAE,
title = "TSDAE: Using Transformer-based Sequential Denoising Auto-Encoderfor Unsupervised Sentence Embedding Learning",
author = "Wang, Kexin and Reimers, Nils and Gurevych, Iryna",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
month = nov,
year = "2021",
address = "Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
pages = "671--688",
url = "https://arxiv.org/abs/2104.06979",
}
Model tree for TimeNtWait/e5-small-ru-products-qlora_v1
Base model
intfloat/multilingual-e5-smallEvaluation results
- Pearson Cosine on val evaluatorself-reported0.788
- Spearman Cosine on val evaluatorself-reported0.716