Full description (rus): https://github.com/TimeNtWait/llm_finetune_qlora_tsdae_kit/blob/master/README_e5_fine_tune-ru-products.md

SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'PeftModelForFeatureExtraction'})
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("TimeNtWait/e5-small-ru-products-qlora_v1")
# Run inference
sentences = [
    ' Планшет Samsung SM-T500N, 32GB, темно-серый. Технология матрицы: TFT, Страна-изготовитель: Китай, Число SIM-карт: 1, Разъемы: USB Type-C, Разрешение экрана: 2000x1200, Форм-фактор SIM: Nano-SIM, Цвет товара: темно-серый, Встроенная память,   ГБ: 32, Оперативная память: 3 ГБ, Навигация: GPS, Модуль связи Bluetooth: 5.0, Бренд: Samsung, Тип карты памяти: microSD, Бренд процессора: Samsung, Разрешение основной камеры,  Мпикс: 8, Гарантийный срок: 1 год, Процессор: Snapdragon 662 8 ядер,  2.0 ГГц, Тип: Планшет, Беспроводные интерфейсы: Wi-Fi',
    ' Планшет Samsung SM-T500N, 32GB, темно-серый. Технология матрицы: TFT, Страна-изготовитель: Китай, Число SIM-карт: 1, Разъемы: USB Type-C, Разрешение экрана: 2000x1200, Форм-фактор SIM: Nano-SIM, Цвет товара: темно-серый, Встроенная память,   ГБ: 32, Оперативная память: 3 ГБ, Навигация: GPS, Модуль связи Bluetooth: 5.0, Бренд: Samsung, Тип карты памяти: microSD, Бренд процессора: Samsung, Разрешение основной камеры,  Мпикс: 8, Гарантийный срок: 1 год, Процессор: Snapdragon 662 8 ядер,  2.0 ГГц, Тип: Планшет, Беспроводные интерфейсы: Wi-Fi',
    '18 мм 20 мм 22 мм силиконовый ремешок для Samsung Galaxy GearS3 спортивный ремешок для часов Huawei active2 Huami. Бренд: Нет бренда, Вес товара,  г: 100, Цвет товара: черный, Рекомендовано для: Samsung, Материал браслета/ремешка: Гипоаллергенный силикон, Название цвета: Виолетта, Страна-изготовитель: Китай',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 1.0000, 0.8924],
#         [1.0000, 1.0000, 0.8924],
#         [0.8924, 0.8924, 1.0000]])

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.7883
spearman_cosine 0.716

Training Details

Training Dataset

Unnamed Dataset

  • Size: 32,157 training samples
  • Columns: sentence1 and sentence2
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2
    type string string
    details
    • min: 16 tokens
    • mean: 176.61 tokens
    • max: 512 tokens
    • min: 16 tokens
    • mean: 176.61 tokens
    • max: 512 tokens
  • Samples:
    sentence1 sentence2
    300 ГБ Внутренний жесткий диск Dell HC492 (HC492). Бренд: Dell, Вес товара, г: 500, Тип: Внутренний жесткий диск, Размеры, мм: 150 x 50 x 100, Назначение: Для сервера, Объем: 300 ГБ, Форм-фактор: 3.5</code> 300 ГБ Внутренний жесткий диск Dell HC492 (HC492). Бренд: Dell, Вес товара, г: 500, Тип: Внутренний жесткий диск, Размеры, мм: 150 x 50 x 100, Назначение: Для сервера, Объем: 300 ГБ, Форм-фактор: 3.5</code>
    Матрица / 1600x900 (HD+) / TN, глянцевая, для Lenovo B71-80 . Тип: Матрица для ноутбука, Тип подсветки: LED, Бренд: CHIP, Рекомендовано для: Lenovo, Гарантийный срок: 3 месяца, Разрешение экрана: 1600x900 HD+, Покрытие экрана: Глянцевое, Диагональ экрана, дюймы: 17.3, Страна-изготовитель: Китай Гонконг Матрица / 1600x900 (HD+) / TN, глянцевая, для Lenovo B71-80 . Тип: Матрица для ноутбука, Тип подсветки: LED, Бренд: CHIP, Рекомендовано для: Lenovo, Гарантийный срок: 3 месяца, Разрешение экрана: 1600x900 HD+, Покрытие экрана: Глянцевое, Диагональ экрана, дюймы: 17.3, Страна-изготовитель: Китай Гонконг
    Картридж CLP-510D5 M пурпурный, для принтера Samsung CLP-510 / CLP-511 / CLP-515 / CLP-560. Тип: Картридж, Назначение: для лазерного принтера, Цвет тонера/чернил: пурпурный, Страна-изготовитель: Китай, Бренд: GalaPrint, Ресурс: 5000 страниц, Комплектация: Картридж - 1 шт., Бренд печатающего устройства: Samsung, Количество в упаковке, шт: 1, Количество цветов: 1, Совместимые модели принтеров: Samsung CLP-510, Samsung CLP-511, Samsung CLP-515, Samsung CLP-560, Цветность: Цветной, Оригинальность расходника: совместимый Картридж CLP-510D5 M пурпурный, для принтера Samsung CLP-510 / CLP-511 / CLP-515 / CLP-560. Тип: Картридж, Назначение: для лазерного принтера, Цвет тонера/чернил: пурпурный, Страна-изготовитель: Китай, Бренд: GalaPrint, Ресурс: 5000 страниц, Комплектация: Картридж - 1 шт., Бренд печатающего устройства: Samsung, Количество в упаковке, шт: 1, Количество цветов: 1, Совместимые модели принтеров: Samsung CLP-510, Samsung CLP-511, Samsung CLP-515, Samsung CLP-560, Цветность: Цветной, Оригинальность расходника: совместимый
  • Loss: DenoisingAutoEncoderLoss

Evaluation Dataset

Unnamed Dataset

  • Size: 3,573 evaluation samples
  • Columns: sentence1 and sentence2
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2
    type string string
    details
    • min: 19 tokens
    • mean: 177.65 tokens
    • max: 512 tokens
    • min: 19 tokens
    • mean: 177.65 tokens
    • max: 512 tokens
  • Samples:
    sentence1 sentence2
    Смарт ТВ приставка OneTech TV-817. Бренд: Onetech, Тип: Медиаплеер, Цвет товара: черный Смарт ТВ приставка OneTech TV-817. Бренд: Onetech, Тип: Медиаплеер, Цвет товара: черный
    Контейнер SIM для iPhone 12 mini Красный. Бренд: Нет бренда, Вид запчасти: Держатель SIM-карты, Страна-изготовитель: Китай, Тип: Запчасть для телефона Контейнер SIM для iPhone 12 mini Красный. Бренд: Нет бренда, Вид запчасти: Держатель SIM-карты, Страна-изготовитель: Китай, Тип: Запчасть для телефона
    Клавиатура для HP 17-ca0135ur ноутбука черная с подсветкой. Тип: Клавиатура для ноутбука, Гарантийный срок: 6 месяцев, Страна-изготовитель: Россия, Бренд: Нет бренда, Партномер: 8504403281 Клавиатура для HP 17-ca0135ur ноутбука черная с подсветкой. Тип: Клавиатура для ноутбука, Гарантийный срок: 6 месяцев, Страна-изготовитель: Россия, Бренд: Нет бренда, Партномер: 8504403281
  • Loss: DenoisingAutoEncoderLoss

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 2
  • gradient_accumulation_steps: 4
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • num_train_epochs: 2
  • warmup_ratio: 0.1
  • bf16: True
  • dataloader_drop_last: True
  • remove_unused_columns: False
  • load_best_model_at_end: True
  • ignore_data_skip: True
  • dataloader_pin_memory: False

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 4
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: False
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: True
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: False
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss val_evaluator_spearman_cosine
0.0249 50 50.5829 - -
0.0498 100 40.6255 9.0062 0.7200
0.0746 150 33.0871 - -
0.0995 200 30.4189 7.4291 0.7068
0.1244 250 29.1024 - -
0.1493 300 27.8623 6.7881 0.7135
0.1742 350 26.6369 - -
0.1990 400 25.5836 6.3228 0.7290
0.2239 450 25.3958 - -
0.2488 500 24.4666 6.0294 0.7277
0.2737 550 23.9786 - -
0.2985 600 24.0528 5.9682 0.7519
0.3234 650 24.4052 - -
0.3483 700 24.0349 5.9931 0.7177
0.3732 750 24.1263 - -
0.3981 800 24.3114 6.1747 0.7175
0.4229 850 24.5871 - -
0.4478 900 24.0154 5.9904 0.7093
0.4727 950 23.6821 - -
0.4976 1000 23.7826 5.8860 0.7309
0.5225 1050 24.1249 - -
0.5473 1100 23.8626 6.0215 0.7257
0.5722 1150 23.4409 - -
0.5971 1200 23.7736 7.0140 0.6837
0.6220 1250 24.7391 - -
0.6468 1300 26.8179 6.5331 0.7306
0.6717 1350 26.2037 - -
0.6966 1400 26.0413 6.4329 0.7104
0.7215 1450 25.7263 - -
0.7464 1500 25.7628 6.4311 0.6982
0.7712 1550 25.7511 - -
0.7961 1600 25.6492 6.4139 0.6845
0.8210 1650 25.6498 - -
0.8459 1700 25.6481 6.4235 0.7315
0.8708 1750 25.7208 - -
0.8956 1800 25.7408 6.4055 0.7107
0.9205 1850 25.6135 - -
0.9454 1900 25.5655 6.3829 0.7287
0.9703 1950 25.566 - -
0.9951 2000 25.6305 6.3725 0.7522
1.0204 2050 25.5832 - -
1.0453 2100 25.4271 6.3412 0.6959
1.0702 2150 25.5027 - -
1.0950 2200 25.5137 6.3318 0.7097
1.1199 2250 25.3413 - -
1.1448 2300 25.2634 6.3250 0.7093
1.1697 2350 25.2366 - -
1.1946 2400 25.1903 6.3146 0.7300
1.2194 2450 25.3605 - -
1.2443 2500 25.2244 6.3077 0.7194
1.2692 2550 25.2578 - -
1.2941 2600 25.1764 6.3055 0.7404
1.3189 2650 25.287 - -
1.3438 2700 25.2671 6.2933 0.7203
1.3687 2750 25.1747 - -
1.3936 2800 25.0824 6.2832 0.6952
1.4185 2850 25.2061 - -
1.4433 2900 25.0547 6.2767 0.7228
1.4682 2950 25.103 - -
1.4931 3000 25.1054 6.2705 0.7116
1.5180 3050 25.0885 - -
1.5429 3100 25.1039 6.2643 0.6877
1.5677 3150 25.0281 - -
1.5926 3200 25.0906 6.2581 0.7483
1.6175 3250 24.9833 - -
1.6424 3300 25.0486 6.2525 0.7363
1.6672 3350 25.0512 - -
1.6921 3400 25.2035 6.2463 0.7221
1.7170 3450 25.0408 - -
1.7419 3500 25.0175 6.2412 0.6702
1.7668 3550 25.0301 - -
1.7916 3600 25.0462 6.2382 0.7210
1.8165 3650 24.9645 - -
1.8414 3700 25.0913 6.2344 0.6940
1.8663 3750 25.0548 - -
1.8912 3800 24.8374 6.2314 0.6910
1.9160 3850 24.8166 - -
1.9409 3900 24.878 6.2295 0.7029
1.9658 3950 24.836 - -
1.9907 4000 24.8803 6.2285 0.7160

Framework Versions

  • Python: 3.10.0rc2
  • Sentence Transformers: 5.0.0
  • Transformers: 4.49.0
  • PyTorch: 2.6.0+cu126
  • Accelerate: 1.4.0
  • Datasets: 3.3.2
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

DenoisingAutoEncoderLoss

@inproceedings{wang-2021-TSDAE,
    title = "TSDAE: Using Transformer-based Sequential Denoising Auto-Encoderfor Unsupervised Sentence Embedding Learning",
    author = "Wang, Kexin and Reimers, Nils and Gurevych, Iryna",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
    month = nov,
    year = "2021",
    address = "Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    pages = "671--688",
    url = "https://arxiv.org/abs/2104.06979",
}
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for TimeNtWait/e5-small-ru-products-qlora_v1

Finetuned
(127)
this model

Evaluation results