SentenceTransformer based on intfloat/multilingual-e5-large
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large on the q2q_data and q2p_data datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-large
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
- Training Datasets:
- q2q_data
- q2p_data
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("George2002/sledopyt_embedder")
# Run inference
sentences = [
'query: Кто отвечает за подтверждение замены владельца номинального счета?',
'query: Кто должен дать согласие на смену владельца номинального счета?',
'query: Какой документ требуется для подтверждения личности клиента при смене владельца номинального счета?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Datasets
q2q_data
- Dataset: q2q_data
- Size: 33,406 training samples
- Columns:
query_1,query_2, andnegative - Approximate statistics based on the first 1000 samples:
query_1 query_2 negative type string string string details - min: 12 tokens
- mean: 22.08 tokens
- max: 42 tokens
- min: 11 tokens
- mean: 21.77 tokens
- max: 43 tokens
- min: 11 tokens
- mean: 21.45 tokens
- max: 39 tokens
- Samples:
query_1 query_2 negative query: Какой телефон для отключения дневного расходного лимита для ребенка?query: На какой номер нужно позвонить, чтобы снять лимит расходов на день для ребенка?query: Как отключить лимиты по детской карте через мобильное приложение, если родитель хочет это сделать?query: При каком условии можно выбрать возраст ребенка представительством?query: При каких обстоятельствах можно определить возраст ребенка в представительстве?query: Какой статус должен быть у представителя для определения возраста ребенка?query: Какие бумаги нужны при обращении, если счет не удается найти?query: Что требуется приложить к запросу, если счет отсутствует?query: Что нужно предоставить для регистрации обращения, если счёт не обнаружен? - Loss:
TripletLosswith these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 }
q2p_data
- Dataset: q2p_data
- Size: 7,709 training samples
- Columns:
query,chunk, andnegative - Approximate statistics based on the first 1000 samples:
query chunk negative type string string string details - min: 13 tokens
- mean: 22.14 tokens
- max: 40 tokens
- min: 12 tokens
- mean: 162.33 tokens
- max: 512 tokens
- min: 12 tokens
- mean: 129.72 tokens
- max: 512 tokens
- Samples:
query chunk negative query: Что такое ДУЛ законного представителя и зачем он нужен?passage: Документы, необходимые для прикрепления законного представителя к подопечному (несовершеннолетнему от 14 до 18 лет):
Приемный родитель
ДУЛ законного представителя
Документ из органа опеки и попечительства о передаче ребенка в приемную семьюpassage: Документы, необходимые для прикрепления законного представителя к подопечному (несовершеннолетнему от 14 до 18 лет):
Попечитель (физ. лицо)
ДУЛ законного представителя
Решение органа опеки и попечительства о назначении попечителяquery: Что требуется для получения выписки по счету вкладчика с ограниченной дееспособностью?passage: Выписка по счету (вкладу) может быть выдана:
- Ограниченно дееспособный в силу пристрастия
-Доверенное лицо ограниченно дееспособногоpassage: Кто обратился?
Вкладчик/Представитель вкладчика (полномочия подтверждены)
Выберите причину розыска?query: Какие учредительные документы необходимы для государственного социального учреждения?passage: Документ (распоряжение/приказ/акт/путевка) органа опеки и попечительства о помещении (передаче под надзор) несовершеннолетнего в государственную социальную организацию
Учредительные документы государственного социального учреждения (далее –учреждение)
Свидетельство о постановке на учет в налоговом органе учреждения
Выписка из Единого государственного реестра юридических лиц
Свидетельство о государственной регистрации учреждения
Документ (как правило, приказ) о назначении (избрании) единоличного исполнительного органа (директора) социального учрежденияpassage: Документ (распоряжение/приказ/акт/путевка) органа опеки и попечительства о помещении (передаче под надзор) ограниченно дееспособного гражданина в государственную социальную организацию
Учредительные документы государственного социального учреждения (далее –учреждение)
Свидетельство о постановке на учет в налоговом органе учреждения
Выписка из Единого государственного реестра юридических лиц
Свидетельство о государственной регистрации учреждения
Документы об избрании (назначении) единоличного исполнительного органа - Loss:
TripletLosswith these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 }
Evaluation Datasets
q2q_data
- Dataset: q2q_data
- Size: 1,759 evaluation samples
- Columns:
query_1,query_2, andnegative - Approximate statistics based on the first 1000 samples:
query_1 query_2 negative type string string string details - min: 11 tokens
- mean: 22.02 tokens
- max: 40 tokens
- min: 11 tokens
- mean: 21.69 tokens
- max: 39 tokens
- min: 12 tokens
- mean: 21.38 tokens
- max: 37 tokens
- Samples:
query_1 query_2 negative query: Что необходимо сделать при получении отрицательного заключения?query: Какие действия нужно предпринять после получения отрицательного ответа?query: Какие шаги следует предпринять при получении негативного ответа после открытия счета?query: Нужно ли согласовывать операцию с комплаенсом при переводе в СБОЛ.Про?query: Обязательно ли получить согласие комплаенса для операции перевода в СБОЛ.Про?query: Необходимо ли согласовывать перевод с комплаенсом в СБОЛ.Про?query: Что появляется на экране после нажатия кнопки «Ребенок до 14 лет» или «Ребенок от 14 до 18 лет»?query: Какой экран показывается после нажатия на кнопки «Ребенок до 14 лет» и «Ребенок от 14 до 18 лет»?query: Каким лицам доступна выписка по счету несовершеннолетнего в возрасте от 14 до 18 лет? - Loss:
TripletLosswith these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 }
q2p_data
- Dataset: q2p_data
- Size: 406 evaluation samples
- Columns:
query,chunk, andnegative - Approximate statistics based on the first 406 samples:
query chunk negative type string string string details - min: 13 tokens
- mean: 22.26 tokens
- max: 40 tokens
- min: 12 tokens
- mean: 163.57 tokens
- max: 512 tokens
- min: 12 tokens
- mean: 126.02 tokens
- max: 512 tokens
- Samples:
query chunk negative query: Куда следует направить информацию, полученную для розыска?passage: Выберите причину розыска?
Информация нужна для предоставления в Суд/в органы опеки/ др. гос органы
Зарегистрируй обращение в СРМ «Розничный». Приложи (при наличии) документы, подтверждающие .....passage: Заполните информацию о подопечномquery: Кто может обратиться за открытием карты МИР без согласия Финансового управляющего?passage: С каким вопросом обратился банкрот?
06. Открытие счета/вклада (отличного от Специального счета банкрота)
Банкрот в любой стадии банкротства может открыть самостоятельно в стандартном режиме без согласия Финансового управляющего следующие виды счетов:
- Номинальный счет для получения пособий на подопечного/ алиментов на ребенка без согласия своего финансового управляющего.
Любой другой счет может открыть только банкрот в стадии реструктуризация долгов, предоставив разрешение Финансового управляющего
!!!!!! при обращении МОБИЛИЗОВАННОГО (участник СВО) банкрота (в стадии РИ) для открытия и получения карты МИР для зачисления военного довольствия, открываем и выдаем карту МИР БЕЗ РАЗРЕШЕНИЯ ФУpassage: Банкрот в любой стадии банкротства может открыть самостоятельно в стандартном режиме без согласия Финансового управляющего следующие виды счетов:
- Номинальный счет для получения пособий на подопечного/ алиментов на ребенка без согласия своего финансового управляющего.
Любой другой счет может открыть только банкрот в стадии реструктуризация долгов, предоставив разрешение Финансового управляющего
!!!!!! при обращении МОБИЛИЗОВАННОГО (участник СВО) банкрота (в стадии РИ) для открытия и получения карты МИР для зачисления военного довольствия, открываем и выдаем карту МИР БЕЗ РАЗРЕШЕНИЯ ФУ
Процедура банкротства Реструктуризация долгов
Клиент, признанный банкротом в стадии реструктуризация долгов имеет право без согласия Финансового управляющего открыть счета:
- Специальный счет банкрота с ежемесячным лимитом в 50 000.00
- Счет ГЖС (Счет ГЖС открывается в стандартном режиме, арест/ блокировка на счет ГЖС не накладывается).
При открытии любого другого счёта банкрот должен п...query: Что должно быть на свидетельстве о рождении Украины для оформления Детской СберКарты?passage: ВНИМАНИЕ !
С 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству о рождении Украины со штампом о гражданстве РФ.
Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально заверенное удостоверение перевода на русский язык свидетельства о рождении Украины со штампом о гражданстве РФ.
Типичные вопросы по Детской СберКарте и ответы на них
18. Сколько изготавливается Детская СберКарта ?
Актуальные сроки выпуска карты размещены на сайте Банка: Детская СберКарт -> Тарифы -> Документы и ссылкиpassage: ВНИМАНИЕ !
С 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству о рождении Украины со штампом о гражданстве РФ.
Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально заверенное удостоверение перевода на русский язык свидетельства о рождении Украины со штампом о гражданстве РФ.
Типичные вопросы по Детской СберКарте и ответы на них
05. Бонусы Спасибо по Детской СберКарте
Выберите интересующий вопрос - Loss:
TripletLosswith these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 36learning_rate: 1e-05weight_decay: 0.01num_train_epochs: 2warmup_ratio: 0.1load_best_model_at_end: Truepush_to_hub: Truehub_model_id: George2002/sledopyt_embedderhub_strategy: end
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 36per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 1e-05weight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 2max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Truedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Trueresume_from_checkpoint: Nonehub_model_id: George2002/sledopyt_embedderhub_strategy: endhub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional
Training Logs
Click to expand
| Epoch | Step | Training Loss | q2q data loss | q2p data loss |
|---|---|---|---|---|
| 0.0175 | 10 | 4.957 | - | - |
| 0.0351 | 20 | 4.9467 | - | - |
| 0.0526 | 30 | 4.9452 | - | - |
| 0.0702 | 40 | 4.9325 | - | - |
| 0.0877 | 50 | 4.9056 | 4.8804 | 4.9222 |
| 0.1053 | 60 | 4.9041 | - | - |
| 0.1228 | 70 | 4.8866 | - | - |
| 0.1404 | 80 | 4.844 | - | - |
| 0.1579 | 90 | 4.8064 | - | - |
| 0.1754 | 100 | 4.8182 | 4.7243 | 4.8660 |
| 0.1930 | 110 | 4.7791 | - | - |
| 0.2105 | 120 | 4.7659 | - | - |
| 0.2281 | 130 | 4.7572 | - | - |
| 0.2456 | 140 | 4.7234 | - | - |
| 0.2632 | 150 | 4.726 | 4.6268 | 4.8712 |
| 0.2807 | 160 | 4.6932 | - | - |
| 0.2982 | 170 | 4.6654 | - | - |
| 0.3158 | 180 | 4.6776 | - | - |
| 0.3333 | 190 | 4.6617 | - | - |
| 0.3509 | 200 | 4.6928 | 4.5581 | 4.8814 |
| 0.3684 | 210 | 4.6497 | - | - |
| 0.3860 | 220 | 4.677 | - | - |
| 0.4035 | 230 | 4.6344 | - | - |
| 0.4211 | 240 | 4.6612 | - | - |
| 0.4386 | 250 | 4.6274 | 4.5154 | 4.8396 |
| 0.4561 | 260 | 4.6556 | - | - |
| 0.4737 | 270 | 4.6382 | - | - |
| 0.4912 | 280 | 4.6053 | - | - |
| 0.5088 | 290 | 4.6131 | - | - |
| 0.5263 | 300 | 4.6453 | 4.4957 | 4.8314 |
| 0.5439 | 310 | 4.5819 | - | - |
| 0.5614 | 320 | 4.5948 | - | - |
| 0.5789 | 330 | 4.5288 | - | - |
| 0.5965 | 340 | 4.6152 | - | - |
| 0.6140 | 350 | 4.5831 | 4.4657 | 4.7953 |
| 0.6316 | 360 | 4.5507 | - | - |
| 0.6491 | 370 | 4.5718 | - | - |
| 0.6667 | 380 | 4.6269 | - | - |
| 0.6842 | 390 | 4.6017 | - | - |
| 0.7018 | 400 | 4.5155 | 4.4396 | 4.7694 |
| 0.7193 | 410 | 4.5055 | - | - |
| 0.7368 | 420 | 4.534 | - | - |
| 0.7544 | 430 | 4.5358 | - | - |
| 0.7719 | 440 | 4.5443 | - | - |
| 0.7895 | 450 | 4.5309 | 4.4183 | 4.7751 |
| 0.8070 | 460 | 4.5952 | - | - |
| 0.8246 | 470 | 4.5561 | - | - |
| 0.8421 | 480 | 4.5191 | - | - |
| 0.8596 | 490 | 4.5066 | - | - |
| 0.8772 | 500 | 4.4875 | 4.4138 | 4.8195 |
| 0.8947 | 510 | 4.5051 | - | - |
| 0.9123 | 520 | 4.4872 | - | - |
| 0.9298 | 530 | 4.4918 | - | - |
| 0.9474 | 540 | 4.5357 | - | - |
| 0.9649 | 550 | 4.4898 | 4.3754 | 4.7799 |
| 0.9825 | 560 | 4.5742 | - | - |
| 1.0 | 570 | 4.5461 | - | - |
| 1.0175 | 580 | 4.5505 | - | - |
| 1.0351 | 590 | 4.5027 | - | - |
| 1.0526 | 600 | 4.5747 | 4.4060 | 4.7915 |
| 1.0702 | 610 | 4.5296 | - | - |
| 1.0877 | 620 | 4.4262 | - | - |
| 1.1053 | 630 | 4.5415 | - | - |
| 1.1228 | 640 | 4.5386 | - | - |
| 1.1404 | 650 | 4.4552 | 4.3632 | 4.8105 |
| 1.1579 | 660 | 4.4473 | - | - |
| 1.1754 | 670 | 4.5069 | - | - |
| 1.1930 | 680 | 4.5129 | - | - |
| 1.2105 | 690 | 4.4611 | - | - |
| 1.2281 | 700 | 4.5104 | 4.3530 | 4.7875 |
| 1.2456 | 710 | 4.4742 | - | - |
| 1.2632 | 720 | 4.4887 | - | - |
| 1.2807 | 730 | 4.406 | - | - |
| 1.2982 | 740 | 4.4049 | - | - |
| 1.3158 | 750 | 4.4165 | 4.3484 | 4.7866 |
| 1.3333 | 760 | 4.4274 | - | - |
| 1.3509 | 770 | 4.4855 | - | - |
| 1.3684 | 780 | 4.4571 | - | - |
| 1.3860 | 790 | 4.4307 | - | - |
| 1.4035 | 800 | 4.4387 | 4.3450 | 4.7628 |
| 1.4211 | 810 | 4.4592 | - | - |
| 1.4386 | 820 | 4.4368 | - | - |
| 1.4561 | 830 | 4.4863 | - | - |
| 1.4737 | 840 | 4.463 | - | - |
| 1.4912 | 850 | 4.4113 | 4.3252 | 4.7610 |
| 1.5088 | 860 | 4.4368 | - | - |
| 1.5263 | 870 | 4.4738 | - | - |
| 1.5439 | 880 | 4.4195 | - | - |
| 1.5614 | 890 | 4.4478 | - | - |
| 1.5789 | 900 | 4.3849 | 4.3140 | 4.7519 |
| 1.5965 | 910 | 4.4896 | - | - |
| 1.6140 | 920 | 4.4301 | - | - |
| 1.6316 | 930 | 4.4142 | - | - |
| 1.6491 | 940 | 4.4582 | - | - |
| 1.6667 | 950 | 4.5075 | 4.3189 | 4.7259 |
| 1.6842 | 960 | 4.4454 | - | - |
| 1.7018 | 970 | 4.3547 | - | - |
| 1.7193 | 980 | 4.4016 | - | - |
| 1.7368 | 990 | 4.4064 | - | - |
| 1.7544 | 1000 | 4.4356 | 4.3151 | 4.7276 |
| 1.7719 | 1010 | 4.4105 | - | - |
| 1.7895 | 1020 | 4.4067 | - | - |
| 1.8070 | 1030 | 4.4296 | - | - |
| 1.8246 | 1040 | 4.4147 | - | - |
| 1.8421 | 1050 | 4.3743 | 4.3136 | 4.7182 |
| 1.8596 | 1060 | 4.4065 | - | - |
| 1.8772 | 1070 | 4.4025 | - | - |
| 1.8947 | 1080 | 4.3912 | - | - |
| 1.9123 | 1090 | 4.3731 | - | - |
| 1.9298 | 1100 | 4.3817 | 4.3120 | 4.7357 |
| 1.9474 | 1110 | 4.4305 | - | - |
| 1.9649 | 1120 | 4.3914 | - | - |
| 1.9825 | 1130 | 4.4753 | - | - |
| 2.0 | 1140 | 4.4536 | - | - |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 4.1.0
- Transformers: 4.51.3
- PyTorch: 2.6.0+cu124
- Accelerate: 1.6.0
- Datasets: 3.5.0
- Tokenizers: 0.21.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
TripletLoss
@misc{hermans2017defense,
title={In Defense of the Triplet Loss for Person Re-Identification},
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
year={2017},
eprint={1703.07737},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
- Downloads last month
- 1
Model tree for George2002/sledopyt_embedder_v4
Base model
intfloat/multilingual-e5-large