Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 12
This is a sentence-transformers model finetuned from vinai/phobert-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("tanbinh2210/onl_contrastive_phobert-base-v2_v2")
# Run inference
sentences = [
'Đơn xin nghỉ_phép có những trạng_thái nào và ý_nghĩa của từng trạng_thái đó là gì ?',
'Cài_đặt đơn_từ\nCài_đặt danh_mục\nCài_đặt danh_mục là nơi người dùng cài_đặt các lý_do của đơn_từ hành_chính , phương_tiện công_tác , công_tác_phí\n1 . Mở phân hệ Đơn_từ tại HRM\n2 . Ở trên cùng bên phải , chọn Cài_đặt\n3 . Tại menu trái , chọn Danh_mục\n4 . Chọn_Tạo mới để tạo mới\n5 . Nhấp vào Cập_nhật để lưu thay_đổi\ncài_đặt danh_mục\nTrường dữ_liệu : Tối_đa , Mô_tả : Hạn_chế nhân_sự sử_dụng đơn quá nhiều lần trong tuần , tháng hoặc năm\nTrường dữ_liệu : Ký_hiệu , Mô_tả : Ký_hiệu hiển_thị trên bảng chấm công Chỉ hiển_thị ký_hiệu với Đơn xin nghỉ\nTrường dữ_liệu : Tính công , Mô_tả : Nếu lý_do bạn chọn Có tính công thì khoảng thời_gian xin nghỉ / vắng_mặt của bạn sẽ được tính vào công làm_việc\nTrường dữ_liệu : Trạng_thái , Mô_tả : Hoạt_động : người dùng có_thể chọn lý_do này khi tạo đơn Không hoạt_động : người dùng sẽ không nhìn thấy lý_do này trong danh_sách\nTrường dữ_liệu : Yêu_cầu chốt , Mô_tả : Nếu lý_do vắng_mặt của bạn Có yêu_cầu chốt vân tay thì bạn cần phải chốt vân tay_trong khoảng thời_gian bắt_đầu vắng mắt và kết_thúc vắng_mặt\nLưu_ý : Không_thể xoá những lý_do của đơn xin nghỉ được hệ_thống tạo ra , chỉ có_thể chuyển lý_do sang trạng_thái không hoạt_động .',
'Thư_viện tài_nguyên\nThư_viện tài_nguyên là một tính_năng mới của 1Office .\nĐây là kho tài_nguyên chứa các dữ_liệu mẫu mà 1Office cung_cấp cho Khách_hàng .\nNó hoạt_động giống như Google Play hay Chrome_Extension .\nTại đây sẽ có các Template mẫu , người dùng có_thể vào xem thử ảnh demo hoặc mô_tả , nếu phù_hợp với đặc_thù công_việc , chọn Cài_đặt để tải về .\nKhi đó , tài_nguyên vừa tải về sẽ được cập_nhật vào đối_tượng tương_ứng trên phần_mềm .\nSử_dụng thư_viện tài_nguyên như_thế_nào ?\nĐể có được những tài_nguyên mà 1Office , người dùng thực_hiện theo các bước :\nBước 1 .\nTải tài_liệu về phần_mềm\nBước 2 .\nCài_đặt thông_số cho dữ_liệu tải về\nBước 3 .\nSử_dụng phần_mềm với các tài_liệu đã được cài_đặt trên phần_mềm',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
question, passage, and label| question | passage | label | |
|---|---|---|---|
| type | string | string | int |
| details |
|
|
|
| question | passage | label |
|---|---|---|
Tôi nên bắt_đầu từ đâu để có_thể sử_dụng 1Office một_cách nhanh_chóng và hiệu_quả ? |
CHÀO_MỪNG BẠN ĐẾN VỚI TRUNG_TÂM HỖ_TRỢ 1OFFICE |
1 |
Việc xuất file thông_tin máy chấm công có giúp tôi tải lại thông_tin cấu_hình vào hệ_thống mới nhanh_chóng không ? |
Thêm máy chấm công |
0 |
Khi nhân_sự thay_đổi phòng_ban , vị_trí , chức_vụ thì nhóm quyền của họ có cần được cập_nhật lại không ? |
Hợp_đồng lao_động |
0 |
OnlineContrastiveLossquestion, passage, and label| question | passage | label | |
|---|---|---|---|
| type | string | string | int |
| details |
|
|
|
| question | passage | label |
|---|---|---|
Bảng lương sẽ tự_động lấy điểm KPI nào khi nhân_viên có nhiều kỳ đánh_giá đã được chốt ? |
Khắc_phục sự_cố không liên_kết được tới phân hệ bảng lương |
0 |
Các bước cụ_thể để tạo một đơn xin thôi_việc mới trên hệ_thống là gì ? |
Đơn xin nghỉ |
0 |
Sau khi tải tài_liệu từ thư_viện về , bước tiếp_theo là gì ? |
Thư_viện tài_nguyên |
1 |
OnlineContrastiveLossoverwrite_output_dir: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 32gradient_accumulation_steps: 8learning_rate: 2e-05weight_decay: 0.01num_train_epochs: 20lr_scheduler_type: cosinewarmup_ratio: 0.1fp16: Trueoverwrite_output_dir: Truedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 8eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.01adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 20max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Falsehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseeval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseeval_use_gather_object: Falsebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss |
|---|---|---|
| 0.0889 | 50 | 0.7688 |
| 0.1779 | 100 | 0.3645 |
| 0.2668 | 150 | 0.2754 |
| 0.3558 | 200 | 0.2238 |
| 0.4447 | 250 | 0.1853 |
| 0.5337 | 300 | 0.1806 |
| 0.6226 | 350 | 0.1698 |
| 0.7116 | 400 | 0.1559 |
| 0.8005 | 450 | 0.1499 |
| 0.8895 | 500 | 0.1466 |
| 0.9784 | 550 | 0.144 |
| 1.0674 | 600 | 0.1066 |
| 1.1563 | 650 | 0.1213 |
| 1.2453 | 700 | 0.1104 |
| 1.3342 | 750 | 0.1086 |
| 1.4232 | 800 | 0.1109 |
| 1.5121 | 850 | 0.1015 |
| 1.6011 | 900 | 0.104 |
| 1.6900 | 950 | 0.0998 |
| 1.7790 | 1000 | 0.1045 |
| 1.8679 | 1050 | 0.1019 |
| 1.9569 | 1100 | 0.1012 |
| 2.0458 | 1150 | 0.0916 |
| 2.1348 | 1200 | 0.0802 |
| 2.2237 | 1250 | 0.0741 |
| 2.3127 | 1300 | 0.0702 |
| 2.4016 | 1350 | 0.0836 |
| 2.4905 | 1400 | 0.0564 |
| 2.5795 | 1450 | 0.0749 |
| 2.6684 | 1500 | 0.0675 |
| 2.7574 | 1550 | 0.0701 |
| 2.8463 | 1600 | 0.0668 |
| 2.9353 | 1650 | 0.068 |
| 3.0242 | 1700 | 0.0576 |
| 3.1132 | 1750 | 0.0412 |
| 3.2021 | 1800 | 0.0451 |
| 3.2911 | 1850 | 0.0431 |
| 3.3800 | 1900 | 0.0357 |
| 3.4690 | 1950 | 0.0479 |
| 3.5579 | 2000 | 0.0494 |
| 3.6469 | 2050 | 0.0467 |
| 3.7358 | 2100 | 0.0358 |
| 3.8248 | 2150 | 0.0425 |
| 3.9137 | 2200 | 0.0573 |
| 4.0027 | 2250 | 0.0389 |
| 4.0916 | 2300 | 0.0198 |
| 4.1806 | 2350 | 0.0249 |
| 4.2695 | 2400 | 0.0277 |
| 4.3585 | 2450 | 0.0278 |
| 4.4474 | 2500 | 0.0282 |
| 4.5364 | 2550 | 0.033 |
| 4.6253 | 2600 | 0.0306 |
| 4.7143 | 2650 | 0.0302 |
| 4.8032 | 2700 | 0.0368 |
| 4.8922 | 2750 | 0.0338 |
| 4.9811 | 2800 | 0.0322 |
| 5.0700 | 2850 | 0.0226 |
| 5.1590 | 2900 | 0.0245 |
| 5.2479 | 2950 | 0.0216 |
| 5.3369 | 3000 | 0.0164 |
| 5.4258 | 3050 | 0.015 |
| 5.5148 | 3100 | 0.0192 |
| 5.6037 | 3150 | 0.0254 |
| 5.6927 | 3200 | 0.0205 |
| 5.7816 | 3250 | 0.0228 |
| 5.8706 | 3300 | 0.0235 |
| 5.9595 | 3350 | 0.0254 |
| 6.0485 | 3400 | 0.0194 |
| 6.1374 | 3450 | 0.0087 |
| 6.2264 | 3500 | 0.0163 |
| 6.3153 | 3550 | 0.0151 |
| 6.4043 | 3600 | 0.0178 |
| 6.4932 | 3650 | 0.0191 |
| 6.5822 | 3700 | 0.0151 |
| 6.6711 | 3750 | 0.0207 |
| 6.7601 | 3800 | 0.0163 |
| 6.8490 | 3850 | 0.0211 |
| 6.9380 | 3900 | 0.0187 |
| 7.0269 | 3950 | 0.0182 |
| 7.1159 | 4000 | 0.0128 |
| 7.2048 | 4050 | 0.0088 |
| 7.2938 | 4100 | 0.0112 |
| 7.3827 | 4150 | 0.0206 |
| 7.4716 | 4200 | 0.0128 |
| 7.5606 | 4250 | 0.0124 |
| 7.6495 | 4300 | 0.01 |
| 7.7385 | 4350 | 0.0159 |
| 7.8274 | 4400 | 0.014 |
| 7.9164 | 4450 | 0.0186 |
| 8.0053 | 4500 | 0.0174 |
| 8.0943 | 4550 | 0.0135 |
| 8.1832 | 4600 | 0.0103 |
| 8.2722 | 4650 | 0.0101 |
| 8.3611 | 4700 | 0.0136 |
| 8.4501 | 4750 | 0.0149 |
| 8.5390 | 4800 | 0.0131 |
| 8.6280 | 4850 | 0.0092 |
| 8.7169 | 4900 | 0.0124 |
| 8.8059 | 4950 | 0.0123 |
| 8.8948 | 5000 | 0.0112 |
| 8.9838 | 5050 | 0.0102 |
| 9.0727 | 5100 | 0.0087 |
| 9.1617 | 5150 | 0.0094 |
| 9.2506 | 5200 | 0.0084 |
| 9.3396 | 5250 | 0.0075 |
| 9.4285 | 5300 | 0.0102 |
| 9.5175 | 5350 | 0.0104 |
| 9.6064 | 5400 | 0.0104 |
| 9.6954 | 5450 | 0.0088 |
| 9.7843 | 5500 | 0.0148 |
| 9.8732 | 5550 | 0.0088 |
| 9.9622 | 5600 | 0.0133 |
| 10.0511 | 5650 | 0.007 |
| 10.1401 | 5700 | 0.0087 |
| 10.2290 | 5750 | 0.0034 |
| 10.3180 | 5800 | 0.0059 |
| 10.4069 | 5850 | 0.0075 |
| 10.4959 | 5900 | 0.0057 |
| 10.5848 | 5950 | 0.0085 |
| 10.6738 | 6000 | 0.0113 |
| 10.7627 | 6050 | 0.01 |
| 10.8517 | 6100 | 0.0066 |
| 10.9406 | 6150 | 0.0059 |
| 11.0296 | 6200 | 0.0088 |
| 11.1185 | 6250 | 0.0028 |
| 11.2075 | 6300 | 0.0031 |
| 11.2964 | 6350 | 0.0044 |
| 11.3854 | 6400 | 0.007 |
| 11.4743 | 6450 | 0.0087 |
| 11.5633 | 6500 | 0.0081 |
| 11.6522 | 6550 | 0.0053 |
| 11.7412 | 6600 | 0.0073 |
| 11.8301 | 6650 | 0.0061 |
| 11.9191 | 6700 | 0.011 |
| 12.0080 | 6750 | 0.0063 |
| 12.0970 | 6800 | 0.0045 |
| 12.1859 | 6850 | 0.0064 |
| 12.2748 | 6900 | 0.0039 |
| 12.3638 | 6950 | 0.0038 |
| 12.4527 | 7000 | 0.0025 |
| 12.5417 | 7050 | 0.0035 |
| 12.6306 | 7100 | 0.0042 |
| 12.7196 | 7150 | 0.0053 |
| 12.8085 | 7200 | 0.0064 |
| 12.8975 | 7250 | 0.004 |
| 12.9864 | 7300 | 0.0042 |
| 13.0754 | 7350 | 0.0019 |
| 13.1643 | 7400 | 0.0031 |
| 13.2533 | 7450 | 0.0013 |
| 13.3422 | 7500 | 0.0018 |
| 13.4312 | 7550 | 0.0068 |
| 13.5201 | 7600 | 0.0041 |
| 13.6091 | 7650 | 0.0022 |
| 13.6980 | 7700 | 0.0038 |
| 13.7870 | 7750 | 0.003 |
| 13.8759 | 7800 | 0.0063 |
| 13.9649 | 7850 | 0.0032 |
| 14.0538 | 7900 | 0.0038 |
| 14.1428 | 7950 | 0.0037 |
| 14.2317 | 8000 | 0.002 |
| 14.3207 | 8050 | 0.0023 |
| 14.4096 | 8100 | 0.0024 |
| 14.4986 | 8150 | 0.0034 |
| 14.5875 | 8200 | 0.0007 |
| 14.6765 | 8250 | 0.0024 |
| 14.7654 | 8300 | 0.0023 |
| 14.8543 | 8350 | 0.0008 |
| 14.9433 | 8400 | 0.0013 |
| 15.0322 | 8450 | 0.0023 |
| 15.1212 | 8500 | 0.0 |
| 15.2101 | 8550 | 0.0021 |
| 15.2991 | 8600 | 0.0013 |
| 15.3880 | 8650 | 0.0043 |
| 15.4770 | 8700 | 0.0031 |
| 15.5659 | 8750 | 0.0007 |
| 15.6549 | 8800 | 0.0031 |
| 15.7438 | 8850 | 0.0029 |
| 15.8328 | 8900 | 0.0012 |
| 15.9217 | 8950 | 0.0014 |
| 16.0107 | 9000 | 0.0006 |
| 16.0996 | 9050 | 0.0008 |
| 16.1886 | 9100 | 0.002 |
| 16.2775 | 9150 | 0.0007 |
| 16.3665 | 9200 | 0.0008 |
| 16.4554 | 9250 | 0.0015 |
| 16.5444 | 9300 | 0.0017 |
| 16.6333 | 9350 | 0.0033 |
| 16.7223 | 9400 | 0.0013 |
| 16.8112 | 9450 | 0.0001 |
| 16.9002 | 9500 | 0.0006 |
| 16.9891 | 9550 | 0.0 |
| 17.0781 | 9600 | 0.0021 |
| 17.1670 | 9650 | 0.0007 |
| 17.2559 | 9700 | 0.0006 |
| 17.3449 | 9750 | 0.0006 |
| 17.4338 | 9800 | 0.0014 |
| 17.5228 | 9850 | 0.0006 |
| 17.6117 | 9900 | 0.002 |
| 17.7007 | 9950 | 0.0017 |
| 17.7896 | 10000 | 0.0007 |
| 17.8786 | 10050 | 0.0007 |
| 17.9675 | 10100 | 0.0007 |
| 18.0565 | 10150 | 0.0006 |
| 18.1454 | 10200 | 0.0 |
| 18.2344 | 10250 | 0.0 |
| 18.3233 | 10300 | 0.0017 |
| 18.4123 | 10350 | 0.0 |
| 18.5012 | 10400 | 0.0 |
| 18.5902 | 10450 | 0.0007 |
| 18.6791 | 10500 | 0.0011 |
| 18.7681 | 10550 | 0.0019 |
| 18.8570 | 10600 | 0.0007 |
| 18.9460 | 10650 | 0.0013 |
| 19.0349 | 10700 | 0.0012 |
| 19.1239 | 10750 | 0.0013 |
| 19.2128 | 10800 | 0.0014 |
| 19.3018 | 10850 | 0.0005 |
| 19.3907 | 10900 | 0.0006 |
| 19.4797 | 10950 | 0.0011 |
| 19.5686 | 11000 | 0.0006 |
| 19.6575 | 11050 | 0.0006 |
| 19.7465 | 11100 | 0.0 |
| 19.8354 | 11150 | 0.0006 |
| 19.9244 | 11200 | 0.0005 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Base model
vinai/phobert-base-v2