thang1943 commited on
Commit
72f393c
·
verified ·
1 Parent(s): 61eb221

vietnamese-bi-encoder-v2

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,785 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0
  <br>
1
  <br>BS ơi cho con hỏi tháng trước con có đi điều trị BS nói con bị demodex và sau đó kê thuốc uống và bôi 2 tuần, ban đầu nó đỡ ngứa, giờ con đang ở Nhật thì nó lại tái phát ngứa và da nổi mẩn đỏ.
2
  <br>
3
  <br>Giờ ở xa nên con không điều trị được. Có cách nào khác giúp con được không BS? Con cảm ơn!
4
  <br>
5
  <br>(Nguyên Thị Kim Vân - Đà Nẵng)</code> |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:54755
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: bkai-foundation-models/vietnamese-bi-encoder
10
+ widget:
11
+ - source_sentence: "Hình minh họa Chào bạn, Không rõ mẹ bạn\r\nphát hiện thận đa nang\
12
+ \ từ khi nào, một bên hay cả hai bên và hiện\r\ntại có bị suy giảm hay không?\
13
+ \ Hiện tại mẹ bạn có\r\ntriệu chứng gì không như đau hông lưng, tiểu máu… mẹ bạn\
14
+ \ cần đến khám BS chuyên\r\nkhoa thận tiết niệu để được đánh giá lại chức năng\
15
+ \ thận, vị trí sỏi… và có hướng\r\nđiều trị tốt nhất. Các BV uy tín bạn có thể\
16
+ \ đến tại TPHCM như: BV Bình dân, BV Chợ\r\nrẫy… Chúc mẹ bạn mau khỏe!"
17
+ sentences:
18
+ - BS cho tôi hỏi, chụp X-quang có nhìn thấy chỉ khâu vết thương không ạ? Chỉ khâu
19
+ bằng dây cước xanh. Cám ơn BS! .
20
+ - "Tôi có đi khám ở Bệnh viện Da Liễu, bác sĩ chẩn đoán viêm da dị ứng do tiếp xúc\
21
+ \ và có kê toa các loại thuốc: Lertazin 5mg, CEBASTIN 20, Elovess, thuốc bôi Immulimus\
22
+ \ 0.03%, kem bôi EUCERIN cream và rửa mặt Cetaphil. \r\n\r\nNhưng loại thuốc bôi\
23
+ \ Immulimus 0.03% là thuốc mỡ, theo toa là bôi 2 lần trong ngày, tôi thì phải\
24
+ \ đi làm cả ngày, nếu bôi thuốc đó thì nhìn mặt rất bóng, không tiện trong công\
25
+ \ việc. Bác sĩ có thể tư vấn tôi loại thuốc có thể thay thế thuốc bôi Immulimus\
26
+ \ 0.03% để tiện cho tôi không?Xin cảm ơn bác sĩ."
27
+ - "Chào bác sĩ,\r\n\r\nMẹ em bị thận đa nang (nhiều nang nước bọc hai quả thận)\
28
+ \ và sỏi kích thước khoảng 1.5cm.Vậy mẹ em có thể tán sỏi bằng laser không BS?\
29
+ \ Và chi phí khoảng bao nhiêu vậy ạ? Em cảm ơn."
30
+ - source_sentence: "Chào bạn, Theo như bạn mô tả, có thể bạn đã bị do dị ứng, thường\
31
+ \ gặp ở người có cơ địa dị ứng nói chung. Viêm\r\nkết mạc dị ứng được chia thành\
32
+ \ nhiều thể: viêm kết mạc theo mùa, viêm kết mạc\r\nquanh năm… Nếu cơ địa của\
33
+ \ bạn dễ bị dị ứng, chỉ cần bạn\r\ntiếp xúc với tác nhân kích ứng là đã phát bệnh,\
34
+ \ không nhất thiết là do môi trường\r\nô nhiễm. dị ứng thường không lây, chỉ khi\
35
+ \ bị nhiễm virus hay vi khuẩn\r\nthì mới lây. Để giảm bớt số lần bệnh, bạn nên\
36
+ \ chú ý khi ăn\r\nuống và tiếp xúc với chất lạ, thường xuyên giặt phơi drag, mền,…\
37
+ \ Sinh hoạt điều\r\nđộ, ngủ đúng giờ, ăn đủ chất và tăng cường vận động thể dục\
38
+ \ thể thao để tăng sức\r\nđề kháng, hạn chế phần nào các lần nhiễm siêu vi làm\
39
+ \ nặng lên tình trạng bệnh. Bạn cũng chỉ nên nhỏ thuốc vào những lúc mắt\r\nbị\
40
+ \ bệnh, không nên lạm dụng thuốc bạn nhé. AloBacsi.com Cổng thông tin tư vấn sức\
41
+ \ khỏe miễn phí"
42
+ sentences:
43
+ - "Chào bác sĩ,\r\n\r\nKhoảng 3 năm nay em thường xuyên bị viêm kết mạc, một năm\
44
+ \ bị tới 3 - 4 lần. Riêng năm nay em đã bị tới 4 lần, tháng 1, tháng 3 và tháng\
45
+ \ 6 này em bị tới 2 lần. Biểu hiện của các lần đều giống nhau, mắt có cảm giác\
46
+ \ cộm, ngứa, sau đó là đỏ, thường bị cả 2 mắt. \r\n\r\nEm đến bệnh viện tuyến\
47
+ \ tỉnh, Viện mắt trung ương để thăm khám và mua thuốc, sau khi điều trị khoảng\
48
+ \ 5 ngày là mắt em khỏi hoàn toàn. Em cũng đang rất hoang mang vì mắt thường xuyên\
49
+ \ bị như vậy, trong khi nơi em làm việc và sống môi trường tương đối sạch sẽ,\
50
+ \ mọi người xung quanh không ai bị đau mắt. Em cũng làm theo lời khuyên của bác\
51
+ \ sĩ là vệ sinh mắt hàng ngày bằng nước muối rửa mắt và gạt tiệt trùng nhưng mắt\
52
+ \ em vẫn thường xuyên bị đau. Cảm ơn bác sĩ.\r\n\r\n(Bạn đọc Khánh Trần Vân)"
53
+ - "BS ơi, em muốn hỏi có cách nào lắp mắt giả mà không cần múc mắt bị tổn thương\
54
+ \ đi không, như kiểu ốp 1 hình bán nguyệt bên ngoài mắt thật ý? Em chân thành\
55
+ \ cảm ơn!\r\n\r\n(Ngô Văn Hưng – Thái Bình)"
56
+ - Thuốc Glumeform 850 DHG điều trị bệnh đái tháo đường tuýp 2 (10 vỉ x 5 viên)
57
+ - source_sentence: "Chào\r\nbạn, Theo\r\nthông tin của bạn, nhiều khả năng bạn bị\
58
+ \ tư thế do thiếu máu, là\r\nhậu quả của tình trạng viêm nhiễm và phẫu thuật gần\
59
+ \ đây. Nếu\r\nhiện bạn không có đau bụng, không sốt, ăn uống được và tiêu tiểu\
60
+ \ bình thường\r\nthì bạn chưa cần phải vào viện theo dõi, chỉ lưu ý cố gắng bồi\
61
+ \ bổ cơ thể, uống\r\nthêm sữa nếu được, uống càng nhiều nước càng tốt (khoảng\
62
+ \ 2-3 lít nước/ngày). Và\r\nbạn có thể ăn hơi mặn 1 tí trong thời gian này sẽ\
63
+ \ có tác dụng nâng huyết áp,\r\nnghỉ ngơi dưỡng sức tránh vận động gắng sức sớm,\
64
+ \ đặc biệt chú ý không thay đổi\r\ntư thế đột ngột như từ nằm sang đứng, ngồi\
65
+ \ sang đứng, xoay người nhanh có thể\r\ngây dẫn đến té ngã. Chúc\r\nbạn sớm bình\
66
+ \ phục! Thân\r\nmến,"
67
+ sentences:
68
+ - "Thưa bác sĩ,\r\n\r\nMẹ tôi đã cắt bỏ khối u ác tính ở tuyến giáp được 3 năm.\
69
+ \ Gần đây mẹ phát hiện có 2 hạt nhân gần vùng phẫu thuật. Bác sĩ yêu cầu đi sinh\
70
+ \ thiết, kết luận là adenocarcinoma tuyến giáp và chỉ định cắt bỏ nó. BS nói muốn\
71
+ \ thay lớp da phần cổ vì có khả năng nó sẽ tái phát bệnh.\r\n \r\nVậy khi thay\
72
+ \ cả lớp da và phẫu thuật cắt bỏ khối u, mẹ tôi có bị tái phát lại? Bệnh này có\
73
+ \ khả năng di căn xa không? Hiện nay mẹ tôi chỉ còn 38kg, liệu có đủ sức khỏe\
74
+ \ để phẫu thuật? \r\n\r\n(Thu Hương - Lâm Đồng)"
75
+ - "Chào BS,\r\n\r\nGiúp em với ạ. Em và chồng quan hệ ngày 1, sáng ngày 5 em có\
76
+ \ uống loại thuốc tránh thai khẩn cấp 120h, tối mồng 5, 6, 7 bọn em có quan hệ\
77
+ \ tiếp. Vậy em có thể có thai không ạ?"
78
+ - "Chào bác sĩ,\r\n\r\nEm mới mổ ruột thừa nội soi được 13 ngày. Các vết thương\
79
+ \ không còn đau nữa, nhưng khi em vận động đi lại hoặc đứng lên ngồi xuống thì\
80
+ \ bị choáng và chóng mặt. Em không biết mình bị sao nữa. Mong BS tư vấn cho em.\
81
+ \ Em xin cảm ơn BS."
82
+ - source_sentence: 'Mô tả ngắn:
83
+
84
+ Allerba-10 của Công ty Bal Pharma Ltd., Ấn Độ, thành phần chính là ebastine, được
85
+ dùng để điều trị triệu chứng viêm mũi dị ứng theo mùa và quanh năm có hay không
86
+ có viêm kết mạc dị ứng, cải thiện chứng ngứa và làm giảm sự hình thành nốt sưng
87
+ mới trong chứng nổi mày đay vô căn.
88
+
89
+ Thành phần:
90
+
91
+ Ebastine: 10mg
92
+
93
+ Chỉ định:
94
+
95
+ Thuốc Allerba-10 được chỉ định dùng trong các trường hợp sau:
96
+
97
+ Ðiều trị triệu chứng viêm mũi dị ứng theo mùa và quanh năm có hay không có viêm
98
+ kết mạc dị ứng. Cải thiện chứng ngứa và làm giảm sự hình thành nốt sưng mới trong
99
+ chứng nổi mày đay vô căn.'
100
+ sentences:
101
+ - Thuốc Allerba 10 Balpharma điều trị viêm mũi dị ứng, nổi mày đay (10 vỉ x 10 viên)
102
+ - "BS cho em hỏi với ạ,\r\n\r\nChân em bị té, ngón chân cái bị nứt xương nhẹ. BS\
103
+ \ chụp hình chỉ kêu uống thuốc, em muốn hỏi chân em như vậy uống thuốc liệu có\
104
+ \ lành không (có cần làm thêm gì khác không) và khoảng bao lâu thì hoạt động bình\
105
+ \ thường?"
106
+ - Bác sĩ cho em hỏi, Em dùng men vi sinh BB536 có hình chữ M màu đỏ trên vỏ hộp
107
+ khi bị đầy trướng bụng do ăn nhiều chất béo, chất đạm thấy rất nhạy. Đợt này em
108
+ dùng kháng sinh do viêm đường hô hấp, bị loạn khuẩn nhưng chưa dám uống vì sợ
109
+ dùng kháng sinh làm mất tác dụng của men, xin bác sĩ cho biết em nên uống vào
110
+ thời điểm nào?
111
+ - source_sentence: 'Nguy cơ đau bụng Những ai có nguy cơ mắc phải đau bụng? Nữ giới
112
+ có nguy cơ mắc đau bụng theo chu kỳ kinh nguyệt. Ngoài ra, vì đau bụng là dấu
113
+ hiệu của bệnh khác nên các đối tượng mắc phải thường là người lớn, người cao tuổi
114
+ có chức năng tim, thận suy giảm. Yếu tố làm tăng nguy cơ mắc phải đau bụng Một
115
+ số yếu tố làm tăng nguy cơ mắc đau bụng, bao gồm: Tổn thương đường tiêu hóa (loét
116
+ dạ dày). Tổn thương gan.'
117
+ sentences:
118
+ - "Thưa BS,\r\n\r\nEm 25 tuổi, mang thai 13 tuần, vừa xét nghiệm tiền sản kết quả\
119
+ \ không tốt lắm, em muốn được AloBacsi tư vấn dùm 2 vấn đề ạ:\r\n\r\n1. Tầm soát\
120
+ \ bệnh down có kết quả: Cột age 1/1323, N.T.1/3797, bio.1T 1/149, cột nguy cơ\
121
+ \ kết hợp là 1/428. BS nói em bé có nguy cơ cao bị down, cho em chọc ối kiểm tra\
122
+ \ nhưng nghe nói chọc ối rất nguy hiểm nên bản thân rất lo. Mong BS tư vấn giờ\
123
+ \ em phải làm sao?\r\n\r\n2. Kết quả Anti TPO của em là 50IU/ML, TSH 2.82 MicroU/ml,\
124
+ \ vậy em có bị tuyến giáp không ạ?\r\n\r\nMong nhận được hồi âm của AloBacsi,\
125
+ \ em xin cảm ơn. (Huyền Trâm - Bình Dương)"
126
+ - Nguy cơ đau bụng
127
+ - Xin BS cho biết, việc phẫu thuật để đưa 2 tinh hoàn ở ổ bụng xuống bìu cho trẻ
128
+ có phức tạp không? Trẻ 7 tháng tuổi có thể phẫu thuật được chưa? BV địa phương
129
+ (Bệnh viện Hội An - Quảng Nam) có thể tiến hành phẫu thuật này được không? Xin
130
+ chân thành cảm ơn. (Phan Quốc Bảo - Hội An, Quảng Nam)
131
+ datasets:
132
+ - meandyou200175/dataset_full_fixed
133
+ pipeline_tag: sentence-similarity
134
+ library_name: sentence-transformers
135
+ metrics:
136
+ - cosine_accuracy@1
137
+ - cosine_accuracy@3
138
+ - cosine_accuracy@5
139
+ - cosine_accuracy@10
140
+ - cosine_precision@1
141
+ - cosine_precision@3
142
+ - cosine_precision@5
143
+ - cosine_precision@10
144
+ - cosine_recall@1
145
+ - cosine_recall@3
146
+ - cosine_recall@5
147
+ - cosine_recall@10
148
+ - cosine_ndcg@10
149
+ - cosine_mrr@10
150
+ - cosine_map@100
151
+ model-index:
152
+ - name: SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
153
+ results:
154
+ - task:
155
+ type: information-retrieval
156
+ name: Information Retrieval
157
+ dataset:
158
+ name: dim 768
159
+ type: dim_768
160
+ metrics:
161
+ - type: cosine_accuracy@1
162
+ value: 0.6225346968590212
163
+ name: Cosine Accuracy@1
164
+ - type: cosine_accuracy@3
165
+ value: 0.743608473338203
166
+ name: Cosine Accuracy@3
167
+ - type: cosine_accuracy@5
168
+ value: 0.7947406866325786
169
+ name: Cosine Accuracy@5
170
+ - type: cosine_accuracy@10
171
+ value: 0.8486121256391527
172
+ name: Cosine Accuracy@10
173
+ - type: cosine_precision@1
174
+ value: 0.6225346968590212
175
+ name: Cosine Precision@1
176
+ - type: cosine_precision@3
177
+ value: 0.24786949111273435
178
+ name: Cosine Precision@3
179
+ - type: cosine_precision@5
180
+ value: 0.1589481373265157
181
+ name: Cosine Precision@5
182
+ - type: cosine_precision@10
183
+ value: 0.08486121256391525
184
+ name: Cosine Precision@10
185
+ - type: cosine_recall@1
186
+ value: 0.6225346968590212
187
+ name: Cosine Recall@1
188
+ - type: cosine_recall@3
189
+ value: 0.743608473338203
190
+ name: Cosine Recall@3
191
+ - type: cosine_recall@5
192
+ value: 0.7947406866325786
193
+ name: Cosine Recall@5
194
+ - type: cosine_recall@10
195
+ value: 0.8486121256391527
196
+ name: Cosine Recall@10
197
+ - type: cosine_ndcg@10
198
+ value: 0.7322649847229173
199
+ name: Cosine Ndcg@10
200
+ - type: cosine_mrr@10
201
+ value: 0.6953402002388502
202
+ name: Cosine Mrr@10
203
+ - type: cosine_map@100
204
+ value: 0.7008164556863513
205
+ name: Cosine Map@100
206
+ ---
207
+
208
+ # SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
209
+
210
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) on the [dataset_full_fixed](https://huggingface.co/datasets/meandyou200175/dataset_full_fixed) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
211
+
212
+ ## Model Details
213
+
214
+ ### Model Description
215
+ - **Model Type:** Sentence Transformer
216
+ - **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) <!-- at revision 84f9d9ada0d1a3c37557398b9ae9fcedcdf40be0 -->
217
+ - **Maximum Sequence Length:** 256 tokens
218
+ - **Output Dimensionality:** 768 dimensions
219
+ - **Similarity Function:** Cosine Similarity
220
+ - **Training Dataset:**
221
+ - [dataset_full_fixed](https://huggingface.co/datasets/meandyou200175/dataset_full_fixed)
222
+ <!-- - **Language:** Unknown -->
223
+ <!-- - **License:** Unknown -->
224
+
225
+ ### Model Sources
226
+
227
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
228
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
229
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
230
+
231
+ ### Full Model Architecture
232
+
233
+ ```
234
+ SentenceTransformer(
235
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
236
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
237
+ )
238
+ ```
239
+
240
+ ## Usage
241
+
242
+ ### Direct Usage (Sentence Transformers)
243
+
244
+ First install the Sentence Transformers library:
245
+
246
+ ```bash
247
+ pip install -U sentence-transformers
248
+ ```
249
+
250
+ Then you can load this model and run inference.
251
+ ```python
252
+ from sentence_transformers import SentenceTransformer
253
+
254
+ # Download from the 🤗 Hub
255
+ model = SentenceTransformer("vietnamese-bi-encoder-v2")
256
+ # Run inference
257
+ sentences = [
258
+ 'Nguy cơ đau bụng Những ai có nguy cơ mắc phải đau bụng? Nữ giới có nguy cơ mắc đau bụng theo chu kỳ kinh nguyệt. Ngoài ra, vì đau bụng là dấu hiệu của bệnh khác nên các đối tượng mắc phải thường là người lớn, người cao tuổi có chức năng tim, thận suy giảm. Yếu tố làm tăng nguy cơ mắc phải đau bụng Một số yếu tố làm tăng nguy cơ mắc đau bụng, bao gồm: Tổn thương đường tiêu hóa (loét dạ dày). Tổn thương gan.',
259
+ 'Nguy cơ đau bụng',
260
+ 'Xin BS cho biết, việc phẫu thuật để đưa 2 tinh hoàn ở ổ bụng xuống bìu cho trẻ có phức tạp không? Trẻ 7 tháng tuổi có thể phẫu thuật được chưa? BV địa phương (Bệnh viện Hội An - Quảng Nam) có thể tiến hành phẫu thuật này được không? Xin chân thành cảm ơn. (Phan Quốc Bảo - Hội An, Quảng Nam)',
261
+ ]
262
+ embeddings = model.encode(sentences)
263
+ print(embeddings.shape)
264
+ # [3, 768]
265
+
266
+ # Get the similarity scores for the embeddings
267
+ similarities = model.similarity(embeddings, embeddings)
268
+ print(similarities.shape)
269
+ # [3, 3]
270
+ ```
271
+
272
+ <!--
273
+ ### Direct Usage (Transformers)
274
+
275
+ <details><summary>Click to see the direct usage in Transformers</summary>
276
+
277
+ </details>
278
+ -->
279
+
280
+ <!--
281
+ ### Downstream Usage (Sentence Transformers)
282
+
283
+ You can finetune this model on your own dataset.
284
+
285
+ <details><summary>Click to expand</summary>
286
+
287
+ </details>
288
+ -->
289
+
290
+ <!--
291
+ ### Out-of-Scope Use
292
+
293
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
294
+ -->
295
+
296
+ ## Evaluation
297
+
298
+ ### Metrics
299
+
300
+ #### Information Retrieval
301
+
302
+ * Dataset: `dim_768`
303
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
304
+
305
+ | Metric | Value |
306
+ |:--------------------|:-----------|
307
+ | cosine_accuracy@1 | 0.6225 |
308
+ | cosine_accuracy@3 | 0.7436 |
309
+ | cosine_accuracy@5 | 0.7947 |
310
+ | cosine_accuracy@10 | 0.8486 |
311
+ | cosine_precision@1 | 0.6225 |
312
+ | cosine_precision@3 | 0.2479 |
313
+ | cosine_precision@5 | 0.1589 |
314
+ | cosine_precision@10 | 0.0849 |
315
+ | cosine_recall@1 | 0.6225 |
316
+ | cosine_recall@3 | 0.7436 |
317
+ | cosine_recall@5 | 0.7947 |
318
+ | cosine_recall@10 | 0.8486 |
319
+ | **cosine_ndcg@10** | **0.7323** |
320
+ | cosine_mrr@10 | 0.6953 |
321
+ | cosine_map@100 | 0.7008 |
322
+
323
+ <!--
324
+ ## Bias, Risks and Limitations
325
+
326
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
327
+ -->
328
+
329
+ <!--
330
+ ### Recommendations
331
+
332
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
333
+ -->
334
+
335
+ ## Training Details
336
+
337
+ ### Training Dataset
338
+
339
+ #### dataset_full_fixed
340
+
341
+ * Dataset: [dataset_full_fixed](https://huggingface.co/datasets/meandyou200175/dataset_full_fixed) at [ef2e7fd](https://huggingface.co/datasets/meandyou200175/dataset_full_fixed/tree/ef2e7fdbdee6d6837e54a8c95505bfce48eb03a5)
342
+ * Size: 54,755 training samples
343
+ * Columns: <code>positive</code> and <code>query</code>
344
+ * Approximate statistics based on the first 1000 samples:
345
+ | | positive | query |
346
+ |:--------|:-------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
347
+ | type | string | string |
348
+ | details | <ul><li>min: 30 tokens</li><li>mean: 185.16 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 78.78 tokens</li><li>max: 256 tokens</li></ul> |
349
+ * Samples:
350
+ | positive | query |
351
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
352
+ | <code>Điều trị viêm loét dạ dày đơn thuần mà không tiệt trừ Hp Chào em, Kết quả này là em bị viêm hang vị dạ dày do nhiễm Hp rồi, em nhé. Hp là vi khuẩn gây viêm loét dạ dày thường gặp. Nhiễm Hp kèm có triệu chứng đau dạ dày thì cần phải điều trị tiệt trừ Hp, nếu chỉ điều trị viêm loét dạ dày đơn thuần mà không tiệt trừ Hp thì bệnh sẽ không hết và Hp có thể gây ra viêm loét kéo dài, viêm mạn và dẫn đến chuyển sản rồi ung thư dạ dày. Trị Hp thì BS sẽ phải dùng kháng sinh, vì đây là vi khuẩn, và phải dùng 2 loại kháng sinh phối hợp với thuốc ức chế tiết dạ dày 14 ngày mới diệt được Hp (phác đồ chuẩn của hội tiêu hóa gan mật Việt Nam và thế giới), vì chúng trú ẩn sâu trong thành của dạ dày. Em nên đến khám chuyên khoa Tiêu hóa để được kê thuốc phù hợp (BS không được phép kê thuốc khi không trực tiếp khám cho người bệnh). Sau đợt điều trị thì em cần tái khám lại để BS đánh giá và điều chỉnh thuốc cho em, có thể là sẽ tiếp tục điều trị thêm vài tuần để kiểm soát hẳn triệu chứng khó chịu rồi mới n...</code> | <code>Bác sĩ cho em hỏi phiếu kết quả như vậy là có bị nhiễm Hp không ạ?Thực quản: trơn láng, không viêm loét. Tâm vị, góc bờ cong nhỏ: không viêm loét. Đáy vị, thân vị: mềm, không viêm loét. Hang vị: viêm sung huyết mức độ nhẹ. Môn vị: tròn đều. Hành tá tràng: không viêm loét, thông thoáng. Clo test: dương tính.</code> |
353
+ | <code>Chào bạn, Bạn có tình trạng xuất huyết tiêu hóa dưới mức độ nhẹ. Nếu xuất huyết do nứt kẽ hậu môn sẽ không thể có hiện tượng máu tươi chảy ra nhiều và loãng, máu loãng nghĩa là có trộn với dịch đại trực tràng. Bạn nên đến khoa nội soi tiêu hóa để được thăm khám và tiến hành nội soi đại tràng để khảo sát tổn thương nhằm loại trừ các bệnh lý nguy hiểm nhé. Thân ái chào bạn.</code> | <code>Em chào bác sĩ.Trong vòng 1 tuần vừa rồi em có 2 lần đi đại tiện với triệu chứng máu tươi chảy ra r��t nhiều và loãng (không dính nhầy), có điểm chung trước khi bị là em thường ăn cay đến rất cay và hút thuốc lá (em không thường xuyên hút thuốc).Trước đây khoảng 1 năm thì em đi khám được bác sĩ nói là em bị nứt kẽ hậu môn và cũng có đi ngoài ra máu nhưng ít, không đáng kể. Còn bây giờ chảy ra rất nhiều như vậy thì có liên quan đến ung thư không ạ? Em xin cảm ơn bác sĩ.</code> |
354
+ | <code> Chào Kim Vân, là những ký sinh trùng nhỏ thường gặp và phổ biến trên thế giới, thường ký sinh ở động vật có vú, có 2 loài gây bệnh ở người là D.folliculorum và D.brevis. Ở người, chúng có thể ký sinh mọi nơi trên cơ thể nơi có nang lông và tuyến bã, nhiều nhất ở mặt đặc biệt ở mũi, trán, cằm và má gây ra triệu chứng viêm chân tóc, viêm mí mắt bởi sự kích ứng vùng lông mi, và hiện diện trong nhiều sang thương da ở vùng mặt như: mụn, viêm da quanh miệng, mụn trứng cá đỏ hoặc viêm nang lông,.. đặc biệt trên những người có cơ địa suy giảm miễn dịch. Các đường lây có thể do tiếp xúc trực tiếp, hoặc do bụi bẩn có chứa trứng của ký sinh trùng bám vào da,… Các yếu tố thuận lợi gây bệnh: - Da tiết nhiều chất nhờn hoặc vệ sinh kém. - Tổn thương trên da. - Điều kiện môi trường thuận lợi như độ ẩm. - Sử dụng mỹ phẩm hoặc thuốc gây kích ứng da, làm da tổn thương,... Điều trị Demodex được hướng dẫn như sau: - Thuốc thoa tại chỗ trong trường hợp viêm mi mắt: Oxyde thủy ngân 1% thoa 2 lần/ngày trong ...</code> | <code>Chào BS ạ,
355
  <br>
356
  <br>BS ơi cho con hỏi tháng trước con có đi điều trị BS nói con bị demodex và sau đó kê thuốc uống và bôi 2 tuần, ban đầu nó đỡ ngứa, giờ con đang ở Nhật thì nó lại tái phát ngứa và da nổi mẩn đỏ.
357
  <br>
358
  <br>Giờ ở xa nên con không điều trị được. Có cách nào khác giúp con được không BS? Con cảm ơn!
359
  <br>
360
  <br>(Nguyên Thị Kim Vân - Đà Nẵng)</code> |
361
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
362
+ ```json
363
+ {
364
+ "scale": 20.0,
365
+ "similarity_fct": "cos_sim"
366
+ }
367
+ ```
368
+
369
+ ### Training Hyperparameters
370
+ #### Non-Default Hyperparameters
371
+
372
+ - `eval_strategy`: epoch
373
+ - `per_device_train_batch_size`: 60
374
+ - `per_device_eval_batch_size`: 1
375
+ - `learning_rate`: 1e-06
376
+ - `lr_scheduler_type`: constant_with_warmup
377
+ - `warmup_ratio`: 0.1
378
+ - `bf16`: True
379
+ - `tf32`: False
380
+ - `load_best_model_at_end`: True
381
+ - `optim`: adamw_torch_fused
382
+ - `batch_sampler`: no_duplicates
383
+
384
+ #### All Hyperparameters
385
+ <details><summary>Click to expand</summary>
386
+
387
+ - `overwrite_output_dir`: False
388
+ - `do_predict`: False
389
+ - `eval_strategy`: epoch
390
+ - `prediction_loss_only`: True
391
+ - `per_device_train_batch_size`: 60
392
+ - `per_device_eval_batch_size`: 1
393
+ - `per_gpu_train_batch_size`: None
394
+ - `per_gpu_eval_batch_size`: None
395
+ - `gradient_accumulation_steps`: 1
396
+ - `eval_accumulation_steps`: None
397
+ - `torch_empty_cache_steps`: None
398
+ - `learning_rate`: 1e-06
399
+ - `weight_decay`: 0.0
400
+ - `adam_beta1`: 0.9
401
+ - `adam_beta2`: 0.999
402
+ - `adam_epsilon`: 1e-08
403
+ - `max_grad_norm`: 1.0
404
+ - `num_train_epochs`: 3
405
+ - `max_steps`: -1
406
+ - `lr_scheduler_type`: constant_with_warmup
407
+ - `lr_scheduler_kwargs`: {}
408
+ - `warmup_ratio`: 0.1
409
+ - `warmup_steps`: 0
410
+ - `log_level`: passive
411
+ - `log_level_replica`: warning
412
+ - `log_on_each_node`: True
413
+ - `logging_nan_inf_filter`: True
414
+ - `save_safetensors`: True
415
+ - `save_on_each_node`: False
416
+ - `save_only_model`: False
417
+ - `restore_callback_states_from_checkpoint`: False
418
+ - `no_cuda`: False
419
+ - `use_cpu`: False
420
+ - `use_mps_device`: False
421
+ - `seed`: 42
422
+ - `data_seed`: None
423
+ - `jit_mode_eval`: False
424
+ - `use_ipex`: False
425
+ - `bf16`: True
426
+ - `fp16`: False
427
+ - `fp16_opt_level`: O1
428
+ - `half_precision_backend`: auto
429
+ - `bf16_full_eval`: False
430
+ - `fp16_full_eval`: False
431
+ - `tf32`: False
432
+ - `local_rank`: 0
433
+ - `ddp_backend`: None
434
+ - `tpu_num_cores`: None
435
+ - `tpu_metrics_debug`: False
436
+ - `debug`: []
437
+ - `dataloader_drop_last`: False
438
+ - `dataloader_num_workers`: 0
439
+ - `dataloader_prefetch_factor`: None
440
+ - `past_index`: -1
441
+ - `disable_tqdm`: False
442
+ - `remove_unused_columns`: True
443
+ - `label_names`: None
444
+ - `load_best_model_at_end`: True
445
+ - `ignore_data_skip`: False
446
+ - `fsdp`: []
447
+ - `fsdp_min_num_params`: 0
448
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
449
+ - `fsdp_transformer_layer_cls_to_wrap`: None
450
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
451
+ - `deepspeed`: None
452
+ - `label_smoothing_factor`: 0.0
453
+ - `optim`: adamw_torch_fused
454
+ - `optim_args`: None
455
+ - `adafactor`: False
456
+ - `group_by_length`: False
457
+ - `length_column_name`: length
458
+ - `ddp_find_unused_parameters`: None
459
+ - `ddp_bucket_cap_mb`: None
460
+ - `ddp_broadcast_buffers`: False
461
+ - `dataloader_pin_memory`: True
462
+ - `dataloader_persistent_workers`: False
463
+ - `skip_memory_metrics`: True
464
+ - `use_legacy_prediction_loop`: False
465
+ - `push_to_hub`: False
466
+ - `resume_from_checkpoint`: None
467
+ - `hub_model_id`: None
468
+ - `hub_strategy`: every_save
469
+ - `hub_private_repo`: None
470
+ - `hub_always_push`: False
471
+ - `gradient_checkpointing`: False
472
+ - `gradient_checkpointing_kwargs`: None
473
+ - `include_inputs_for_metrics`: False
474
+ - `include_for_metrics`: []
475
+ - `eval_do_concat_batches`: True
476
+ - `fp16_backend`: auto
477
+ - `push_to_hub_model_id`: None
478
+ - `push_to_hub_organization`: None
479
+ - `mp_parameters`:
480
+ - `auto_find_batch_size`: False
481
+ - `full_determinism`: False
482
+ - `torchdynamo`: None
483
+ - `ray_scope`: last
484
+ - `ddp_timeout`: 1800
485
+ - `torch_compile`: False
486
+ - `torch_compile_backend`: None
487
+ - `torch_compile_mode`: None
488
+ - `dispatch_batches`: None
489
+ - `split_batches`: None
490
+ - `include_tokens_per_second`: False
491
+ - `include_num_input_tokens_seen`: False
492
+ - `neftune_noise_alpha`: None
493
+ - `optim_target_modules`: None
494
+ - `batch_eval_metrics`: False
495
+ - `eval_on_start`: False
496
+ - `use_liger_kernel`: False
497
+ - `eval_use_gather_object`: False
498
+ - `average_tokens_across_devices`: False
499
+ - `prompts`: None
500
+ - `batch_sampler`: no_duplicates
501
+ - `multi_dataset_batch_sampler`: proportional
502
+
503
+ </details>
504
+
505
+ ### Training Logs
506
+ <details><summary>Click to expand</summary>
507
+
508
+ | Epoch | Step | Training Loss | dim_768_cosine_ndcg@10 |
509
+ |:-------:|:--------:|:-------------:|:----------------------:|
510
+ | -1 | -1 | - | 0.5868 |
511
+ | 0.0137 | 10 | 0.7769 | - |
512
+ | 0.0274 | 20 | 0.6614 | - |
513
+ | 0.0410 | 30 | 0.6582 | - |
514
+ | 0.0547 | 40 | 0.6593 | - |
515
+ | 0.0684 | 50 | 0.6192 | - |
516
+ | 0.0821 | 60 | 0.609 | - |
517
+ | 0.0958 | 70 | 0.6601 | - |
518
+ | 0.1094 | 80 | 0.5605 | - |
519
+ | 0.1231 | 90 | 0.5544 | - |
520
+ | 0.1368 | 100 | 0.5244 | - |
521
+ | 0.1505 | 110 | 0.5677 | - |
522
+ | 0.1642 | 120 | 0.558 | - |
523
+ | 0.1778 | 130 | 0.4303 | - |
524
+ | 0.1915 | 140 | 0.4571 | - |
525
+ | 0.2052 | 150 | 0.4458 | - |
526
+ | 0.2189 | 160 | 0.4667 | - |
527
+ | 0.2326 | 170 | 0.4993 | - |
528
+ | 0.2462 | 180 | 0.4401 | - |
529
+ | 0.2599 | 190 | 0.4302 | - |
530
+ | 0.2736 | 200 | 0.3303 | - |
531
+ | 0.2873 | 210 | 0.5247 | - |
532
+ | 0.3010 | 220 | 0.4284 | - |
533
+ | 0.3146 | 230 | 0.3622 | - |
534
+ | 0.3283 | 240 | 0.3828 | - |
535
+ | 0.3420 | 250 | 0.3081 | - |
536
+ | 0.3557 | 260 | 0.3399 | - |
537
+ | 0.3694 | 270 | 0.3976 | - |
538
+ | 0.3830 | 280 | 0.3853 | - |
539
+ | 0.3967 | 290 | 0.3211 | - |
540
+ | 0.4104 | 300 | 0.3749 | - |
541
+ | 0.4241 | 310 | 0.3872 | - |
542
+ | 0.4378 | 320 | 0.4299 | - |
543
+ | 0.4514 | 330 | 0.3693 | - |
544
+ | 0.4651 | 340 | 0.361 | - |
545
+ | 0.4788 | 350 | 0.3499 | - |
546
+ | 0.4925 | 360 | 0.331 | - |
547
+ | 0.5062 | 370 | 0.3347 | - |
548
+ | 0.5198 | 380 | 0.4189 | - |
549
+ | 0.5335 | 390 | 0.2712 | - |
550
+ | 0.5472 | 400 | 0.3279 | - |
551
+ | 0.5609 | 410 | 0.3683 | - |
552
+ | 0.5746 | 420 | 0.3622 | - |
553
+ | 0.5882 | 430 | 0.3649 | - |
554
+ | 0.6019 | 440 | 0.2657 | - |
555
+ | 0.6156 | 450 | 0.3198 | - |
556
+ | 0.6293 | 460 | 0.3694 | - |
557
+ | 0.6430 | 470 | 0.3528 | - |
558
+ | 0.6566 | 480 | 0.3294 | - |
559
+ | 0.6703 | 490 | 0.3061 | - |
560
+ | 0.6840 | 500 | 0.2706 | - |
561
+ | 0.6977 | 510 | 0.3315 | - |
562
+ | 0.7114 | 520 | 0.3176 | - |
563
+ | 0.7250 | 530 | 0.2956 | - |
564
+ | 0.7387 | 540 | 0.309 | - |
565
+ | 0.7524 | 550 | 0.3411 | - |
566
+ | 0.7661 | 560 | 0.274 | - |
567
+ | 0.7798 | 570 | 0.3595 | - |
568
+ | 0.7934 | 580 | 0.3327 | - |
569
+ | 0.8071 | 590 | 0.3116 | - |
570
+ | 0.8208 | 600 | 0.3034 | - |
571
+ | 0.8345 | 610 | 0.3413 | - |
572
+ | 0.8482 | 620 | 0.2802 | - |
573
+ | 0.8618 | 630 | 0.3482 | - |
574
+ | 0.8755 | 640 | 0.332 | - |
575
+ | 0.8892 | 650 | 0.2532 | - |
576
+ | 0.9029 | 660 | 0.282 | - |
577
+ | 0.9166 | 670 | 0.3493 | - |
578
+ | 0.9302 | 680 | 0.3188 | - |
579
+ | 0.9439 | 690 | 0.3071 | - |
580
+ | 0.9576 | 700 | 0.3046 | - |
581
+ | 0.9713 | 710 | 0.3401 | - |
582
+ | 0.9850 | 720 | 0.3253 | - |
583
+ | 0.9986 | 730 | 0.338 | - |
584
+ | 1.0 | 731 | - | 0.6992 |
585
+ | 1.0123 | 740 | 0.2686 | - |
586
+ | 1.0260 | 750 | 0.3092 | - |
587
+ | 1.0397 | 760 | 0.2775 | - |
588
+ | 1.0534 | 770 | 0.2734 | - |
589
+ | 1.0670 | 780 | 0.3027 | - |
590
+ | 1.0807 | 790 | 0.3033 | - |
591
+ | 1.0944 | 800 | 0.3061 | - |
592
+ | 1.1081 | 810 | 0.3094 | - |
593
+ | 1.1218 | 820 | 0.305 | - |
594
+ | 1.1354 | 830 | 0.2466 | - |
595
+ | 1.1491 | 840 | 0.2374 | - |
596
+ | 1.1628 | 850 | 0.2557 | - |
597
+ | 1.1765 | 860 | 0.2734 | - |
598
+ | 1.1902 | 870 | 0.239 | - |
599
+ | 1.2038 | 880 | 0.3073 | - |
600
+ | 1.2175 | 890 | 0.2321 | - |
601
+ | 1.2312 | 900 | 0.3573 | - |
602
+ | 1.2449 | 910 | 0.327 | - |
603
+ | 1.2585 | 920 | 0.2732 | - |
604
+ | 1.2722 | 930 | 0.3167 | - |
605
+ | 1.2859 | 940 | 0.2833 | - |
606
+ | 1.2996 | 950 | 0.2913 | - |
607
+ | 1.3133 | 960 | 0.2193 | - |
608
+ | 1.3269 | 970 | 0.2817 | - |
609
+ | 1.3406 | 980 | 0.2213 | - |
610
+ | 1.3543 | 990 | 0.2611 | - |
611
+ | 1.3680 | 1000 | 0.2913 | - |
612
+ | 1.3817 | 1010 | 0.2369 | - |
613
+ | 1.3953 | 1020 | 0.2611 | - |
614
+ | 1.4090 | 1030 | 0.3141 | - |
615
+ | 1.4227 | 1040 | 0.2663 | - |
616
+ | 1.4364 | 1050 | 0.2526 | - |
617
+ | 1.4501 | 1060 | 0.2961 | - |
618
+ | 1.4637 | 1070 | 0.293 | - |
619
+ | 1.4774 | 1080 | 0.282 | - |
620
+ | 1.4911 | 1090 | 0.2804 | - |
621
+ | 1.5048 | 1100 | 0.2555 | - |
622
+ | 1.5185 | 1110 | 0.3018 | - |
623
+ | 1.5321 | 1120 | 0.2282 | - |
624
+ | 1.5458 | 1130 | 0.2769 | - |
625
+ | 1.5595 | 1140 | 0.2809 | - |
626
+ | 1.5732 | 1150 | 0.2391 | - |
627
+ | 1.5869 | 1160 | 0.2558 | - |
628
+ | 1.6005 | 1170 | 0.2622 | - |
629
+ | 1.6142 | 1180 | 0.2814 | - |
630
+ | 1.6279 | 1190 | 0.2924 | - |
631
+ | 1.6416 | 1200 | 0.2675 | - |
632
+ | 1.6553 | 1210 | 0.2536 | - |
633
+ | 1.6689 | 1220 | 0.2467 | - |
634
+ | 1.6826 | 1230 | 0.1978 | - |
635
+ | 1.6963 | 1240 | 0.2682 | - |
636
+ | 1.7100 | 1250 | 0.25 | - |
637
+ | 1.7237 | 1260 | 0.2825 | - |
638
+ | 1.7373 | 1270 | 0.219 | - |
639
+ | 1.7510 | 1280 | 0.2909 | - |
640
+ | 1.7647 | 1290 | 0.2453 | - |
641
+ | 1.7784 | 1300 | 0.2449 | - |
642
+ | 1.7921 | 1310 | 0.2645 | - |
643
+ | 1.8057 | 1320 | 0.225 | - |
644
+ | 1.8194 | 1330 | 0.27 | - |
645
+ | 1.8331 | 1340 | 0.276 | - |
646
+ | 1.8468 | 1350 | 0.1919 | - |
647
+ | 1.8605 | 1360 | 0.3561 | - |
648
+ | 1.8741 | 1370 | 0.2486 | - |
649
+ | 1.8878 | 1380 | 0.2921 | - |
650
+ | 1.9015 | 1390 | 0.2944 | - |
651
+ | 1.9152 | 1400 | 0.2936 | - |
652
+ | 1.9289 | 1410 | 0.2781 | - |
653
+ | 1.9425 | 1420 | 0.2261 | - |
654
+ | 1.9562 | 1430 | 0.2052 | - |
655
+ | 1.9699 | 1440 | 0.2291 | - |
656
+ | 1.9836 | 1450 | 0.2198 | - |
657
+ | 1.9973 | 1460 | 0.2258 | - |
658
+ | 2.0 | 1462 | - | 0.7209 |
659
+ | 2.0109 | 1470 | 0.1798 | - |
660
+ | 2.0246 | 1480 | 0.2846 | - |
661
+ | 2.0383 | 1490 | 0.2029 | - |
662
+ | 2.0520 | 1500 | 0.1989 | - |
663
+ | 2.0657 | 1510 | 0.2261 | - |
664
+ | 2.0793 | 1520 | 0.2346 | - |
665
+ | 2.0930 | 1530 | 0.2752 | - |
666
+ | 2.1067 | 1540 | 0.2621 | - |
667
+ | 2.1204 | 1550 | 0.2586 | - |
668
+ | 2.1341 | 1560 | 0.2654 | - |
669
+ | 2.1477 | 1570 | 0.2609 | - |
670
+ | 2.1614 | 1580 | 0.185 | - |
671
+ | 2.1751 | 1590 | 0.2091 | - |
672
+ | 2.1888 | 1600 | 0.2126 | - |
673
+ | 2.2025 | 1610 | 0.1876 | - |
674
+ | 2.2161 | 1620 | 0.2469 | - |
675
+ | 2.2298 | 1630 | 0.2717 | - |
676
+ | 2.2435 | 1640 | 0.2717 | - |
677
+ | 2.2572 | 1650 | 0.1966 | - |
678
+ | 2.2709 | 1660 | 0.2164 | - |
679
+ | 2.2845 | 1670 | 0.2629 | - |
680
+ | 2.2982 | 1680 | 0.222 | - |
681
+ | 2.3119 | 1690 | 0.1893 | - |
682
+ | 2.3256 | 1700 | 0.2144 | - |
683
+ | 2.3393 | 1710 | 0.2713 | - |
684
+ | 2.3529 | 1720 | 0.2584 | - |
685
+ | 2.3666 | 1730 | 0.1478 | - |
686
+ | 2.3803 | 1740 | 0.1898 | - |
687
+ | 2.3940 | 1750 | 0.2534 | - |
688
+ | 2.4077 | 1760 | 0.1685 | - |
689
+ | 2.4213 | 1770 | 0.2521 | - |
690
+ | 2.4350 | 1780 | 0.2252 | - |
691
+ | 2.4487 | 1790 | 0.2248 | - |
692
+ | 2.4624 | 1800 | 0.2763 | - |
693
+ | 2.4761 | 1810 | 0.2409 | - |
694
+ | 2.4897 | 1820 | 0.2368 | - |
695
+ | 2.5034 | 1830 | 0.2809 | - |
696
+ | 2.5171 | 1840 | 0.2325 | - |
697
+ | 2.5308 | 1850 | 0.2191 | - |
698
+ | 2.5445 | 1860 | 0.2703 | - |
699
+ | 2.5581 | 1870 | 0.2235 | - |
700
+ | 2.5718 | 1880 | 0.2345 | - |
701
+ | 2.5855 | 1890 | 0.2403 | - |
702
+ | 2.5992 | 1900 | 0.219 | - |
703
+ | 2.6129 | 1910 | 0.2296 | - |
704
+ | 2.6265 | 1920 | 0.2157 | - |
705
+ | 2.6402 | 1930 | 0.2633 | - |
706
+ | 2.6539 | 1940 | 0.2351 | - |
707
+ | 2.6676 | 1950 | 0.2007 | - |
708
+ | 2.6813 | 1960 | 0.2612 | - |
709
+ | 2.6949 | 1970 | 0.1873 | - |
710
+ | 2.7086 | 1980 | 0.2457 | - |
711
+ | 2.7223 | 1990 | 0.2549 | - |
712
+ | 2.7360 | 2000 | 0.2243 | - |
713
+ | 2.7497 | 2010 | 0.2469 | - |
714
+ | 2.7633 | 2020 | 0.229 | - |
715
+ | 2.7770 | 2030 | 0.2171 | - |
716
+ | 2.7907 | 2040 | 0.1711 | - |
717
+ | 2.8044 | 2050 | 0.268 | - |
718
+ | 2.8181 | 2060 | 0.2336 | - |
719
+ | 2.8317 | 2070 | 0.252 | - |
720
+ | 2.8454 | 2080 | 0.2239 | - |
721
+ | 2.8591 | 2090 | 0.1627 | - |
722
+ | 2.8728 | 2100 | 0.2154 | - |
723
+ | 2.8865 | 2110 | 0.2381 | - |
724
+ | 2.9001 | 2120 | 0.2411 | - |
725
+ | 2.9138 | 2130 | 0.2245 | - |
726
+ | 2.9275 | 2140 | 0.1878 | - |
727
+ | 2.9412 | 2150 | 0.2159 | - |
728
+ | 2.9549 | 2160 | 0.2224 | - |
729
+ | 2.9685 | 2170 | 0.2118 | - |
730
+ | 2.9822 | 2180 | 0.2302 | - |
731
+ | 2.9959 | 2190 | 0.2013 | - |
732
+ | **3.0** | **2193** | **-** | **0.7323** |
733
+
734
+ * The bold row denotes the saved checkpoint.
735
+ </details>
736
+
737
+ ### Framework Versions
738
+ - Python: 3.10.16
739
+ - Sentence Transformers: 3.4.1
740
+ - Transformers: 4.49.0
741
+ - PyTorch: 2.6.0+cu124
742
+ - Accelerate: 1.5.2
743
+ - Datasets: 3.3.2
744
+ - Tokenizers: 0.21.0
745
+
746
+ ## Citation
747
+
748
+ ### BibTeX
749
+
750
+ #### Sentence Transformers
751
+ ```bibtex
752
+ @inproceedings{reimers-2019-sentence-bert,
753
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
754
+ author = "Reimers, Nils and Gurevych, Iryna",
755
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
756
+ month = "11",
757
+ year = "2019",
758
+ publisher = "Association for Computational Linguistics",
759
+ url = "https://arxiv.org/abs/1908.10084",
760
+ }
761
+ ```
762
+
763
+ #### MultipleNegativesRankingLoss
764
+ ```bibtex
765
+ @misc{henderson2017efficient,
766
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
767
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
768
+ year={2017},
769
+ eprint={1705.00652},
770
+ archivePrefix={arXiv},
771
+ primaryClass={cs.CL}
772
+ }
773
+ ```
774
+
775
+ <!--
776
+ ## Glossary
777
+
778
+ *Clearly define terms in order to be accessible across audiences.*
779
+ -->
780
+
781
+ <!--
782
+ ## Model Card Authors
783
+
784
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
785
+ -->
786
+
787
+ <!--
788
+ ## Model Card Contact
789
+
790
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
791
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "bkai-foundation-models/vietnamese-bi-encoder",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 258,
17
+ "model_type": "roberta",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "pad_token_id": 1,
21
+ "position_embedding_type": "absolute",
22
+ "tokenizer_class": "PhobertTokenizer",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.49.0",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 64001
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.49.0",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
eval/Information-Retrieval_evaluation_dim_768_results.csv ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ epoch,steps,cosine-Accuracy@1,cosine-Accuracy@3,cosine-Accuracy@5,cosine-Accuracy@10,cosine-Precision@1,cosine-Recall@1,cosine-Precision@3,cosine-Recall@3,cosine-Precision@5,cosine-Recall@5,cosine-Precision@10,cosine-Recall@10,cosine-MRR@10,cosine-NDCG@10,cosine-MAP@100
2
+ 1.0,731,0.5898466033601169,0.7121986851716582,0.7571219868517166,0.8159240321402483,0.5898466033601169,0.5898466033601169,0.23739956172388604,0.7121986851716582,0.1514243973703433,0.7571219868517166,0.08159240321402483,0.8159240321402483,0.6622894854313787,0.6992059663776529,0.668239218365877
3
+ 2.0,1462,0.6113951789627465,0.7324689554419284,0.779218407596786,0.8392987582176772,0.6113951789627465,0.6113951789627465,0.24415631848064281,0.7324689554419284,0.15584368151935718,0.779218407596786,0.08392987582176771,0.8392987582176772,0.6834643523832725,0.7208583988533174,0.6890124584151206
4
+ 3.0,2193,0.6225346968590212,0.743608473338203,0.7947406866325786,0.8486121256391527,0.6225346968590212,0.6225346968590212,0.24786949111273435,0.743608473338203,0.1589481373265157,0.7947406866325786,0.08486121256391525,0.8486121256391527,0.6953402002388502,0.7322649847229173,0.7008164556863513
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:33320bbff1dc2ecaf368f381a10124b24538b9cce254c6fb1a78b853aa3cbd5c
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
runs/Mar18_16-25-11_sotatek-Z590-GAMING-X/events.out.tfevents.1742289913.sotatek-Z590-GAMING-X.658625.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:546d127a8bfcfb328a095e84f431612fc3bc19462d13c097e02216dfe317e882
3
+ size 4794
runs/Mar18_16-25-28_sotatek-Z590-GAMING-X/events.out.tfevents.1742289930.sotatek-Z590-GAMING-X.658625.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8a5940c2603e84ce1be4ffa53eac55a7a4ad80219a21f5c0d4cb3760a7df347f
3
+ size 4587
runs/Mar18_16-26-11_sotatek-Z590-GAMING-X/events.out.tfevents.1742289973.sotatek-Z590-GAMING-X.658847.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9613f20b47f179a766ddc84914236c9055ae62dfa70e6c52ae606fb9f0251727
3
+ size 54843
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 256,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "PhobertTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dc5e012d14696586bc29ee16a45aac0ec191347860d9f1eaa1fd6d11fb86d207
3
+ size 5752
vocab.txt ADDED
The diff for this file is too large to render. See raw diff