SentenceTransformer based on aubmindlab/bert-base-arabertv2

This is a sentence-transformers model finetuned from aubmindlab/bert-base-arabertv2 on the arabic_qa_triplet, arabic-qa and all_nli_pair_class_train datasets. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: aubmindlab/bert-base-arabertv2
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Datasets:
  • Languages: ara, cmn, deu, eng, fra, ita, pol, rus, spa, tur

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("mal-sh/mith-embed-v5-train")
# Run inference
sentences = [
    'بلغت الحصيلة الإجمالية للوفيات الناجمة عن تفشي فيروس كورونا المستجد 338128 شخصاً منذ ظهور الوباء في الصين في كانون الأول/ديسمبر الماضي، وفق تعداد لوكالة "فرانس برس"، استناداً إلى مصادر رسمية حتى الساعة 11:00 بتوقيت غرينتش، اليوم السبت.\n\nكما تم تسجيل 5218260 إصابة في 196 بلداً ومنطقة، تعافى منهم ما لا يقل عن 2016300 حالة.\n\nوالإحصاءات المبنية على بيانات جمعتها مكاتب "فرانس برس" من السلطات المحلية في دول العالم ومن منظمة الصحة العالمية لا تعكس إلا جزءاً من العدد الحقيقي للإصابات على الأرجح. فالعديد من الدول لا تجري اختبارات لكشف الفيروس إلا للأشخاص الذين تظهر عليهم أعراض المرض أو الحالات الخطيرة التي تستوجب دخول مستشفى.\n\nوتُعد الولايات المتحدة البلد الأكثر تضرراً من الوباء مع تسجيل 96007 وفيات و1601434 إصابة. وأعلنت السلطات أن 350135 تماثلوا للشفاء.\n\nموضوع يهمك نزل مئات الإسبان إلى شوارع العاصمة مدريد، السبت، احتجاجاً على استمرار الإغلاق العام بسبب فيروس كورونا، والأضرار التي... كورونا.. تظاهرات في إسبانيا لإنهاء الإغلاق وفتح الاقتصاد فيروس كورونا\n\nوبعد الولايات المتحدة تأتي بريطانيا من بين الدول التي كان وقع الوباء ثقيلاً عليها بعدد وفيات بلغ 36393 من أصل 254195 إصابة، تليها إيطاليا بـ32616 وفاة من 228658 إصابة وإسبانيا بـ28628 وفاة من 234824 إصابة وفرنسا بـ28289 وفاة و182219 إصابة.\n\nوأعلنت الصين (باستثناء هونغ كونغ وماكاو) حتى الآن عن 4634 وفاة و82971 إصابة و78258 حالة شفاء.\n\nوسجلت أوروبا بالإجمال 172615 وفاة من أصل 1996321 إصابة، والولايات المتحدة وكندا 102349 وفاة من أصل 1683914 إصابة، وأميركا اللاتينية والكاريبي 37671 وفاة من 681 ألف إصابة، وآسيا 13577 وفاة من 418734 إصابة، والشرق الأوسط 8606 وفيات من 325655 إصابة وإفريقيا 3180 وفاة من 104174 إصابة وأوقيانيا 130 وفاة من 8463 إصابة.\n\n282 وفاة جديدة في بريطانيا\n\nوقالت الحكومة البريطانية، اليوم السبت، إن عدد الوفيات بسبب الإصابة المؤكدة بمرض كوفيد-19 في المملكة المتحدة ارتفع بعد تسجيل 282 وفاة جديدة، ليبلغ إجمالي الوفيات 36675.\n\nوقالت روسيا، السبت، إنها سجلت 9434 حالة إصابة جديدة بفيروس كورونا المستجد خلال الساعات الأربع والعشرين الماضية، مما يرفع العدد الإجمالي للإصابات في البلاد إلى 335,882.\n\nوأبلغ مركز الاستجابة لأزمة فيروس كورونا في روسيا عن 139 حالة وفاة جديدة بعد تسجيل 150 حالة في اليوم السابق، ليصل بذلك العدد الإجمالي للوفيات إلى 3388.\n\nTo view this video please enable JavaScript, and consider upgrading your web browser\n\nيأتي ذلك فيما أظهرت بيانات معهد روبرت كوخ للأمراض المعدية في ألمانيا، السبت، ارتفاع عدد حالات الإصابة الجديدة المؤكدة بفيروس كورونا 638 حالة ليصبح إجمالي عدد حالات الإصابة 177850 حالة. وأوضحت البيانات ارتفاع عدد حالات الوفاة الناجمة عن الفيروس 42 حالة ليصبح إجمالي عدد حالات الوفاة 8216.\n\nوفي فرنسا، يسمح مرسوم نشر السبت باستئناف المراسم الدينية التي منعت بسبب انتشار فيروس كورونا المستجد، اعتبارا من اليوم نفسه، مع مراعاة قواعد الوقاية من المرض، مثل تطهير اليدين ووضع قناع واق.\n\nويدخل هذا الإجراء حيز التنفيذ بعد قرار مجلس الدولة أعلى هيئة إدارية في فرنسا، الذي أمر في 18 أيار/مايو الحكومة برفع الحظر "العام والمطلق" للتجمعات في أماكن العبادة في إطار الحد من انتشار فيروس كورونا المستجد. وكان مجلس الدولة رأى أن هذا الحظر "يشكل مساسا خطيرا وغير قانوني" بحرية العبادة.\n\nوفي باكستان، أعلنت السلطات الطبية ارتفاع إجمالي الإصابات بفيروس كورونا إلى 52437 حالة مؤكدة، منها 1101 حالة وفاة بينما بلغ عديد الحالات التي تماثلت منها للشفاء 16653 حالة، وذلك حتى صباح يوم السبت الموافق 23 مايو 2020.\n\nووفق الإحصاءات الحكومية فقد تم تسجيل 34 حالة وفاة بالإضافة إلى 1743 حالة إصابة بالفيروس خلال الساعات الأربع والعشرين الماضية.',
    'أظهرت بيانات معهد روبرت كوخ للأمراض المعدية في ألمانيا، اليوم الأحد، أن عدد حالات الإصابة المؤكدة بفيروس كورونا المستجد في البلاد زاد 583 حالة إلى 174355. وزاد عدد الوفيات 33 حالة إلى 7914.\n\nوفي روسيا، أعلنت السلطات، اليوم الأحد، تسجيل 9709 إصابات جديدة بفيروس كورونا المستجد ارتفاعا من 9200 إصابة في اليوم السابق.\n\nوقال المركز الروسي لإدارة أزمة كورونا، إن عدد الإصابات الإجمالي في البلاد بلغ 281752 حالة. وأضاف أن 94 مصابا توفوا خلال الأربع والعشرين ساعة الماضية، وبهذا يصل عدد الوفيات الرسمي إلى 2631.\n\nوفيات إسبانيا الأقل منذ شهرين\n\nوفي إسبانيا، قالت وزارة الصحة إنها سجلت 87 وفاة جديدة اليوم الأحد بفيروس كورونا المستجد، ليتراجع بذلك عدد الوفيات اليومي إلى أقل من مئة للمرة الأولى منذ شهرين. وأضافت الوزارة أن عدد الوفيات الإجمالي بلغ 27650 شخصا فيما ارتفع عدد حالات الإصابة إلى 231350 حالة مقارنة مع 230698 إصابة أمس.\n\nووفقا لحصيلة وضعتها وكالة "فرانس برس" حتى الساعة 19:00 بتوقيت غرينتش، السبت، استنادا إلى مصادر رسمية، تسببت الجائحة بوفاة 309,296 شخصا في العالم منذ ظهورها في ديسمبر في الصين. كما سُجّلت رسمياً أكثر من 4 ملايين و588 ألفا و360 إصابة في 196 بلداً ومنطقة منذ بدء انتشار وباء كوفيد-19.\n\nغير أن هذه الأرقام لا تعكس إلا جزءاً من عدد الإصابات الفعلي، إذ إنّ دولاً عدّة لا تجري فحوصا إلا للحالات التي تتطلب نقل أصحابها إلى المستشفى.',
    'اشتبكت قوة أمنية في محافظة كركوك، شمالي العراق، مع عناصر تنظيم "داعش"، ضمن حملة عسكرية تنفذها القوات العراقية.\n\nوقالت الخلية في بيان صحفي إن "قوة ضمن المقر المتقدم لقيادة العمليات المشتركة في كركوك، تمكنت من قتل ثلاثة إرهابيين في منطقة غيده".\n\nواضاف البيان: "كما قتل أربع مقاتلين، بينهم ثلاثة من الحشد العشائري ومنتسب من الشرطة الاتحادية، بانفجار عبوة ناسفة، وإطلاق نار مباشر في ناحية الرشاد".',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9333, 0.6096],
#         [0.9333, 1.0000, 0.6359],
#         [0.6096, 0.6359, 1.0000]])

Training Details

Training Datasets

arabic_qa_triplet

  • Dataset: arabic_qa_triplet
  • Size: 158,521 training samples
  • Columns: anchor, positive, and hardnegative
  • Approximate statistics based on the first 1000 samples:
    anchor positive hardnegative
    type string string string
    details
    • min: 6 tokens
    • mean: 45.06 tokens
    • max: 512 tokens
    • min: 7 tokens
    • mean: 210.53 tokens
    • max: 512 tokens
    • min: 6 tokens
    • mean: 107.39 tokens
    • max: 512 tokens
  • Samples:
    anchor positive hardnegative
    علق الطلاق بالثلاث علي امر فحكم القاضي بوقوع واحده الحمد لله والصلاه والسلام علي رسول الله وعلي اله وصحبه اما بعد فالمفتي به عندنا في الطلاق بالثلاث هو قول الجمهور بوقوعه ثلاثا لكن المساله محل خلاف بين اهل العلم وما دمت رفعت الامر للمحكمه الشرعيه فحكم القاضي بوقوع طلقه واحده فان حكم القاضي يرفع الخلاف في المسائل الخلافيه كما بيناه في الفتوي رقم فلا حرج عليك في العمل بحكمه ولا تلتفت للشكوك التي تراودك بانك كنت معتقدا صحه قول الجمهور واحذر من مجاراه الوساوس فان عواقبها وخيمه والله اعلم الحمد لله والصلاه والسلام علي رسول الله وعلي اله وصحبه اما بعد فالشرع الكريم قد حدد الطلاق بثلاث مرات لكل امراه علي حده وبالتالي فمن تزوج امراه وطلقها واحده ثم تزوج باخري فانه يملك طلاقها ثلاثا ولا ينقص هذا العدد كونه قد طلق زوجته الاولي واحده والله اعلم
    حكم اداء الجمعه في مسجد يغلق في ايام العطل انا طالب جامعي واسكن في اقامه جامعيه وفيها مسجد وتصلي فيه الجمعه فهل يجوز لي ان اصلي فيه الجمعه مع العلم ان المسجد يغلق في العطل الدراسيه ارجو منكم التفصيل في المساله وشكرا جزيلا لكم كيف نصلي صلاه الجمعه في الصين
    هل يمكن دفن موتي المسلمين وموتي الكفار معا اذاهلكوا معا ولم يمكن التمييز بينهم لتغير الجثث الحمد لله والصلاه والسلام علي رسول الله وعلي اله وصحبه اما بعد فالاصل انه لا يجوز دفن مسلم في مقبره كفار ولا عكسه الا لضروره انظر حاشيه قليوبي وعميره فاذا لم يمكن تمييز المسلمين من الكفار جاز دفنهم مع بعض اذ لا سبيل الي تركهم من غير دفن وما لا يتم الواجب الا به فهو واجب والواجب هنا هو دفن المسلمين ولا يتم هذا الواجب في صوره عدم التمييز الا بدفن جميعهم والله اعلم الحمد لله والصلاه والسلام علي رسول الله وعلي اله وصحبه اما بعد فالعلماء رحمهم الله مختلفون في نقل الميت بعد دفنه هل يجوز او لا فمنهم من منعه مطلقا ومنهم من جوزه لضروره ومنهم من جوزه لمطلق المصلحه جاء في الموسوعه الفقهيه ذهب الحنفيه والشافعيه والحنابله الي انه لا يجوز نقل الميت من مكان الي اخر بعد الدفن مطلقا وافتي بعض المتاخرين من الحنفيه بجوازه الا ان ابن عابدين رده فقال نقلا عن الفتح اتفاق مشايخ الحنفيه في امراه دفن ابنها وهي غائبه في غير بلدها فلم تصبر وارادت نقله علي انه لا يسعها ذلك فتجويز بعض المتاخرين لا يلتفت اليه واما نقل يعقوب ويوسف عليهما السلام من مصر الي الشام ليكونا مع ابائهما الكرام فهو شرع من قبلنا ولم يتوفر فيه شروط كونه شرعا لنا واما المالكيه فيجوز عندهم نقل الميت قبل الدفن وكذا بعده من مكان الي اخر بشروط هي ان لا ينفجر حال نقله ان لا تنتهك حرمته وان يكون لمصلحه كان يخاف عليه ان ياكله البحر او ترجي بركه الموضع المنقول اليه او ليدفن بين اهله او لاجل قرب زياره اهله او دفن من اسلم بمقبره الكفار فيتدارك باخراجه منها ودفنه في مقبره المسلمين فان تخلف شرط من هذه الشروط الثلا...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "TripletLoss",
        "matryoshka_dims": [
            512,
            384,
            256,
            128
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

arabic-qa

  • Dataset: arabic-qa at 4e706e7
  • Size: 687,197 training samples
  • Columns: Question and Answer
  • Approximate statistics based on the first 1000 samples:
    Question Answer
    type string string
    details
    • min: 5 tokens
    • mean: 37.51 tokens
    • max: 83 tokens
    • min: 4 tokens
    • mean: 44.6 tokens
    • max: 512 tokens
  • Samples:
    Question Answer
    الرنين المغناطيسي marginal osteophytes are seen at various levels .. Focal fat deposition are seen in D5&D12 vertebrae. eMild disc desiccation seen at various levels. Mild di ظخهور  النمو العظمي لهامشية على مستويات مختلفة. ظخهور الترسبات  الدخهنية  بين  الفقرات الوضصحة مع جفاف  القرص بين جميع الفقرات و سلامات
    ماسبب وجود بقعة بيضاء تغطي جزء من قزحية العين لشاب عمره 27 يلزمه فحص لتحديد السبب
    انا اجتني الدوره بيوم ٢٧/٥ وحصلت مداعبه بيني وبين خطيب ولكن من على الملابس وكانت بتاريخ ١٦/٦ ومع العلم انا دورتي منتظمه ولكن
    نزل السائل المنوي على صدري ومسحته هل...
    لا يحدث حمل.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

all_nli_pair_class_train

  • Dataset: all_nli_pair_class_train at 7c87e57
  • Size: 1,000,000 training samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 4 tokens
    • mean: 15.87 tokens
    • max: 77 tokens
    • min: 4 tokens
    • mean: 45.77 tokens
    • max: 242 tokens
    • min: 0.09
    • mean: 0.68
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    الراقصات يقومون بأداء سعيدة بينما يقومون بنفس الوضع. الراقصات يقدمن أداء 0.81672
    ما هي الطريقة الفعالة للحصول على أطول في سن 20؟ هل من الممكن زيادة الطول أو الحصول على أطول بعد 20؟ 0.80407
    هو الميثادون كتلة أفيونية اعتمادًا على الجرعة ، يمكن أن يمنع الميثادون تأثيرات المواد الأفيونية لمدة تصل إلى 4 أيام. خلال هذا الوقت ، يملأ الميثادون المستقبلات الأفيونية. عندما تمتلئ المستقبلات بالميثادون ، لا تستطيع المواد الأفيونية تحفيز المستقبلات ، وبالتالي تمنع تأثيرات المواد الأفيونية. 0.50843
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CoSENTLoss",
        "matryoshka_dims": [
            512,
            384,
            256,
            128
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

crosslingual_sts

  • Dataset: crosslingual_sts at 02e82d1
  • Size: 262 evaluation samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 262 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 38 tokens
    • mean: 330.91 tokens
    • max: 512 tokens
    • min: 25 tokens
    • mean: 321.38 tokens
    • max: 512 tokens
    • min: 0.25
    • mean: 0.76
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    الرباط: وجه عدد من الأدباء والمثقفين المغاربة نداء إلى عموم الشعب المغربي للالتزام بقواعد الحجر الصحي لتجنيب البلاد كارثة نتيجة تفشي فيروس كورونا المستجد.

    كما حثوا زملاءهم المثقفين والأدباء على المساهمة في صندوق التبرعات الذي أسسه العاهل المغربي في 15 مارس آذار، للحد من تداعيات جائحة فيروس كورونا على الاقتصاد المغربي.

    وجاء في النداء الذي وقعه نحو 50 أديبا وكاتبا وفنانا تشكيليا “الالتزام بكل الاحترازات المقررة… وخاصة البقاء في البيت، هي الوسيلة الوحيدة المتاحة، اليوم لتجنيب البلاد كارثة صحية خطيرة”.

    كما تركوا المجال مفتوحا للتوقيع أمام كل من يرغب في الانضمام إلى هذه المبادرة وناشدوا كل الكتاب والمثقفين “المساهمة في هذا المجهود الوطني من خلال التبرع لهذا الصندوق”.

    كما وجهوا تحية تقدير وتضامن إلى الفرق الطبية ونساء ورجال الصحة العامة ورجال الأمن والسلطات المغربية وإلى كل الساهرين على تنفيذ القرارات المتخذة لمقاومة الوباء.

    واعتبر الموقعون على النداء أن “خطورة المحنة التي نجتازها، تدعونا إلى اعتبار مقاومة الوباء مسؤولية جماعية وفردية وأولوية الأمة بأجمعها للحفاظ على حياة أفرادها وعلى س...
    أعلنت المملكة العربية السعودية، مساء اليوم الأربعاء 25 مارس/آذار، إلغاء التوسعة الثالثة للحرم المكي.

    وقالت رئاسة شؤون الحرمين، في بيان نقلته قناة "العربية"، إنه تم إغلاق التوسعة السعودية الثالثة في الحرم المكي، ضمن الإجراءات الاحترازية لمكافحة تفشي فيروس كورونا المستجد "كوفيد 19".

    وكانت وزارة الصحة السعودية قد أعلنت ارتفاع عدد المصابين بكورونا في السعودية إلى 900 حالة وتسجيل وفاة جديدة.

    وأعلن المتحدث باسم وزارة الصحة السعودية، محمد العبد العالي، عن تسجيل 133 إصابة جديدة بفيروس كورونا، ليصل إجمالي المصابين إلى 900 حالة، بحسب موقع قناة "العربية" السعودية.

    أعلن العاهل السعودي الملك سلمان بن عبد العزيز، اليوم الأربعاء، عن حزمة إجراءات جديدة للحد من تفشي وباء "كورونا".

    وقالت وكالة الأنباء السعودية "واس" إن هذه القرارات جاءت "انطلاقا من حرص خادم الحرمين الشريفين الملك سلمان بن عبد العزيز آل سعود على صحة وسلامة المواطنين والمقيمين، وبناء على ما عرضته الجهات المعنية من الحاجة إلى المزيد من الإجراءات الاحترازية للحد من انتشار فيروس كورونا الجديد".

    وأكد الأمر الملكي على منع سكان مناطق المم...
    1.0
    كتب إيليا بولونسكي، في "فوينيه أوبزرينيه"، حول مفاضلة الهند بين الطائرات الروسية ونظيرتها الغربية لتسليح قواتها الجوية، فأيها تفوز؟

    وجاء في المقال: تواصل الهند اختيار طائرات جديدة لقواتها الجوية. وروسيا، من بين الدول التي قدمت عروضها لتوريد الطائرات.

    وكما بات معلوما، فقد تلقت روسيا، سنة 2019، طلبا من وزارة الدفاع الهندية لتزويدها بمعلومات حول المقاتلة "ميغ-35" المطورة. وإذا ما توصل الطرفان إلى اتفاق، فقد تطلب الهند من روسيا بناء أكثر من 100 طائرة.

    ما يميز النسخة المطورة من "ميغ-35"، نظام الحماية G-Force ونظام الهبوط الأوتوماتيكي. فمن دونها، لم تكن الطائرة الروسية لتنافسDasault Rafale وLockheed Martin F-21.

    وكما هو معلوم، فإن لوكهيد مارتن تتمتع بموقع قوي للغاية في الهند وبلوبي مؤثر جدا في قيادة هذا البلد. ناهيكم بأن لدى F-16 نظام هبوط تلقائي يتحكم فيه كمبيوتر موجود على متن الطائرة.

    المنافس الآخر للطائرة ميغ-35 في الهند، المقاتلة الفرنسية Dassault Rafale multirole. وهي أيضا تتمتع بخصائص مماثلة لما ذكر أعلاه.

    وبالمناسبة، ففي العام 2018، فضلت الهند طائرة رافال الفرنسية على الطائرة ال...
    أعلنت وزارة الدفاع الروسية، اليوم الأربعاء، إن الطائرة الخامسة عشرة التابعة للقوات الروسية وصلت إلى إيطاليا للمساعدة في مكافحة جائحة فيروس كورونا.

    وقالت الوزارة في بيان: "قامت الطائرة الخامسة عشرة من طراز "إيل 76" مجهزة بمعدات للتشخيص وتنفيذ تدابير التطهير، بتسليم المعدات لمكافحة فيروس كورونا للقاعدة الجوية الإيطالية براتيكا دي ماري (30 كيلومترا جنوب غرب مدينة روما إيطاليا)".

    وأعلنت وزارة الدفاع الروسية في 23 مارس/آذار، أن موسكو أرسلت إلى إيطاليا مختبرا واحدا، و20 آلة تعقيم و66 مختصا من إجمالي 20 ألف مختص، وهو ما لا يؤثر على قدرات القوات أثناء تنفيذ المهام داخل البلاد.

    يشار إلى أنه بعد التنسيق مع الجانب الإيطالي حول مناطق تنفيذ فعاليات الوقاية والتطهير، سيبدأ الخبراء العسكريون الروس بتنفيذ مهامهم.

    وسجلت إيطاليا حتى يوم أمس، أكثر من 69 ألف حالة إصابة بفيروس كورونا المستجد (كوفيد-19)، وتوفي أكثر من 6800 حالة حتى الآن في جميع أنحاء البلاد.
    1.0
    وجه رئيس الجمهورية، عبد المجيد تبون، أمس، تحية تقدير إلى سكان البليدة لصبرهم على الحجر الصحي من أجل التصدي لانتشار فيروس كورونا، مؤكدا أن الجزائر ستنتصر بحول الله على الوباء وعلى الجميع التقيد بإجراءات الوقاية. وكتب الرئيس تبون على مواقع التواصل الاجتماعي تحية تقدير لأهلنا في البليدة لصبركم على الحجر المفروض من فيروس كورونا بيقين منكم، وحاشا أن يكون عقوبة. البليدة جوهرة الجزائر لا تعاقب. إن الله والدولة معكم ومع الجزائر قاطبة. سننتصر على الوباء، وبحول الله لن يطول، فعلينا جميعا التقيد بإجراءات الوقاية. . . اللهم احفظ الجزائريات والجزائريين وعافي الجزائر خاطب الرئيس الجزائري عبد المجيد تبون شعبه، اليوم الأربعاء، مؤكدا أن بلاده ستنتصر على وباء كورونا المستجد.

    وقال تبون، في تغريدة عبر حسابه على موقع تويتر، مخاطبا سكان ولاية البليدة التي تخضع للحجر الشامل منذ أمس الثلاثاء: "تحية تقدير لأهلنا في البليدة لصبركم على الحجر المفروض من فيروس كورونا بيقين منكم، وحاشا أن يكون عقوبة. البليدة جوهرة الجزائر لا تعاقب".

    وأضاف: "الله والدولة معكم ومع الجزائر قاطبة. سننتصر على الوباء، وبحول الله لن يطول، فعلينا جميعا التقيد بإجراءات الوقاية. اللهم احفظ الجزائر".

    تحية تقدير لأهلنا في البليدة لصبركم على الحجر المفروض من فيروس كورونا بيقين منكم، وحاشا أن يكون عقوبة. البليدة جوهرة الجزائر لا تعاقب. إن الله والدولة معكم ومع الجزائر قاطبة. سننتصر على الوباء، وبحول الله لن يطول،فعلينا جميعًا التقيد بإجراءات الوقاية. اللهم احفظ الجزائر . — عبدالمجيد تبون - Abdelmadjid Tebboune (@TebbouneAmadjid) March 25, 2020

    وسجلت الجزائر حتى أمس الثلاثاء، 19 وفاة بوباء كورونا من مجموع 264 حالة مؤكدة.

    وأكد وزير الصحة الجزائري منذ أيام، دخول البلاد في المستوى الثالث من تف...
    0.75
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 64
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Click to expand
Epoch Step Training Loss crosslingual sts loss
0.0035 100 19.5048 -
0.0069 200 17.6079 -
0.0104 300 16.3336 -
0.0139 400 14.105 -
0.0173 500 14.4472 9.0296
0.0208 600 13.5305 -
0.0243 700 13.8863 -
0.0277 800 14.7634 -
0.0312 900 13.6647 -
0.0347 1000 14.3105 9.3460
0.0381 1100 12.0447 -
0.0416 1200 15.1301 -
0.0451 1300 14.4027 -
0.0485 1400 13.9368 -
0.0520 1500 14.4233 9.7592
0.0555 1600 13.0975 -
0.0589 1700 13.0967 -
0.0624 1800 14.1769 -
0.0659 1900 13.1417 -
0.0693 2000 13.6667 10.2403
0.0728 2100 13.9542 -
0.0763 2200 14.1579 -
0.0798 2300 13.1068 -
0.0832 2400 14.1427 -
0.0867 2500 13.9962 10.0460
0.0902 2600 13.6 -
0.0936 2700 13.9498 -
0.0971 2800 13.7178 -
0.1006 2900 12.4711 -
0.1040 3000 13.7733 10.1060
0.1075 3100 14.8574 -
0.1110 3200 11.0329 -
0.1144 3300 13.7171 -
0.1179 3400 12.9869 -
0.1214 3500 13.144 10.5399
0.1248 3600 14.6499 -
0.1283 3700 12.6478 -
0.1318 3800 12.6616 -
0.1352 3900 13.3746 -
0.1387 4000 13.7237 10.2814
0.1422 4100 13.5636 -
0.1456 4200 13.6787 -
0.1491 4300 12.9323 -
0.1526 4400 13.4474 -
0.1560 4500 13.1681 10.4603
0.1595 4600 12.6085 -
0.1630 4700 13.2848 -
0.1664 4800 12.8456 -
0.1699 4900 12.6166 -
0.1734 5000 12.2043 10.5468
0.1768 5100 12.9642 -
0.1803 5200 12.5504 -
0.1838 5300 12.9334 -
0.1872 5400 13.3359 -
0.1907 5500 13.4423 10.3030
0.1942 5600 13.8342 -
0.1976 5700 13.3358 -
0.2011 5800 12.031 -
0.2046 5900 13.4538 -
0.2080 6000 11.4236 11.3698
0.2115 6100 13.6446 -
0.2150 6200 12.3923 -
0.2185 6300 13.2193 -
0.2219 6400 13.2216 -
0.2254 6500 13.1077 11.0362
0.2289 6600 13.1459 -
0.2323 6700 13.8296 -
0.2358 6800 13.2636 -
0.2393 6900 14.2051 -
0.2427 7000 13.3108 11.0887
0.2462 7100 14.0912 -
0.2497 7200 13.4721 -
0.2531 7300 12.7793 -
0.2566 7400 13.9609 -
0.2601 7500 12.4555 10.9355
0.2635 7600 14.5358 -
0.2670 7700 12.0117 -
0.2705 7800 13.864 -
0.2739 7900 12.7944 -
0.2774 8000 13.4364 10.3730
0.2809 8100 12.952 -
0.2843 8200 11.1956 -
0.2878 8300 13.0653 -
0.2913 8400 11.4462 -
0.2947 8500 12.2663 11.0315
0.2982 8600 12.0917 -
0.3017 8700 12.0595 -
0.3051 8800 13.4618 -
0.3086 8900 12.4738 -
0.3121 9000 12.1813 11.1486
0.3155 9100 12.4617 -
0.3190 9200 12.1014 -
0.3225 9300 14.2311 -
0.3259 9400 13.1278 -
0.3294 9500 12.2575 10.9336
0.3329 9600 11.9732 -
0.3363 9700 11.7189 -
0.3398 9800 13.0043 -
0.3433 9900 12.0147 -
0.3467 10000 13.1683 10.9373
0.3502 10100 11.7414 -
0.3537 10200 13.0003 -
0.3571 10300 12.6105 -
0.3606 10400 13.2285 -
0.3641 10500 12.277 11.1218
0.3676 10600 12.7463 -
0.3710 10700 12.1923 -
0.3745 10800 10.7767 -
0.3780 10900 12.1736 -
0.3814 11000 13.4997 11.7281
0.3849 11100 13.6577 -
0.3884 11200 12.3484 -
0.3918 11300 13.6238 -
0.3953 11400 11.3687 -
0.3988 11500 11.5862 11.6016
0.4022 11600 12.6606 -
0.4057 11700 12.1551 -
0.4092 11800 12.4614 -
0.4126 11900 13.9645 -
0.4161 12000 11.5406 11.2209
0.4196 12100 11.0304 -
0.4230 12200 12.3926 -
0.4265 12300 12.3275 -
0.4300 12400 11.917 -
0.4334 12500 13.5968 11.1967
0.4369 12600 12.0935 -
0.4404 12700 13.2241 -
0.4438 12800 12.97 -
0.4473 12900 11.5931 -
0.4508 13000 12.5741 12.0063
0.4542 13100 12.4539 -
0.4577 13200 11.1228 -
0.4612 13300 12.8457 -
0.4646 13400 11.5392 -
0.4681 13500 10.3229 11.8899
0.4716 13600 13.2662 -
0.4750 13700 12.423 -
0.4785 13800 11.3427 -
0.4820 13900 13.0079 -
0.4854 14000 12.1896 11.1964
0.4889 14100 11.8969 -
0.4924 14200 13.0317 -
0.4958 14300 13.2944 -
0.4993 14400 13.2159 -
0.5028 14500 14.3176 11.2729
0.5063 14600 12.9876 -
0.5097 14700 12.8357 -
0.5132 14800 11.4045 -
0.5167 14900 11.9362 -
0.5201 15000 11.8512 11.7597
0.5236 15100 11.5164 -
0.5271 15200 11.2202 -
0.5305 15300 11.9294 -
0.5340 15400 13.1712 -
0.5375 15500 13.509 12.5235
0.5409 15600 12.0281 -
0.5444 15700 11.2068 -
0.5479 15800 11.6036 -
0.5513 15900 12.5446 -
0.5548 16000 11.6541 12.0824
0.5583 16100 11.1051 -
0.5617 16200 12.5086 -
0.5652 16300 14.216 -
0.5687 16400 12.0268 -
0.5721 16500 12.2834 11.9858
0.5756 16600 12.0812 -
0.5791 16700 12.7358 -
0.5825 16800 12.8953 -
0.5860 16900 12.2698 -
0.5895 17000 11.8394 12.3710
0.5929 17100 11.6802 -
0.5964 17200 12.3929 -
0.5999 17300 13.2871 -
0.6033 17400 11.0172 -
0.6068 17500 12.8721 11.9000
0.6103 17600 11.6906 -
0.6137 17700 11.2783 -
0.6172 17800 13.2484 -
0.6207 17900 13.8487 -
0.6241 18000 11.0525 12.2909
0.6276 18100 12.2616 -
0.6311 18200 12.167 -
0.6345 18300 13.0325 -
0.6380 18400 12.8033 -
0.6415 18500 12.8232 12.0615
0.6449 18600 13.916 -
0.6484 18700 11.4994 -
0.6519 18800 12.3871 -
0.6554 18900 12.8578 -
0.6588 19000 12.4204 11.8783
0.6623 19100 11.96 -
0.6658 19200 12.0555 -
0.6692 19300 12.4731 -
0.6727 19400 14.091 -
0.6762 19500 12.3827 12.0010
0.6796 19600 11.7031 -
0.6831 19700 13.6207 -
0.6866 19800 11.6994 -
0.6900 19900 12.863 -
0.6935 20000 11.5262 12.1506
0.6970 20100 12.5537 -
0.7004 20200 12.5261 -
0.7039 20300 11.9486 -
0.7074 20400 11.057 -
0.7108 20500 10.5867 12.2543
0.7143 20600 12.3312 -
0.7178 20700 12.76 -
0.7212 20800 12.6471 -
0.7247 20900 12.8752 -
0.7282 21000 11.3856 12.1281
0.7316 21100 13.0737 -
0.7351 21200 12.8181 -
0.7386 21300 11.3858 -
0.7420 21400 11.2633 -
0.7455 21500 12.9832 12.3107
0.7490 21600 12.605 -
0.7524 21700 12.3291 -
0.7559 21800 12.4715 -
0.7594 21900 12.104 -
0.7628 22000 12.17 12.5142
0.7663 22100 12.3032 -
0.7698 22200 12.4843 -
0.7732 22300 12.0581 -
0.7767 22400 12.049 -
0.7802 22500 14.7363 12.8126
0.7836 22600 12.687 -
0.7871 22700 11.7518 -
0.7906 22800 13.1954 -
0.7940 22900 13.0469 -
0.7975 23000 11.5919 12.6193
0.8010 23100 12.2295 -
0.8045 23200 12.1957 -
0.8079 23300 13.4346 -
0.8114 23400 12.4508 -
0.8149 23500 11.5743 13.0773
0.8183 23600 11.7478 -
0.8218 23700 12.1965 -
0.8253 23800 12.2688 -
0.8287 23900 11.4533 -
0.8322 24000 13.9732 12.4426
0.8357 24100 13.2234 -
0.8391 24200 13.9322 -
0.8426 24300 13.4231 -
0.8461 24400 11.043 -
0.8495 24500 12.4262 12.8293
0.8530 24600 12.7549 -
0.8565 24700 12.7112 -
0.8599 24800 12.6927 -
0.8634 24900 12.592 -
0.8669 25000 11.3252 13.0593
0.8703 25100 13.6559 -
0.8738 25200 12.4704 -
0.8773 25300 12.2329 -
0.8807 25400 11.7902 -
0.8842 25500 13.5121 12.8298
0.8877 25600 11.8746 -
0.8911 25700 11.8599 -
0.8946 25800 11.3771 -
0.8981 25900 11.7445 -
0.9015 26000 13.4224 12.8347
0.9050 26100 11.2969 -
0.9085 26200 12.1701 -
0.9119 26300 12.549 -
0.9154 26400 13.1779 -
0.9189 26500 13.0816 12.9779
0.9223 26600 12.7984 -
0.9258 26700 12.0704 -
0.9293 26800 11.9665 -
0.9327 26900 12.626 -
0.9362 27000 11.8592 12.9301
0.9397 27100 12.2874 -
0.9432 27200 11.7147 -
0.9466 27300 12.5814 -
0.9501 27400 11.3508 -
0.9536 27500 13.1282 12.9690
0.9570 27600 12.9674 -
0.9605 27700 12.5662 -
0.9640 27800 12.9119 -
0.9674 27900 12.7667 -
0.9709 28000 11.5705 12.9319
0.9744 28100 12.6034 -
0.9778 28200 12.8324 -
0.9813 28300 12.6951 -
0.9848 28400 12.4457 -
0.9882 28500 11.701 12.8223
0.9917 28600 11.9939 -
0.9952 28700 13.2929 -
0.9986 28800 11.305 -

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 5.0.0
  • Transformers: 4.53.3
  • PyTorch: 2.7.0
  • Accelerate: 1.9.0
  • Datasets: 4.0.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

CoSENTLoss

@online{kexuefm-8847,
    title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
    author={Su Jianlin},
    year={2022},
    month={Jan},
    url={https://kexue.fm/archives/8847},
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
3
Safetensors
Model size
135M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for mal-sh/mith-embed-v5-train

Finetuned
(59)
this model

Datasets used to train mal-sh/mith-embed-v5-train