SentenceTransformer based on aubmindlab/bert-base-arabertv2

This is a sentence-transformers model finetuned from aubmindlab/bert-base-arabertv2 on the arabic_qa_triplet, arabic-qa and all_nli_pair_class_train datasets. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("mal-sh/mith-embed-v1-train")
# Run inference
sentences = [
    'بلغت الحصيلة الإجمالية للوفيات الناجمة عن تفشي فيروس كورونا المستجد 338128 شخصاً منذ ظهور الوباء في الصين في كانون الأول/ديسمبر الماضي، وفق تعداد لوكالة "فرانس برس"، استناداً إلى مصادر رسمية حتى الساعة 11:00 بتوقيت غرينتش، اليوم السبت.\n\nكما تم تسجيل 5218260 إصابة في 196 بلداً ومنطقة، تعافى منهم ما لا يقل عن 2016300 حالة.\n\nوالإحصاءات المبنية على بيانات جمعتها مكاتب "فرانس برس" من السلطات المحلية في دول العالم ومن منظمة الصحة العالمية لا تعكس إلا جزءاً من العدد الحقيقي للإصابات على الأرجح. فالعديد من الدول لا تجري اختبارات لكشف الفيروس إلا للأشخاص الذين تظهر عليهم أعراض المرض أو الحالات الخطيرة التي تستوجب دخول مستشفى.\n\nوتُعد الولايات المتحدة البلد الأكثر تضرراً من الوباء مع تسجيل 96007 وفيات و1601434 إصابة. وأعلنت السلطات أن 350135 تماثلوا للشفاء.\n\nموضوع يهمك نزل مئات الإسبان إلى شوارع العاصمة مدريد، السبت، احتجاجاً على استمرار الإغلاق العام بسبب فيروس كورونا، والأضرار التي... كورونا.. تظاهرات في إسبانيا لإنهاء الإغلاق وفتح الاقتصاد فيروس كورونا\n\nوبعد الولايات المتحدة تأتي بريطانيا من بين الدول التي كان وقع الوباء ثقيلاً عليها بعدد وفيات بلغ 36393 من أصل 254195 إصابة، تليها إيطاليا بـ32616 وفاة من 228658 إصابة وإسبانيا بـ28628 وفاة من 234824 إصابة وفرنسا بـ28289 وفاة و182219 إصابة.\n\nوأعلنت الصين (باستثناء هونغ كونغ وماكاو) حتى الآن عن 4634 وفاة و82971 إصابة و78258 حالة شفاء.\n\nوسجلت أوروبا بالإجمال 172615 وفاة من أصل 1996321 إصابة، والولايات المتحدة وكندا 102349 وفاة من أصل 1683914 إصابة، وأميركا اللاتينية والكاريبي 37671 وفاة من 681 ألف إصابة، وآسيا 13577 وفاة من 418734 إصابة، والشرق الأوسط 8606 وفيات من 325655 إصابة وإفريقيا 3180 وفاة من 104174 إصابة وأوقيانيا 130 وفاة من 8463 إصابة.\n\n282 وفاة جديدة في بريطانيا\n\nوقالت الحكومة البريطانية، اليوم السبت، إن عدد الوفيات بسبب الإصابة المؤكدة بمرض كوفيد-19 في المملكة المتحدة ارتفع بعد تسجيل 282 وفاة جديدة، ليبلغ إجمالي الوفيات 36675.\n\nوقالت روسيا، السبت، إنها سجلت 9434 حالة إصابة جديدة بفيروس كورونا المستجد خلال الساعات الأربع والعشرين الماضية، مما يرفع العدد الإجمالي للإصابات في البلاد إلى 335,882.\n\nوأبلغ مركز الاستجابة لأزمة فيروس كورونا في روسيا عن 139 حالة وفاة جديدة بعد تسجيل 150 حالة في اليوم السابق، ليصل بذلك العدد الإجمالي للوفيات إلى 3388.\n\nTo view this video please enable JavaScript, and consider upgrading your web browser\n\nيأتي ذلك فيما أظهرت بيانات معهد روبرت كوخ للأمراض المعدية في ألمانيا، السبت، ارتفاع عدد حالات الإصابة الجديدة المؤكدة بفيروس كورونا 638 حالة ليصبح إجمالي عدد حالات الإصابة 177850 حالة. وأوضحت البيانات ارتفاع عدد حالات الوفاة الناجمة عن الفيروس 42 حالة ليصبح إجمالي عدد حالات الوفاة 8216.\n\nوفي فرنسا، يسمح مرسوم نشر السبت باستئناف المراسم الدينية التي منعت بسبب انتشار فيروس كورونا المستجد، اعتبارا من اليوم نفسه، مع مراعاة قواعد الوقاية من المرض، مثل تطهير اليدين ووضع قناع واق.\n\nويدخل هذا الإجراء حيز التنفيذ بعد قرار مجلس الدولة أعلى هيئة إدارية في فرنسا، الذي أمر في 18 أيار/مايو الحكومة برفع الحظر "العام والمطلق" للتجمعات في أماكن العبادة في إطار الحد من انتشار فيروس كورونا المستجد. وكان مجلس الدولة رأى أن هذا الحظر "يشكل مساسا خطيرا وغير قانوني" بحرية العبادة.\n\nوفي باكستان، أعلنت السلطات الطبية ارتفاع إجمالي الإصابات بفيروس كورونا إلى 52437 حالة مؤكدة، منها 1101 حالة وفاة بينما بلغ عديد الحالات التي تماثلت منها للشفاء 16653 حالة، وذلك حتى صباح يوم السبت الموافق 23 مايو 2020.\n\nووفق الإحصاءات الحكومية فقد تم تسجيل 34 حالة وفاة بالإضافة إلى 1743 حالة إصابة بالفيروس خلال الساعات الأربع والعشرين الماضية.',
    'أظهرت بيانات معهد روبرت كوخ للأمراض المعدية في ألمانيا، اليوم الأحد، أن عدد حالات الإصابة المؤكدة بفيروس كورونا المستجد في البلاد زاد 583 حالة إلى 174355. وزاد عدد الوفيات 33 حالة إلى 7914.\n\nوفي روسيا، أعلنت السلطات، اليوم الأحد، تسجيل 9709 إصابات جديدة بفيروس كورونا المستجد ارتفاعا من 9200 إصابة في اليوم السابق.\n\nوقال المركز الروسي لإدارة أزمة كورونا، إن عدد الإصابات الإجمالي في البلاد بلغ 281752 حالة. وأضاف أن 94 مصابا توفوا خلال الأربع والعشرين ساعة الماضية، وبهذا يصل عدد الوفيات الرسمي إلى 2631.\n\nوفيات إسبانيا الأقل منذ شهرين\n\nوفي إسبانيا، قالت وزارة الصحة إنها سجلت 87 وفاة جديدة اليوم الأحد بفيروس كورونا المستجد، ليتراجع بذلك عدد الوفيات اليومي إلى أقل من مئة للمرة الأولى منذ شهرين. وأضافت الوزارة أن عدد الوفيات الإجمالي بلغ 27650 شخصا فيما ارتفع عدد حالات الإصابة إلى 231350 حالة مقارنة مع 230698 إصابة أمس.\n\nووفقا لحصيلة وضعتها وكالة "فرانس برس" حتى الساعة 19:00 بتوقيت غرينتش، السبت، استنادا إلى مصادر رسمية، تسببت الجائحة بوفاة 309,296 شخصا في العالم منذ ظهورها في ديسمبر في الصين. كما سُجّلت رسمياً أكثر من 4 ملايين و588 ألفا و360 إصابة في 196 بلداً ومنطقة منذ بدء انتشار وباء كوفيد-19.\n\nغير أن هذه الأرقام لا تعكس إلا جزءاً من عدد الإصابات الفعلي، إذ إنّ دولاً عدّة لا تجري فحوصا إلا للحالات التي تتطلب نقل أصحابها إلى المستشفى.',
    'اشتبكت قوة أمنية في محافظة كركوك، شمالي العراق، مع عناصر تنظيم "داعش"، ضمن حملة عسكرية تنفذها القوات العراقية.\n\nوقالت الخلية في بيان صحفي إن "قوة ضمن المقر المتقدم لقيادة العمليات المشتركة في كركوك، تمكنت من قتل ثلاثة إرهابيين في منطقة غيده".\n\nواضاف البيان: "كما قتل أربع مقاتلين، بينهم ثلاثة من الحشد العشائري ومنتسب من الشرطة الاتحادية، بانفجار عبوة ناسفة، وإطلاق نار مباشر في ناحية الرشاد".',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9227, 0.6784],
#         [0.9227, 1.0000, 0.7168],
#         [0.6784, 0.7168, 1.0000]])

Training Details

Training Datasets

arabic_qa_triplet

  • Dataset: arabic_qa_triplet at 5332292
  • Size: 2,234,578 training samples
  • Columns: anchor, positive, and hardnegative
  • Approximate statistics based on the first 1000 samples:
    anchor positive hardnegative
    type string string string
    details
    • min: 6 tokens
    • mean: 45.0 tokens
    • max: 512 tokens
    • min: 7 tokens
    • mean: 209.91 tokens
    • max: 512 tokens
    • min: 6 tokens
    • mean: 107.19 tokens
    • max: 512 tokens
  • Samples:
    anchor positive hardnegative
    علق الطلاق بالثلاث علي امر فحكم القاضي بوقوع واحده الحمد لله والصلاه والسلام علي رسول الله وعلي اله وصحبه اما بعد فالمفتي به عندنا في الطلاق بالثلاث هو قول الجمهور بوقوعه ثلاثا لكن المساله محل خلاف بين اهل العلم وما دمت رفعت الامر للمحكمه الشرعيه فحكم القاضي بوقوع طلقه واحده فان حكم القاضي يرفع الخلاف في المسائل الخلافيه كما بيناه في الفتوي رقم فلا حرج عليك في العمل بحكمه ولا تلتفت للشكوك التي تراودك بانك كنت معتقدا صحه قول الجمهور واحذر من مجاراه الوساوس فان عواقبها وخيمه والله اعلم الحمد لله والصلاه والسلام علي رسول الله وعلي اله وصحبه اما بعد فالشرع الكريم قد حدد الطلاق بثلاث مرات لكل امراه علي حده وبالتالي فمن تزوج امراه وطلقها واحده ثم تزوج باخري فانه يملك طلاقها ثلاثا ولا ينقص هذا العدد كونه قد طلق زوجته الاولي واحده والله اعلم
    حكم اداء الجمعه في مسجد يغلق في ايام العطل انا طالب جامعي واسكن في اقامه جامعيه وفيها مسجد وتصلي فيه الجمعه فهل يجوز لي ان اصلي فيه الجمعه مع العلم ان المسجد يغلق في العطل الدراسيه ارجو منكم التفصيل في المساله وشكرا جزيلا لكم كيف نصلي صلاه الجمعه في الصين
    هل يمكن دفن موتي المسلمين وموتي الكفار معا اذاهلكوا معا ولم يمكن التمييز بينهم لتغير الجثث الحمد لله والصلاه والسلام علي رسول الله وعلي اله وصحبه اما بعد فالاصل انه لا يجوز دفن مسلم في مقبره كفار ولا عكسه الا لضروره انظر حاشيه قليوبي وعميره فاذا لم يمكن تمييز المسلمين من الكفار جاز دفنهم مع بعض اذ لا سبيل الي تركهم من غير دفن وما لا يتم الواجب الا به فهو واجب والواجب هنا هو دفن المسلمين ولا يتم هذا الواجب في صوره عدم التمييز الا بدفن جميعهم والله اعلم الحمد لله والصلاه والسلام علي رسول الله وعلي اله وصحبه اما بعد فالعلماء رحمهم الله مختلفون في نقل الميت بعد دفنه هل يجوز او لا فمنهم من منعه مطلقا ومنهم من جوزه لضروره ومنهم من جوزه لمطلق المصلحه جاء في الموسوعه الفقهيه ذهب الحنفيه والشافعيه والحنابله الي انه لا يجوز نقل الميت من مكان الي اخر بعد الدفن مطلقا وافتي بعض المتاخرين من الحنفيه بجوازه الا ان ابن عابدين رده فقال نقلا عن الفتح اتفاق مشايخ الحنفيه في امراه دفن ابنها وهي غائبه في غير بلدها فلم تصبر وارادت نقله علي انه لا يسعها ذلك فتجويز بعض المتاخرين لا يلتفت اليه واما نقل يعقوب ويوسف عليهما السلام من مصر الي الشام ليكونا مع ابائهما الكرام فهو شرع من قبلنا ولم يتوفر فيه شروط كونه شرعا لنا واما المالكيه فيجوز عندهم نقل الميت قبل الدفن وكذا بعده من مكان الي اخر بشروط هي ان لا ينفجر حال نقله ان لا تنتهك حرمته وان يكون لمصلحه كان يخاف عليه ان ياكله البحر او ترجي بركه الموضع المنقول اليه او ليدفن بين اهله او لاجل قرب زياره اهله او دفن من اسلم بمقبره الكفار فيتدارك باخراجه منها ودفنه في مقبره المسلمين فان تخلف شرط من هذه الشروط الثلا...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "TripletLoss",
        "matryoshka_dims": [
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

arabic-qa

  • Dataset: arabic-qa at 4e706e7
  • Size: 687,197 training samples
  • Columns: Question and Answer
  • Approximate statistics based on the first 1000 samples:
    Question Answer
    type string string
    details
    • min: 5 tokens
    • mean: 37.51 tokens
    • max: 83 tokens
    • min: 4 tokens
    • mean: 44.6 tokens
    • max: 512 tokens
  • Samples:
    Question Answer
    الرنين المغناطيسي marginal osteophytes are seen at various levels .. Focal fat deposition are seen in D5&D12 vertebrae. eMild disc desiccation seen at various levels. Mild di ظخهور  النمو العظمي لهامشية على مستويات مختلفة. ظخهور الترسبات  الدخهنية  بين  الفقرات الوضصحة مع جفاف  القرص بين جميع الفقرات و سلامات
    ماسبب وجود بقعة بيضاء تغطي جزء من قزحية العين لشاب عمره 27 يلزمه فحص لتحديد السبب
    انا اجتني الدوره بيوم ٢٧/٥ وحصلت مداعبه بيني وبين خطيب ولكن من على الملابس وكانت بتاريخ ١٦/٦ ومع العلم انا دورتي منتظمه ولكن
    نزل السائل المنوي على صدري ومسحته هل...
    لا يحدث حمل.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

all_nli_pair_class_train

  • Dataset: all_nli_pair_class_train at 7c87e57
  • Size: 1,000,000 training samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 4 tokens
    • mean: 15.87 tokens
    • max: 77 tokens
    • min: 4 tokens
    • mean: 45.77 tokens
    • max: 242 tokens
    • min: 0.09
    • mean: 0.68
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    الراقصات يقومون بأداء سعيدة بينما يقومون بنفس الوضع. الراقصات يقدمن أداء 0.81672
    ما هي الطريقة الفعالة للحصول على أطول في سن 20؟ هل من الممكن زيادة الطول أو الحصول على أطول بعد 20؟ 0.80407
    هو الميثادون كتلة أفيونية اعتمادًا على الجرعة ، يمكن أن يمنع الميثادون تأثيرات المواد الأفيونية لمدة تصل إلى 4 أيام. خلال هذا الوقت ، يملأ الميثادون المستقبلات الأفيونية. عندما تمتلئ المستقبلات بالميثادون ، لا تستطيع المواد الأفيونية تحفيز المستقبلات ، وبالتالي تمنع تأثيرات المواد الأفيونية. 0.50843
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CoSENTLoss",
        "matryoshka_dims": [
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

crosslingual_sts

  • Dataset: crosslingual_sts at 02e82d1
  • Size: 262 evaluation samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 262 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 38 tokens
    • mean: 330.91 tokens
    • max: 512 tokens
    • min: 25 tokens
    • mean: 321.38 tokens
    • max: 512 tokens
    • min: 0.25
    • mean: 0.76
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    الرباط: وجه عدد من الأدباء والمثقفين المغاربة نداء إلى عموم الشعب المغربي للالتزام بقواعد الحجر الصحي لتجنيب البلاد كارثة نتيجة تفشي فيروس كورونا المستجد.

    كما حثوا زملاءهم المثقفين والأدباء على المساهمة في صندوق التبرعات الذي أسسه العاهل المغربي في 15 مارس آذار، للحد من تداعيات جائحة فيروس كورونا على الاقتصاد المغربي.

    وجاء في النداء الذي وقعه نحو 50 أديبا وكاتبا وفنانا تشكيليا “الالتزام بكل الاحترازات المقررة… وخاصة البقاء في البيت، هي الوسيلة الوحيدة المتاحة، اليوم لتجنيب البلاد كارثة صحية خطيرة”.

    كما تركوا المجال مفتوحا للتوقيع أمام كل من يرغب في الانضمام إلى هذه المبادرة وناشدوا كل الكتاب والمثقفين “المساهمة في هذا المجهود الوطني من خلال التبرع لهذا الصندوق”.

    كما وجهوا تحية تقدير وتضامن إلى الفرق الطبية ونساء ورجال الصحة العامة ورجال الأمن والسلطات المغربية وإلى كل الساهرين على تنفيذ القرارات المتخذة لمقاومة الوباء.

    واعتبر الموقعون على النداء أن “خطورة المحنة التي نجتازها، تدعونا إلى اعتبار مقاومة الوباء مسؤولية جماعية وفردية وأولوية الأمة بأجمعها للحفاظ على حياة أفرادها وعلى س...
    أعلنت المملكة العربية السعودية، مساء اليوم الأربعاء 25 مارس/آذار، إلغاء التوسعة الثالثة للحرم المكي.

    وقالت رئاسة شؤون الحرمين، في بيان نقلته قناة "العربية"، إنه تم إغلاق التوسعة السعودية الثالثة في الحرم المكي، ضمن الإجراءات الاحترازية لمكافحة تفشي فيروس كورونا المستجد "كوفيد 19".

    وكانت وزارة الصحة السعودية قد أعلنت ارتفاع عدد المصابين بكورونا في السعودية إلى 900 حالة وتسجيل وفاة جديدة.

    وأعلن المتحدث باسم وزارة الصحة السعودية، محمد العبد العالي، عن تسجيل 133 إصابة جديدة بفيروس كورونا، ليصل إجمالي المصابين إلى 900 حالة، بحسب موقع قناة "العربية" السعودية.

    أعلن العاهل السعودي الملك سلمان بن عبد العزيز، اليوم الأربعاء، عن حزمة إجراءات جديدة للحد من تفشي وباء "كورونا".

    وقالت وكالة الأنباء السعودية "واس" إن هذه القرارات جاءت "انطلاقا من حرص خادم الحرمين الشريفين الملك سلمان بن عبد العزيز آل سعود على صحة وسلامة المواطنين والمقيمين، وبناء على ما عرضته الجهات المعنية من الحاجة إلى المزيد من الإجراءات الاحترازية للحد من انتشار فيروس كورونا الجديد".

    وأكد الأمر الملكي على منع سكان مناطق المم...
    1.0
    كتب إيليا بولونسكي، في "فوينيه أوبزرينيه"، حول مفاضلة الهند بين الطائرات الروسية ونظيرتها الغربية لتسليح قواتها الجوية، فأيها تفوز؟

    وجاء في المقال: تواصل الهند اختيار طائرات جديدة لقواتها الجوية. وروسيا، من بين الدول التي قدمت عروضها لتوريد الطائرات.

    وكما بات معلوما، فقد تلقت روسيا، سنة 2019، طلبا من وزارة الدفاع الهندية لتزويدها بمعلومات حول المقاتلة "ميغ-35" المطورة. وإذا ما توصل الطرفان إلى اتفاق، فقد تطلب الهند من روسيا بناء أكثر من 100 طائرة.

    ما يميز النسخة المطورة من "ميغ-35"، نظام الحماية G-Force ونظام الهبوط الأوتوماتيكي. فمن دونها، لم تكن الطائرة الروسية لتنافسDasault Rafale وLockheed Martin F-21.

    وكما هو معلوم، فإن لوكهيد مارتن تتمتع بموقع قوي للغاية في الهند وبلوبي مؤثر جدا في قيادة هذا البلد. ناهيكم بأن لدى F-16 نظام هبوط تلقائي يتحكم فيه كمبيوتر موجود على متن الطائرة.

    المنافس الآخر للطائرة ميغ-35 في الهند، المقاتلة الفرنسية Dassault Rafale multirole. وهي أيضا تتمتع بخصائص مماثلة لما ذكر أعلاه.

    وبالمناسبة، ففي العام 2018، فضلت الهند طائرة رافال الفرنسية على الطائرة ال...
    أعلنت وزارة الدفاع الروسية، اليوم الأربعاء، إن الطائرة الخامسة عشرة التابعة للقوات الروسية وصلت إلى إيطاليا للمساعدة في مكافحة جائحة فيروس كورونا.

    وقالت الوزارة في بيان: "قامت الطائرة الخامسة عشرة من طراز "إيل 76" مجهزة بمعدات للتشخيص وتنفيذ تدابير التطهير، بتسليم المعدات لمكافحة فيروس كورونا للقاعدة الجوية الإيطالية براتيكا دي ماري (30 كيلومترا جنوب غرب مدينة روما إيطاليا)".

    وأعلنت وزارة الدفاع الروسية في 23 مارس/آذار، أن موسكو أرسلت إلى إيطاليا مختبرا واحدا، و20 آلة تعقيم و66 مختصا من إجمالي 20 ألف مختص، وهو ما لا يؤثر على قدرات القوات أثناء تنفيذ المهام داخل البلاد.

    يشار إلى أنه بعد التنسيق مع الجانب الإيطالي حول مناطق تنفيذ فعاليات الوقاية والتطهير، سيبدأ الخبراء العسكريون الروس بتنفيذ مهامهم.

    وسجلت إيطاليا حتى يوم أمس، أكثر من 69 ألف حالة إصابة بفيروس كورونا المستجد (كوفيد-19)، وتوفي أكثر من 6800 حالة حتى الآن في جميع أنحاء البلاد.
    1.0
    وجه رئيس الجمهورية، عبد المجيد تبون، أمس، تحية تقدير إلى سكان البليدة لصبرهم على الحجر الصحي من أجل التصدي لانتشار فيروس كورونا، مؤكدا أن الجزائر ستنتصر بحول الله على الوباء وعلى الجميع التقيد بإجراءات الوقاية. وكتب الرئيس تبون على مواقع التواصل الاجتماعي تحية تقدير لأهلنا في البليدة لصبركم على الحجر المفروض من فيروس كورونا بيقين منكم، وحاشا أن يكون عقوبة. البليدة جوهرة الجزائر لا تعاقب. إن الله والدولة معكم ومع الجزائر قاطبة. سننتصر على الوباء، وبحول الله لن يطول، فعلينا جميعا التقيد بإجراءات الوقاية. . . اللهم احفظ الجزائريات والجزائريين وعافي الجزائر خاطب الرئيس الجزائري عبد المجيد تبون شعبه، اليوم الأربعاء، مؤكدا أن بلاده ستنتصر على وباء كورونا المستجد.

    وقال تبون، في تغريدة عبر حسابه على موقع تويتر، مخاطبا سكان ولاية البليدة التي تخضع للحجر الشامل منذ أمس الثلاثاء: "تحية تقدير لأهلنا في البليدة لصبركم على الحجر المفروض من فيروس كورونا بيقين منكم، وحاشا أن يكون عقوبة. البليدة جوهرة الجزائر لا تعاقب".

    وأضاف: "الله والدولة معكم ومع الجزائر قاطبة. سننتصر على الوباء، وبحول الله لن يطول، فعلينا جميعا التقيد بإجراءات الوقاية. اللهم احفظ الجزائر".

    تحية تقدير لأهلنا في البليدة لصبركم على الحجر المفروض من فيروس كورونا بيقين منكم، وحاشا أن يكون عقوبة. البليدة جوهرة الجزائر لا تعاقب. إن الله والدولة معكم ومع الجزائر قاطبة. سننتصر على الوباء، وبحول الله لن يطول،فعلينا جميعًا التقيد بإجراءات الوقاية. اللهم احفظ الجزائر . — عبدالمجيد تبون - Abdelmadjid Tebboune (@TebbouneAmadjid) March 25, 2020

    وسجلت الجزائر حتى أمس الثلاثاء، 19 وفاة بوباء كورونا من مجموع 264 حالة مؤكدة.

    وأكد وزير الصحة الجزائري منذ أيام، دخول البلاد في المستوى الثالث من تف...
    0.75
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 128
  • weight_decay: 0.01
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Click to expand
Epoch Step Training Loss crosslingual sts loss
0.0016 100 18.1564 -
0.0033 200 18.7035 -
0.0049 300 15.2403 -
0.0065 400 13.8776 -
0.0082 500 14.8833 13.8570
0.0098 600 14.1654 -
0.0114 700 13.9344 -
0.0131 800 13.2769 -
0.0147 900 15.3636 -
0.0163 1000 13.9097 23.5133
0.0180 1100 13.9256 -
0.0196 1200 13.509 -
0.0212 1300 14.844 -
0.0228 1400 13.4346 -
0.0245 1500 14.1551 12.7835
0.0261 1600 14.1528 -
0.0277 1700 13.5506 -
0.0294 1800 14.002 -
0.0310 1900 14.5615 -
0.0326 2000 12.7568 23.1560
0.0343 2100 13.3891 -
0.0359 2200 13.3352 -
0.0375 2300 12.5537 -
0.0392 2400 13.1534 -
0.0408 2500 14.907 19.6611
0.0424 2600 13.955 -
0.0441 2700 13.2107 -
0.0457 2800 14.0012 -
0.0473 2900 13.3296 -
0.0490 3000 13.4976 23.4470
0.0506 3100 14.5058 -
0.0522 3200 12.9535 -
0.0539 3300 12.8159 -
0.0555 3400 14.2027 -
0.0571 3500 13.3555 29.3783
0.0587 3600 13.1169 -
0.0604 3700 12.6704 -
0.0620 3800 12.5785 -
0.0636 3900 14.0869 -
0.0653 4000 13.8138 29.5960
0.0669 4100 12.9382 -
0.0685 4200 14.0019 -
0.0702 4300 11.8684 -
0.0718 4400 13.9356 -
0.0734 4500 13.648 30.9375
0.0751 4600 12.6578 -
0.0767 4700 15.9445 -
0.0783 4800 13.6714 -
0.0800 4900 13.8342 -
0.0816 5000 13.5753 13.2506
0.0832 5100 12.5984 -
0.0849 5200 13.4379 -
0.0865 5300 14.0918 -
0.0881 5400 14.3598 -
0.0898 5500 13.6026 32.0431
0.0914 5600 12.3265 -
0.0930 5700 14.1276 -
0.0946 5800 13.3775 -
0.0963 5900 13.5953 -
0.0979 6000 14.4369 32.9298
0.0995 6100 13.9847 -
0.1012 6200 13.9252 -
0.1028 6300 14.6584 -
0.1044 6400 13.2834 -
0.1061 6500 14.7507 18.3612
0.1077 6600 12.3712 -
0.1093 6700 12.0144 -
0.1110 6800 12.8553 -
0.1126 6900 13.6419 -
0.1142 7000 14.2416 29.0082
0.1159 7100 13.9451 -
0.1175 7200 12.7215 -
0.1191 7300 12.594 -
0.1208 7400 12.958 -
0.1224 7500 12.7198 11.1867
0.1240 7600 12.705 -
0.1257 7700 12.9975 -
0.1273 7800 13.0427 -
0.1289 7900 14.0556 -
0.1306 8000 13.7888 32.5613
0.1322 8100 14.54 -
0.1338 8200 12.0518 -
0.1354 8300 13.0557 -
0.1371 8400 13.3604 -
0.1387 8500 14.7322 22.5541
0.1403 8600 12.3931 -
0.1420 8700 13.9238 -
0.1436 8800 14.3248 -
0.1452 8900 12.4246 -
0.1469 9000 12.2338 20.3656
0.1485 9100 12.2789 -
0.1501 9200 12.4966 -
0.1518 9300 13.213 -
0.1534 9400 12.5796 -
0.1550 9500 12.4403 12.6536
0.1567 9600 13.8982 -
0.1583 9700 13.4968 -
0.1599 9800 13.3928 -
0.1616 9900 12.144 -
0.1632 10000 13.6544 24.8743
0.1648 10100 12.5415 -
0.1665 10200 13.6431 -
0.1681 10300 11.8179 -
0.1697 10400 12.8974 -
0.1713 10500 12.5091 12.9080
0.1730 10600 13.9482 -
0.1746 10700 12.7617 -
0.1762 10800 13.9789 -
0.1779 10900 11.9505 -
0.1795 11000 12.9276 24.3788
0.1811 11100 13.3302 -
0.1828 11200 12.9538 -
0.1844 11300 13.2899 -
0.1860 11400 12.3581 -
0.1877 11500 13.1075 22.2159
0.1893 11600 12.6114 -
0.1909 11700 13.5621 -
0.1926 11800 13.2253 -
0.1942 11900 12.3995 -
0.1958 12000 13.1143 13.6371
0.1975 12100 12.8 -
0.1991 12200 12.4461 -
0.2007 12300 12.3969 -
0.2024 12400 13.0381 -
0.2040 12500 13.4941 13.9916
0.2056 12600 12.8987 -
0.2072 12700 12.5022 -
0.2089 12800 12.6713 -
0.2105 12900 13.8097 -
0.2121 13000 13.7041 13.7622
0.2138 13100 12.9252 -
0.2154 13200 11.963 -
0.2170 13300 12.7831 -
0.2187 13400 13.6638 -
0.2203 13500 12.6503 28.0946
0.2219 13600 13.6814 -
0.2236 13700 11.5415 -
0.2252 13800 13.5078 -
0.2268 13900 12.9786 -
0.2285 14000 13.8023 20.8407
0.2301 14100 13.7627 -
0.2317 14200 13.2535 -
0.2334 14300 12.539 -
0.2350 14400 13.8727 -
0.2366 14500 13.4751 14.1456
0.2383 14600 12.8161 -
0.2399 14700 13.4819 -
0.2415 14800 12.4808 -
0.2432 14900 12.8607 -
0.2448 15000 12.1676 18.5497
0.2464 15100 13.1723 -
0.2480 15200 12.1253 -
0.2497 15300 12.4493 -
0.2513 15400 12.7033 -
0.2529 15500 12.4846 26.6070
0.2546 15600 12.8826 -
0.2562 15700 13.3473 -
0.2578 15800 12.1253 -
0.2595 15900 13.7493 -
0.2611 16000 13.1597 14.9592
0.2627 16100 13.0102 -
0.2644 16200 13.3047 -
0.2660 16300 13.2608 -
0.2676 16400 13.3471 -
0.2693 16500 12.2862 31.6283
0.2709 16600 13.6729 -
0.2725 16700 11.5989 -
0.2742 16800 12.4372 -
0.2758 16900 12.6877 -
0.2774 17000 13.2529 22.5799
0.2791 17100 13.3202 -
0.2807 17200 12.3422 -
0.2823 17300 12.2982 -
0.2839 17400 13.3195 -
0.2856 17500 12.9796 13.4042
0.2872 17600 14.0396 -
0.2888 17700 13.3602 -
0.2905 17800 12.7006 -
0.2921 17900 13.3746 -
0.2937 18000 13.3404 14.8591
0.2954 18100 12.3123 -
0.2970 18200 13.3302 -
0.2986 18300 12.1233 -
0.3003 18400 11.4221 -
0.3019 18500 12.4347 14.8289
0.3035 18600 12.1878 -
0.3052 18700 13.7041 -
0.3068 18800 13.6562 -
0.3084 18900 12.7371 -
0.3101 19000 13.3396 29.5518
0.3117 19100 12.9851 -
0.3133 19200 13.6229 -
0.3150 19300 12.5214 -
0.3166 19400 13.102 -
0.3182 19500 13.545 23.2038
0.3198 19600 12.6044 -
0.3215 19700 12.7071 -
0.3231 19800 12.6843 -
0.3247 19900 13.0378 -
0.3264 20000 12.4229 26.6649
0.3280 20100 12.8783 -
0.3296 20200 13.4558 -
0.3313 20300 11.8992 -
0.3329 20400 11.0587 -
0.3345 20500 13.7328 24.2741
0.3362 20600 12.2386 -
0.3378 20700 12.6721 -
0.3394 20800 13.7283 -
0.3411 20900 11.7873 -
0.3427 21000 13.3707 29.8966
0.3443 21100 11.9449 -
0.3460 21200 13.0883 -
0.3476 21300 12.0428 -
0.3492 21400 11.8462 -
0.3509 21500 11.4252 19.1098
0.3525 21600 12.3526 -
0.3541 21700 11.772 -
0.3557 21800 14.0524 -
0.3574 21900 11.4452 -
0.3590 22000 12.098 14.8527

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 5.0.0
  • Transformers: 4.53.3
  • PyTorch: 2.7.0
  • Accelerate: 1.9.0
  • Datasets: 4.0.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

CoSENTLoss

@online{kexuefm-8847,
    title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
    author={Su Jianlin},
    year={2022},
    month={Jan},
    url={https://kexue.fm/archives/8847},
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
3
Safetensors
Model size
135M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for mal-sh/mith-embed-v1-train

Finetuned
(59)
this model

Datasets used to train mal-sh/mith-embed-v1-train