LLMs for "Low Training Data Languages" - a ajinkyakolhe112 Collection

ajinkyakolhe112 's Collections

LLMs for "Low Training Data Languages"

NLP & LLM - Essential Research Papers

LLMs-for-Gaming

Computer Vision - Essential Research Papers

July 2025 - Top Papers

June 2025 - Top Papers

May 2025 - Top Papers

May 2025 - Top Spaces

LLMs for "Low Training Data Languages"

updated 7 days ago

SEA-LION: Southeast Asian Languages in One Network

Paper • 2504.05747 • Published Apr 8
Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings

Paper • 2408.02237 • Published Aug 5, 2024
A Three-Pronged Approach to Cross-Lingual Adaptation with Multilingual LLMs

Paper • 2406.17377 • Published Jun 25, 2024
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts

Paper • 2306.11372 • Published Jun 20, 2023
A Benchmark for Learning to Translate a New Language from One Grammar Book

Paper • 2309.16575 • Published Sep 28, 2023 • 1
Can LLMs Really Learn to Translate a Low-Resource Language from One Grammar Book?

Paper • 2409.19151 • Published Sep 27, 2024
Adapting Multilingual LLMs to Low-Resource Languages using Continued Pre-training and Synthetic Corpus

Paper • 2410.14815 • Published Oct 18, 2024 • 1
LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Paper • 2401.01055 • Published Jan 2, 2024 • 56
PersianMind: A Cross-Lingual Persian-English Large Language Model

Paper • 2401.06466 • Published Jan 12, 2024 • 5
MaLA-500: Massive Language Adaptation of Large Language Models

Paper • 2401.13303 • Published Jan 24, 2024 • 13
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 27
Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Paper • 2401.16380 • Published Jan 29, 2024 • 51
Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages

Paper • 2406.12739 • Published Jun 18, 2024
TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese

Paper • 2401.16640 • Published Jan 30, 2024 • 9
Lugha-Llama: Adapting Large Language Models for African Languages

Paper • 2504.06536 • Published Apr 9
SambaLingo: Teaching Large Language Models New Languages

Paper • 2404.05829 • Published Apr 8, 2024 • 13
Extending LLMs to New Languages: A Case Study of Llama and Persian Adaptation

Paper • 2412.13375 • Published Dec 17, 2024
NusaMT-7B: Machine Translation for Low-Resource Indonesian Languages with Large Language Models

Paper • 2410.07830 • Published Oct 10, 2024
A Practical Guide to Fine-tuning Language Models with Limited Data

Paper • 2411.09539 • Published Nov 14, 2024
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

Paper • 2503.00865 • Published Mar 2 • 65
A Family of Pretrained Transformer Language Models for Russian

Paper • 2309.10931 • Published Sep 19, 2023 • 5
Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages

Paper • 2305.12182 • Published May 20, 2023 • 1
Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting

Paper • 2305.07004 • Published May 11, 2023 • 1
CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

Paper • 2410.18505 • Published Oct 24, 2024 • 11
SWEb: A Large Web Dataset for the Scandinavian Languages

Paper • 2410.04456 • Published Oct 6, 2024 • 1
The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

Paper • 2406.17557 • Published Jun 25, 2024 • 98
Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

Paper • 2505.17894 • Published May 23 • 219
ModernGBERT: German-only 1B Encoder Model Trained from Scratch

Paper • 2505.13136 • Published May 19 • 21
Bielik v3 Small: Technical Report

Paper • 2505.02550 • Published May 5 • 68
Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance

Paper • 2504.07989 • Published Apr 7