8 15 31

Data Mining and Information Systems Lab

dmis-lab

datmieu2k4's profile picture

sooh-j's profile picture

dokii's profile picture

https://dmis.korea.ac.kr

dmis-lab

AI & ML interests

None yet

Recent Activity

upvoted a paper 26 days ago

The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

upvoted a paper 3 months ago

Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

upvoted a paper 4 months ago

HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches

View all activity

Organizations

dmis-lab 's collections 9

Outlier-Safe Pre-Training (OSP)

A collection of ablation and final models trained on the Outlier-Safe Pre-Training (OSP) framework.

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

Paper • 2506.19697 • Published Jun 24 • 44
dmis-lab/OSP-1.4B-1T-Muon-SSNorm-EmbProj

1B • Updated Jun 25 • 9 • 4
dmis-lab/OSP-1.4B-1T-Adam

1B • Updated Jun 25 • 6 • 3
dmis-lab/OSP-1.4B-100B-Adam

1B • Updated Jun 25 • 10 • 3

Meerkat

This collection hosts Meerkat series introduced in paper, Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks.

dmis-lab/meerkat-7b-v1.0

Text Generation • 7B • Updated May 7 • 236 • 28
dmis-lab/llama-3-meerkat-8b-v1.0

Text Generation • 8B • Updated May 7 • 208 • • 8
dmis-lab/llama-3-meerkat-70b-v1.0

Text Generation • 71B • Updated May 7 • 38 • • 6
Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks

Paper • 2404.00376 • Published Mar 30, 2024 • 5

OLAPH

This collection hosts models introduced in OLAPH: Improving Factuality in Biomedical Long-form Question Answering.

dmis-lab/self-biorag-7b-olaph

Text Generation • 7B • Updated May 22, 2024 • 16 • 3
dmis-lab/meditron-7b-olaph

Text Generation • 7B • Updated May 22, 2024 • 11
dmis-lab/mistral-7b-olaph

Text Generation • 7B • Updated May 22, 2024 • 11 • 2
dmis-lab/llama2-7b-olaph

Text Generation • 7B • Updated May 22, 2024 • 10

TouR

This collection hosts Phrase-reranker models introduced in TouR (ACL 2023 Findings), optimizing test-time query representations for dense retrieval.

dmis-lab/phrase-reranker-nq

Text Classification • Updated Oct 13, 2023 • 15 • 1
dmis-lab/phrase-reranker-multi

Text Classification • Updated Oct 13, 2023 • 16 • 1
dmis-lab/phrase-reranker-multi-wq

Text Classification • Updated Oct 13, 2023 • 9
dmis-lab/phrase-reranker-multi-trec

Text Classification • Updated Oct 13, 2023 • 7

BioBERT

This collection hosts BioBERT (Bioinformatics 2020) series, a domain-specific adaptation of BERT pre-trained on biomedical corpora.

dmis-lab/biobert-v1.1

Feature Extraction • Updated May 19, 2021 • 690k • • 104
dmis-lab/biobert-base-cased-v1.1

Updated Oct 14, 2020 • 2.06M • 20
dmis-lab/biobert-base-cased-v1.2

Fill-Mask • Updated Jun 24, 2021 • 75.9k • • 53
dmis-lab/biobert-base-cased-v1.1-mnli

Text Classification • Updated May 19, 2021 • 324 • 1

Med-PRM

This collection hosts Med-PRM series introduced in paper, Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards

dmis-lab/llama-3.1-medprm-reward-v1.0

Text Generation • 8B • Updated Jun 18 • 161 • 15
dmis-lab/llama-3.1-medprm-reward-raw-training-set

Viewer • Updated Jul 11 • 11.7k • 13
dmis-lab/llama-3.1-medprm-reward-training-set

Viewer • Updated Jun 18 • 11.7k • 86 • 8
dmis-lab/llama-3.1-medprm-reward-raw-test-set

Viewer • Updated Aug 16 • 5.47k • 23

ANGEL

This collection hosts ANGEL series introduced in paper, Learning from Negative Samples in Generative Biomedical Entity Linking.

dmis-lab/ANGEL_pretrained

Updated Sep 11, 2024 • 4 • 5
dmis-lab/ANGEL_mm

Updated Sep 11, 2024 • 10 • 5
dmis-lab/ANGEL_ncbi

Updated Sep 11, 2024 • 8 • 5
dmis-lab/ANGEL_cometa

Updated Sep 11, 2024 • 10 • 4

Self-BioRAG

This collection hosts models of Self-BioRAG (ISMB 2024), improving medical reasoning through retrieval and self-reflection.

dmis-lab/selfbiorag_7b

Text Generation • Updated Jan 29, 2024 • 170 • 3
dmis-lab/selfbiorag_13b

Text Generation • Updated Jan 29, 2024 • 11 • 4
dmis-lab/selfbiorag_7b_critic

Text Generation • Updated Jan 29, 2024 • 7 • 3

BioSyn

This collection hosts BioSyn (ACL 2020) series, for learning representations of biomedical entities based on their synonyms.

dmis-lab/biosyn-biobert-ncbi-disease

Updated Oct 25, 2021 • 36 • 2
dmis-lab/biosyn-biobert-bc5cdr-chemical

Feature Extraction • Updated Oct 25, 2021 • 10
dmis-lab/biosyn-biobert-bc2gn

Feature Extraction • Updated Feb 25, 2022 • 9
dmis-lab/biosyn-biobert-bc5cdr-disease

Updated Oct 25, 2021 • 25

Outlier-Safe Pre-Training (OSP)

A collection of ablation and final models trained on the Outlier-Safe Pre-Training (OSP) framework.

Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

Paper • 2506.19697 • Published Jun 24 • 44
dmis-lab/OSP-1.4B-1T-Muon-SSNorm-EmbProj

1B • Updated Jun 25 • 9 • 4
dmis-lab/OSP-1.4B-1T-Adam

1B • Updated Jun 25 • 6 • 3
dmis-lab/OSP-1.4B-100B-Adam

1B • Updated Jun 25 • 10 • 3

Med-PRM

This collection hosts Med-PRM series introduced in paper, Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards

dmis-lab/llama-3.1-medprm-reward-v1.0

Text Generation • 8B • Updated Jun 18 • 161 • 15
dmis-lab/llama-3.1-medprm-reward-raw-training-set

Viewer • Updated Jul 11 • 11.7k • 13
dmis-lab/llama-3.1-medprm-reward-training-set

Viewer • Updated Jun 18 • 11.7k • 86 • 8
dmis-lab/llama-3.1-medprm-reward-raw-test-set

Viewer • Updated Aug 16 • 5.47k • 23

Meerkat

This collection hosts Meerkat series introduced in paper, Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks.

dmis-lab/meerkat-7b-v1.0

Text Generation • 7B • Updated May 7 • 236 • 28
dmis-lab/llama-3-meerkat-8b-v1.0

Text Generation • 8B • Updated May 7 • 208 • • 8
dmis-lab/llama-3-meerkat-70b-v1.0

Text Generation • 71B • Updated May 7 • 38 • • 6
Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks

Paper • 2404.00376 • Published Mar 30, 2024 • 5

ANGEL

This collection hosts ANGEL series introduced in paper, Learning from Negative Samples in Generative Biomedical Entity Linking.

dmis-lab/ANGEL_pretrained

Updated Sep 11, 2024 • 4 • 5
dmis-lab/ANGEL_mm

Updated Sep 11, 2024 • 10 • 5
dmis-lab/ANGEL_ncbi

Updated Sep 11, 2024 • 8 • 5
dmis-lab/ANGEL_cometa

Updated Sep 11, 2024 • 10 • 4

OLAPH

This collection hosts models introduced in OLAPH: Improving Factuality in Biomedical Long-form Question Answering.

dmis-lab/self-biorag-7b-olaph

Text Generation • 7B • Updated May 22, 2024 • 16 • 3
dmis-lab/meditron-7b-olaph

Text Generation • 7B • Updated May 22, 2024 • 11
dmis-lab/mistral-7b-olaph

Text Generation • 7B • Updated May 22, 2024 • 11 • 2
dmis-lab/llama2-7b-olaph

Text Generation • 7B • Updated May 22, 2024 • 10

Self-BioRAG

This collection hosts models of Self-BioRAG (ISMB 2024), improving medical reasoning through retrieval and self-reflection.

dmis-lab/selfbiorag_7b

Text Generation • Updated Jan 29, 2024 • 170 • 3
dmis-lab/selfbiorag_13b

Text Generation • Updated Jan 29, 2024 • 11 • 4
dmis-lab/selfbiorag_7b_critic

Text Generation • Updated Jan 29, 2024 • 7 • 3

TouR

This collection hosts Phrase-reranker models introduced in TouR (ACL 2023 Findings), optimizing test-time query representations for dense retrieval.

dmis-lab/phrase-reranker-nq

Text Classification • Updated Oct 13, 2023 • 15 • 1
dmis-lab/phrase-reranker-multi

Text Classification • Updated Oct 13, 2023 • 16 • 1
dmis-lab/phrase-reranker-multi-wq

Text Classification • Updated Oct 13, 2023 • 9
dmis-lab/phrase-reranker-multi-trec

Text Classification • Updated Oct 13, 2023 • 7

BioSyn

This collection hosts BioSyn (ACL 2020) series, for learning representations of biomedical entities based on their synonyms.

dmis-lab/biosyn-biobert-ncbi-disease

Updated Oct 25, 2021 • 36 • 2
dmis-lab/biosyn-biobert-bc5cdr-chemical

Feature Extraction • Updated Oct 25, 2021 • 10
dmis-lab/biosyn-biobert-bc2gn

Feature Extraction • Updated Feb 25, 2022 • 9
dmis-lab/biosyn-biobert-bc5cdr-disease

Updated Oct 25, 2021 • 25

BioBERT

This collection hosts BioBERT (Bioinformatics 2020) series, a domain-specific adaptation of BERT pre-trained on biomedical corpora.

dmis-lab/biobert-v1.1

Feature Extraction • Updated May 19, 2021 • 690k • • 104
dmis-lab/biobert-base-cased-v1.1

Updated Oct 14, 2020 • 2.06M • 20
dmis-lab/biobert-base-cased-v1.2

Fill-Mask • Updated Jun 24, 2021 • 75.9k • • 53
dmis-lab/biobert-base-cased-v1.1-mnli

Text Classification • Updated May 19, 2021 • 324 • 1