Yilun Zhao's picture

Yilun Zhao PRO

yilunzhao

·

AI & ML interests

None yet

Recent Activity

updated a dataset 6 days ago

diagGG/papers

updated a dataset 6 days ago

diagGG/figures

updated a dataset 6 days ago

diagGG/figures

View all activity

Organizations

upvoted a paper 8 days ago

MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

Paper • 2507.16812 • Published 9 days ago • 48

upvoted a paper 13 days ago

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

Paper • 2507.13300 • Published 14 days ago • 16

upvoted 2 papers 15 days ago

Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Paper • 2507.10787 • Published 17 days ago • 11

DreamPoster: A Unified Framework for Image-Conditioned Generative Poster Design

Paper • 2507.04218 • Published 25 days ago • 12

upvoted 2 papers 22 days ago

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

Paper • 2507.06229 • Published 23 days ago • 69

Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

Paper • 2507.06223 • Published 23 days ago • 13

upvoted a paper 26 days ago

MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

Paper • 2505.19955 • Published May 26 • 12

upvoted a paper 27 days ago

Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers

Paper • 2507.02694 • Published 28 days ago • 18

upvoted a paper 29 days ago

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

Paper • 2507.01001 • Published 30 days ago • 43

upvoted 11 papers about 1 month ago

MMSearch-R1: Incentivizing LMMs to Search

Paper • 2506.20670 • Published Jun 25 • 60

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Paper • 2506.15569 • Published Jun 18 • 13

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

Paper • 2506.14429 • Published Jun 17 • 44

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

Paper • 2506.14028 • Published Jun 16 • 91

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Paper • 2408.11878 • Published Aug 20, 2024 • 63

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

Paper • 2506.12278 • Published Jun 13 • 17

FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

Paper • 2505.24714 • Published May 30 • 36

VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation

Paper • 2506.03930 • Published Jun 4 • 25

MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

Paper • 2506.05331 • Published Jun 5 • 13

ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists

Paper • 2506.01241 • Published Jun 2 • 9

ConfQA: Answer Only If You Are Confident

Paper • 2506.07309 • Published Jun 8 • 10