Reading List - a nitishpandey04 Collection

nitishpandey04 's Collections

WOW

Distributed Inference

Reading List

updated 20 days ago

DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

Paper • 2504.07128 • Published Apr 2 • 86
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 107
BitNet b1.58 2B4T Technical Report

Paper • 2504.12285 • Published Apr 16 • 74
FAST: Efficient Action Tokenization for Vision-Language-Action Models

Paper • 2501.09747 • Published Jan 16 • 25
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models

Paper • 2412.14058 • Published Dec 18, 2024 • 1
π_0: A Vision-Language-Action Flow Model for General Robot Control

Paper • 2410.24164 • Published Oct 31, 2024 • 23
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

Paper • 2502.16707 • Published Feb 23 • 13
OpenVLA: An Open-Source Vision-Language-Action Model

Paper • 2406.09246 • Published Jun 13, 2024 • 40
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

Paper • 2307.15818 • Published Jul 28, 2023 • 30
A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM

Paper • 2410.15549 • Published Oct 21, 2024
Open X-Embodiment: Robotic Learning Datasets and RT-X Models

Paper • 2310.08864 • Published Oct 13, 2023 • 2
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Paper • 2408.03314 • Published Aug 6, 2024 • 64
SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

Paper • 2506.01844 • Published Jun 2 • 122
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 17
Block Pruning For Faster Transformers

Paper • 2109.04838 • Published Sep 10, 2021 • 2
The case for 4-bit precision: k-bit Inference Scaling Laws

Paper • 2212.09720 • Published Dec 19, 2022 • 3
Matryoshka Representation Learning

Paper • 2205.13147 • Published May 26, 2022 • 19
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 14
Scaling Vision Transformers to 22 Billion Parameters

Paper • 2302.05442 • Published Feb 10, 2023 • 2
Robust Speech Recognition via Large-Scale Weak Supervision

Paper • 2212.04356 • Published Dec 6, 2022 • 35
Emu3: Next-Token Prediction is All You Need

Paper • 2409.18869 • Published Sep 27, 2024 • 96
Neural Architecture Search with Reinforcement Learning

Paper • 1611.01578 • Published Nov 5, 2016 • 2
Regularized Evolution for Image Classifier Architecture Search

Paper • 1802.01548 • Published Feb 5, 2018 • 2
High-Resolution Image Synthesis with Latent Diffusion Models

Paper • 2112.10752 • Published Dec 20, 2021 • 13
Denoising Diffusion Probabilistic Models

Paper • 2006.11239 • Published Jun 19, 2020 • 4
Scalable Diffusion Models with Transformers

Paper • 2212.09748 • Published Dec 19, 2022 • 18
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

Paper • 2112.10741 • Published Dec 20, 2021 • 4
Diffusion Models Beat GANs on Image Synthesis

Paper • 2105.05233 • Published May 11, 2021 • 2