Publications

2026

10 Mar Lost in Backpropagation: The LM Head is a Gradient Bottleneck

2025

29 Oct Gaperon: A Peppered English-French Generative Language Model Suite
25 Jun Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content
04 Mar Q-Filters: Leveraging QK Geometry for Efficient KV Cache Compression

2024

2023

15 Sep Headless Language Models: Learning without Predicting with Contrastive Weight Tying
09 Jun MANTa: Efficient Gradient-Based Tokenization for End-to-End Robust Language Modeling

Trending Tags

thesis anisotropy softmax data-curation language-models pretraining attention award biomedical compression