Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

Reader Mode is being prepared.