reference. Dapo: An open-source llm reinforcement learning system at scale [yu2025dapo]
✍️source

2025
Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, others
https://arxiv.org/abs/2503.14476

@article{yu2025dapo,
 title = {Dapo: An open-source llm reinforcement learning system at scale},
 author = {Yu, Qiying and Zhang, Zheng and Zhu, Ruofei and Yuan, Yufeng and Zuo, Xiaochen and Yue, Yu and Fan, Tiantian and Liu, Gaohong and Liu, Lingjun and Liu, Xin and others},
 year = {2025},
 url = {https://arxiv.org/abs/2503.14476},
 journal = {arXiv preprint arXiv:2503.14476}
}