As Dutch speakers, it’s unfortunate to see our language often overlooked in the development of open Large Language Models (LLMs). To change this, Matthieu and I built ChocoLlama, a family of 6 Dutch LLMs based on Meta’s Llama. We’re excited to release all models on Hugging Face (https://lnkd.in/ePSzc6Yy), along with our paper (https://lnkd.in/espCMSfu). Technical TL;DR: - We train Llama-2 on all Dutch data we could find (32B tokens). We find that LoRA scales well for language adaptation and modifying the tokenizer boosts performance. - In the meantime, the new Llama-3 turned out to be better in Dutch than our Llama-2 adaptations– showing how hard it is to keep up in this field! - Repeating our method on Llama-3 yields limited returns, suggesting that more multilingual models may benefit more from posttraining than pretraining. Big thanks to our co-authors (François REMY, Pieter Delobelle, Jens-Joris Decorte, Thomas Demeester) advisors (Els Lefever, Veronique Hoste, @Cédric Goemaere, Karel D'Oosterlinck, @Loic De Langhe, Pranaydeep Singh and Bram Vanroy) and industry partners who helped us expand our Dutch data (TechWolf, Jeroen Van Hautte 🐺, Bizzy, Hendrik Keeris and ML6 | Your partner in AI, Michiel De Koninck). And a special thanks to the VSC | Vlaams Supercomputer Centrum for extending us the grant making this project possible. It's amazing to see initiatives like this being supported in Flanders.
Zeer cool!
Heel erg gefeliciteerd, mooi model! Goed opgeschreven ook; ik ben het paper met interesse aan het lezen. Er viel me één ding meteen op: ondanks dat het een LoRA-training is, hebben jullie nog behoorlijk wat rekentijd nodig gehad. Ik lees voor CocoLlama-2-7B 18,4 dagen op 2 nodes met 4x A100 40GB, of ruwweg 3500 GPU-uur. Dat is ruwweg 7x zo veel GPU-uur als voor GEITje-7B. Nou zijn er natuurlijk dingen anders: jullie hebben 3,2x zo veel tokens, en een A100 40GB kan flink minder verwerken dan een H100 80GB waarop GEITje getraind is. Samen kan dat ongeveer die 7x verklaren, misschien zelfs iets meer. Maar wat dan nog overblijft is dat de LoRA-training maar 544M parameters hoeft te trainen, terwijl voor GEITje alle 7B werden getraind. Op het oog lijkt het me dat er hier ergens een flinke factor aan throughput mist, ergens tussen de 5x en 10x. Enig idee waar dat hem in zit? Ik tag ook Bram Vanroy even want hij had ooit ook een soortgelijke missende throughput op de Vlaamse Supercomputer
Congrats Anthony Rathé - awesome to see great minds come together
Congrats! 🍫🦙
Sovereign AI
3moCongrats!