Architecture du modèle

Une architecture transformer decoder-only pensée pour l’inférence multilingue en production.

Tassili est conçu comme une famille de modèles optimisée pour la tokenisation multilingue, l’entraînement distribué et les profils de déploiement enterprise-ready.

  • Transformer decoder-only
  • Entraînement GPU distribué
  • Mixed precision BF16 / FP16
  • Tokenizer multilingue

Tailles prévues

Une famille de modèles avec différents compromis coût / capacité.

Tassili-7B

Inférence entreprise efficace

Pensé pour des déploiements plus sobres en coût avec une inférence plus rapide sur des charges utiles réalistes.

Tassili-13B

Équilibre raisonnement / coût

Positionné comme la variante la plus équilibrée pour le raisonnement multilingue et l’accessibilité opérationnelle.

Tassili-34B

Raisonnement avancé

Prévu pour une compréhension contextuelle plus profonde et des tâches de raisonnement plus exigeantes.

Stratégie d’entraînement

Un pipeline structuré, du pré-entraînement à l’adaptation métier.

01

Pré-entraînement

  • Corpus multilingue curé
  • Distribution équilibrée français / arabe / anglais / darija
  • Déduplication et filtrage
  • Pondération des datasets par qualité

Cible estimée : régime d’entraînement multi-trillion tokens, monté progressivement.

02

Instruction tuning

  • Cas d’usage entreprise
  • Rédaction administrative
  • Q&A technique
  • Dialogue multilingue
03

Alignement & sécurité

  • Boucles de feedback humain
  • Couches de mitigation des biais
  • Safeguards de modération
  • Contraintes sensibles au domaine
04

Couche d’adaptation métier

  • Finance DSLM
  • Energy DSLM
  • Legal DSLM
  • Education DSLM
  • Telecom DSLM

Tokenisation

Optimisée pour la morphologie arabe et la syntaxe française.

Tassili utilise un tokenizer multilingue conçu pour mieux capturer la complexité morphologique de l’arabe tout en préservant la structure syntaxique du français et la précision technique de l’anglais.

L’architecture est pensée dès le départ pour le raisonnement multilingue, l’adaptation métier et le déploiement en production.