Model Architecture

Decoder-only transformer architecture for multilingual production inference.

Tassili is planned as a transformer-based model family optimized for multilingual tokenization, distributed training, and enterprise-ready deployment profiles.

Planned Model Sizes

A staged model family with different enterprise tradeoffs.

Tassili-7B

Efficient enterprise inference

Planned for lower-cost deployment profiles and faster inference across practical enterprise workloads.

Tassili-13B

Balanced reasoning and cost

Positioned as the most balanced variant for multilingual reasoning and operational affordability.

Tassili-34B

Advanced reasoning

Planned for deeper contextual understanding and more demanding reasoning tasks.

Training Strategy

A structured pipeline from pre-training to domain adaptation.

Pre-training

Curated multilingual corpus
Balanced French / Arabic / English / Darija token distribution
Deduplication and filtering
Quality-based dataset weighting

Estimated training scale target: multi-trillion token regime, scaled progressively.

Instruction tuning

Enterprise use cases
Administrative writing
Technical Q&A
Multilingual dialogue

Alignment & safety

Human feedback loops
Bias mitigation layers
Content moderation safeguards
Domain-sensitive output constraints

Domain adaptation layer

Finance DSLM
Energy DSLM
Legal DSLM
Education DSLM
Telecom DSLM

Tokenization Strategy

Optimized for Arabic morphology and French syntax.

Tassili uses a multilingual tokenizer designed to better capture Arabic morphological complexity while preserving French syntactic structure and English technical precision.

The architecture is built to support multilingual reasoning, domain adaptation, and production deployment from the outset.