SIFIRDAN AI YARATMAK

Türkçe tokenizer ile başlandı, her şeyin bir dil olduğu keşfedildi. Byte-pair encoding’den itibaren sıfırdan domain-spesifik AI.

PROJE BAĞLAMI & YOLCULUK

Neden başladık, ne keşfettik ve basit bir tokenizer sorusu tüm AI manzarasını nasıl açtı. Hikayenin tamamı.

Türkçe için özel BPE tokenizer. 64K kelime dağarcığı, GPT-4’e göre 2.7 kat verimli, GPT-2 regex hatası keşfi, kelime doygunluğu analizi.

İki model: 24.7M (v1) & 67.6M (v2). ALiBi, GQA, SwiGLU, RMSNorm. 3 tur + v2 ön-eğitim. 22 GB derlem, 2048 bağlam. v1 toplam $92.83.

V1: 3.790 çift (Opus 4.5). V2: 707 grup, 11 kural, Claude Sonnet 4.6 ile 7.595 çift. RAG-tabanlı pipeline tamamlandı.

BÖLÜM 5 • GELECEK

DPO tercih çiftleri veya RLVR. İsteğe bağlı — bu model ölçeğinde SFT kritik aşamadır.

DPO / RLVR OPSIYONEL

→