SIFIRDAN AI YARATMAK

Türkçe tokenizer ile başlandı, her şeyin bir dil olduğu keşfedildi. Byte-pair encoding’den itibaren sıfırdan domain-spesifik AI.

BÖLÜM 0 • YAYINDA

PROJE BAĞLAMI & YOLCULUK

Neden başladık, ne keşfettik ve basit bir tokenizer sorusu tüm AI manzarasını nasıl açtı. Hikayenin tamamı.

BAĞLAM 12 BÖLÜM
BÖLÜM 1 • YAYINDA

TOKENIZER ARAŞTIRMASI

Türkçe için özel BPE tokenizer. 64K kelime dağarcığı, GPT-4’e göre 2.7 kat verimli, GPT-2 regex hatası keşfi, kelime doygunluğu analizi.

64K VOCAB 2.7x VERİMLİLİK
BÖLÜM 2 & 3 • YAYINDA

MİMARİ & ÖN-EĞİTİM

İki model: 24.7M (v1) & 67.6M (v2). ALiBi, GQA, SwiGLU, RMSNorm. 3 tur + v2 ön-eğitim. 22 GB derlem, 2048 bağlam. v1 toplam $92.83.

~44.7B TOKEN 506K+ ADIM
BÖLÜM 4 • YAYINDA

İNCE AYAR (SFT)

V1: 3.790 çift (Opus 4.5). V2: 707 grup, 11 kural, Claude Sonnet 4.6 ile 7.595 çift. RAG-tabanlı pipeline tamamlandı.

7.595 ÖRNEK 707 GRUP
BÖLÜM 5 • GELECEK

PEKİŞTİRMELİ ÖĞRENME

DPO tercih çiftleri veya RLVR. İsteğe bağlı — bu model ölçeğinde SFT kritik aşamadır.

DPO / RLVR OPSIYONEL