SIFIRDAN AI YARATMAK
Türkçe tokenizer ile başlandı, her şeyin bir dil olduğu keşfedildi. Byte-pair encoding’den itibaren sıfırdan domain-spesifik AI.
BÖLÜM 0 • YAYINDA
PROJE BAĞLAMI & YOLCULUK
Neden başladık, ne keşfettik ve basit bir tokenizer sorusu tüm AI manzarasını nasıl açtı. Hikayenin tamamı.
BÖLÜM 1 • YAYINDATOKENIZER ARAŞTIRMASI
Türkçe için özel BPE tokenizer. 64K kelime dağarcığı, GPT-4’e göre 2.7 kat verimli, GPT-2 regex hatası keşfi, kelime doygunluğu analizi.
BÖLÜM 2 & 3 • YAYINDAMİMARİ & ÖN-EĞİTİM
İki model: 24.7M (v1) & 67.6M (v2). ALiBi, GQA, SwiGLU, RMSNorm. 3 tur + v2 ön-eğitim. 22 GB derlem, 2048 bağlam. v1 toplam $92.83.
BÖLÜM 4 • YAYINDAİNCE AYAR (SFT)
V1: 3.790 çift (Opus 4.5). V2: 707 grup, 11 kural, Claude Sonnet 4.6 ile 7.595 çift. RAG-tabanlı pipeline tamamlandı.
BÖLÜM 5 • GELECEK
PEKİŞTİRMELİ ÖĞRENME
DPO tercih çiftleri veya RLVR. İsteğe bağlı — bu model ölçeğinde SFT kritik aşamadır.