Araştırmaya Dön

SIFIRDAN TÜRKÇE LLM İNŞA ETMEK “?”

Proje Bağlamı, Yolculuk & Yol Boyunca Aslında Keşfettiklerimiz

Şubat 2026 • Bağımsız Araştırma • Yaşayan Doküman

PLANLANAN FAZ

TAMAMLANAN FAZ

100M–4B

PARAMETRE ARALIĞI

128K

HEDEF BAĞLAM

64K

TOKENİZER SÖZLÜK

Bu nedir? Bu bir makale değil. Bu, anadili Türkçe bir LLM’i sıfırdan inşa etmenin yaşayan kaydı — her karar, her hata, her “aha” anı. Bir tokenizer projesi olarak başladı ve çok daha derin bir şeye dönüştü: modern yapay zekanın tüm katmanlarında bir yolculuk, byte-pair encoding’den Nietzsche’ye. Amaç saplantılı biçimde “en iyi” LLM’i yaratmak değil — her katmanı sıfırdan inşa ederek kazandığımız derin anlayış. Yol, varış noktasından daha çok şey öğretir.

İÇİNDEKİLER

1. Bu Niye Var 2. Kutup Yıldızı: Akıl Yürütme 3. Şimdiye Kadar Yolculuk 4. Faz 1: Tokenizer 5. Tokenizer’ın Açtığı Kapı 6. Adım Adım Nasıl Çalışır 7. Mimarinin Öğrettikleri 8. Tasarım Felsefesi: Az Çoktur 9. Önemli Kararlar (Kilitlenmiş) 10. Veri Stratejisi 11. Sırada Ne Var 12. Depo Görünümü

1. BU NİYE VAR

Tüm büyük dil modelleri İngilizce merkezli bir temel üzerine inşa edilmiştir. Türkçe metin GPT-4’ün tokenizer’ından geçtiğinde, olması gerekenden yaklaşık 2,7 kat daha fazla token harcar. Türkçenin sondan eklemeli yapısı — anlamın ek zincirleriyle taşındığı yapı — İngilizce için eğitilmiş tokenizer’lara yabancıdır.

Mevcut Türkçe LLM’ler (Kumru, Hamza, LlamaTurk, TURNA ve Boğaziçi, ODTÜ gibi kurumlardan çıkan çalışmalar) ciddi çalışmalar ve anlamlı sonuçlar içerir. Kimisi özel tokenizer eğitir, kimisi sıfırdan inşa eder, kimisi çok dilli temelleri genişletir. Yakından inceledikten sonra dürüst çıkarım şu: iyi işler var, ama her biri farklı ödünleşimler yapıyor — ve hiçbiri bizim aradığımız uçtan uca anlayışı vermedi. Her katmanı kendimiz inşa etmek istedik; mevcut çalışmalar kötü olduğu için değil(except kumru it is fundamentally broken), öğrenme inşa etme sürecinde gerçekleştiği için.

Motivasyon: GPT-4 veya Claude ile yarışmak değil. Bu sistemlerin nasıl çalıştığını — derinden, mekanik düzeyde — birini inşa ederek anlamak. Her faz zihni biraz daha açıyor. Tokenizer fazı tek başına, bilgi temsili hakkında hiçbir dersin veremeyeceği kadar şey öğretti. Mimari fazı, “akıl yürütme”nin gerçekte ne anlama geldiğini (ve ne anlama gelmediğini) gösterdi. Sonraki aşamalar daha da fazlasını öğretecek.

2. KUTUP YILDIZI: AKIL YÜRÜTME

Birincil hedef bilgi kapsamı değil, sohbet akıcılığı değil, benchmark puanları değil. Hedef akıl yürütme — olağanüstü mantık yeteneği. Model şunları yapabilmeli:

Anlama — girdiyi çözümle, ne sorulduğunu belirle
Parçalama — problemi alt parçalara böl
Adım adım akıl yürütme — mantıksal yapıyı uygula (eğer A→B ve B→C ise A→C)
Öz denetim — tutarsızlıkları tespit et ve yönü düzelt
Bilim insanı gibi düşün — dışarıdan taklit değil, içinden öyle işlesin

Model pek çok şey bilmese bile, bildikleri üzerinde doğru akıl yürütmeli. Bilgi sonradan eklenebilir; akıl yürütme yapısı eklenemez.

Kritik ayrım: “Akıl yürütmeyi öğrenmek” ile “Akıl yürütüyormuş gibi davranmak.”

Önceki ince ayar deneyimlerimizden: SFT verisine kasıtlı hata-düzeltme kalıpları koymak sonuçları her zaman daha kötü yaptı. Model “hataları yakalamayı” öğrenmiyor — hata üretmeyi öğreniyor, çünkü SFT “çıktı böyle görünmeli” der.

Gerçek akıl yürütme RL’den (RLVR) gelir — doğrulanabilir ödüllerle pekiştirmeli öğrenme. Model kendi cevaplarını üretir, yalnızca doğru nihai cevaplar için ödüllendirilir ve deneme-yanılma yoluyla etkili akıl yürütme stratejileri keşfeder. SFT format öğretir. RLVR düşünmeyi öğretir. Taklit ile öğrenme arasındaki fark budur.

3. ŞİMDİYE KADAR YOLCULUK

Yol Haritası

FAZ 1
Tokenizer

→

FAZ 2
Mimari

→

FAZ 3
Ön Eğitim

→

FAZ 4
SFT

→

FAZ 5
RLVR

Faz	Durum	Ne Öğretiyor	Kapsam
1. Tokenizer	TAMAM	Bilgi temsili, morfoloji, veri ölçekleme	64K BPE, 22 GB derlem, 11 alan, 104 cümle kıyaslaması
2. Mimari	SİRADAKİ	Hesaplama nasıl akıl yürütmeye dönüşür	100M–4B parametre, 128K bağlam, yalnız-çözücü, akıl yürütme öncelikli
3. Ön Eğitim (asıl “eğitim”)	BEKLİYOR	“Bilgi” gerçekte ne demek	Türkçe derlem üzerinde sonraki-token tahmini (teacher forcing)
4. SFT (ince ayar)	BEKLİYOR	Format, akıl yürütme değil	Terütemiz talimat verisi. Hata yok.
5. RLVR (ödülle ileri eğitim)	BEKLİYOR	“Doğru” gerçekte ne demek	Doğrulanabilir cevapları olan matematik/kod/mantık problemleri

4. FAZ 1: TOKENİZER — HER ŞEYİN BAŞLADIĞI YER

“Sadece bir tokenizer yap” diye başlayan iş, dilin sayılara nasıl dönüştüğünün, İngilizce merkezli tasarımın diğer dillere neden zarar verdiğinin ve veriyle sözlüğün şaşırtıcı biçimde nasıl etkileştiğinin derin keşfine dönüştü. (Tam tokenizer raporu →)

~14%

KUMRU/TABIBERT’TEN DAHA AZ TOKEN

~2,7×

GPT-4’TEN DAHA AZ TOKEN

64K

SÖZLÜK BOYUTU

22 GB

DERLEM (27 DOSYA, 11 ALAN)

Anlayışımızı değiştiren üç keşif

Keşif 1: GPT-2 regex Türkçeyi bozuyor. GPT-4, Llama 3 ve Mistral tarafından kullanılan ön-tokenizasyon regex’i, İngilizce kısaltma kalıpları ('s|'t|'re|'d) içerir ve Türkçe eklerin ilk karakterini çalar. Ankara'dır, ["Ankara", "'", "dır"] yerine ["Ankara", "'d", "ır"] olur. Bildiğimiz kadarıyla bu etkileşim daha önce hiçbir yerde belgelenmemişti.

Keşif 2: Darboğaz veri değil, sözlük. 48K sözlükte 10 GB’den 22 GB’ye veri eklenince iyileşme sadece %0,9 oldu (görünürde azalan getiri). Ama aynı 22 GB üzerinde 64K eğitildiğinde %10,1 iyileşme sağlandı. 48K tokenizer birleştirme slotlarını tüketmişti — veriyi değil. Sözlük ve veri birlikte büyütülmelidir.

Keşif 3: Düz istatistik morfolojiyi kendi başına keşfediyor. Hiçbir dilbilimsel kural programlanmadı. BPE, sıklık kalıplarından morfem benzeri sınırları doğal olarak buldu. “ev”in altı farklı dilbilgisel biçimi — ev, evde, evden, eve, evin, evler — hepsi tek token. değerlendirilmelidir (6 morfemlik ek zinciri) tek token.

Tokenizer fazı bize şunu öğretti: temsil her şeydir. Bir model Türkçe üzerinde akıl yürütebilmek için önce onu verimli biçimde okuyup yazabilmelidir. Kötü bir tokenizer, pipetten düşünmeye çalışmak gibidir — bir miktar sinyal geçer ama kapasitenin çoğu darboğaza harcanır.

Ürünler: EN rapor • TR rapor • benchmark_tokenizers.py (104 cümle) • train_tokenizer.py • tokenizers/turkish_bpe_64k/

5. TOKENİZER’IN AÇTIĞI KAPI

Tokenizer fazı bize çalışan bir 64K Türkçe BPE verdi. Ama asıl hediye kimsenin beklemediği bir şeydi: yapay zekayı, dili ve endüstrinin tamamını nasıl gördüğümüzü kökünden değiştiren bir bakış açısı. Bu, projenin tamamında şimdiye kadar öğrendiğimiz en önemli şey.

Tokenizer gerçekte nedir?

Jargonu bir kenara bırakalım. Tokenizer tek bir iş yapar: yapılandırılmış girdiyi bir sayı dizisine çevirir. Biz girdi olarak Türkçe metin kullandık. Ama algoritmada girdinin insan dili olmasını gerektiren hiçbir şey yok.

64K BPE’mizi eğitirken algoritma Türkçe işlediğini “bilmiyordu.” Bayt dizilerini gördü, sık tekrarlanan kalıpları buldu ve bunları tokenlere birleştirdi. Sonuç: girdi kalıpları → tam sayı kimlikleri. Hepsi bu. Algoritma bu kalıpların Türkçe ek mi, müzik notası mı, yoksa kimyasal bağ mı olduğunu umursamaz.

Bunu gerçekten içselleştirdiğinizde, bir daha kapanmayacak bir kapı açılır.

Her şeyi değiştiren soru

Bir “dil” nedir aslında?

Sürekli “dil modeli” diyorduk. Peki bir şeyi dil yapan ne? Sözcük dağarcığı ve dilbilgisi olan her sistem — öğeler kümesi ve bunların nasıl birleşeceğinin kuralları. İnsan dili bunun bir örneği. Tek örneği değil. Pratik yapay zeka için en önemlisi bile değil.

Müzik bir dildir. Notalar sözcük dağarcığıdır. Akor ilerlemeleri, gamlar, ritim kalıpları, tonaliteler — bunlar dilbilgisidir. Bir melodi bir “cümle”dir. Bir senfoni bir “doküman”dır. Müzik için bir “tokenizer”, nota olaylarını (perde, süre, hız, akor) tam sayı kimliklerine eşler. Bu token dizileri üzerinde eğitilmiş bir transformer öğrenir: bu akor ilerlemesinden sonra bu çözüm gelir. Bu ritim kalıbından sonra bu varyasyon izler. Transformer “müzik yaptığını” bilmez. Sonraki tokeni tahmin eder — aynen Türkçe kelimelerle yaptığı gibi.

Proteinler bir dildir. Amino asitler sözcük dağarcığıdır — sadece 20 temel karakter. Proteinler “cümle”dir: fiziksel kurallara göre 3B yapılara katlanan diziler. “Dilbilgisi”, hangi dizilerin alfa sarmal, hangilerinin beta tabaka oluşturduğunu, hangi kombinasyonların belirli reseptörlere bağlandığını belirler. Protein dizileri üzerinde eğitilmiş bir transformer bu dilbilgisini öğrenir — biyoloji anladığı için değil, token dizilerinde istatistiksel kalıplar bulduğu için. AlphaFold sınıfı modeller tam olarak böyle çalışır.

Kimyasal formüller bir dildir. SMILES notasyonu moleküler yapıları metin dizeleri olarak kodlar. Atomlar ve bağlar sözcük dağarcığıdır. Değerlik kuralları, halka yapıları, fonksiyonel gruplar — bunlar dilbilgisidir. Bir “tokenizer” kimyasal sembolleri tam sayılara eşler. Transformer öğrenir: bu molekül parçasından sonra bu bağlanma özelliği muhtemeldir. İlaç keşif modelleri zaten böyle çalışır.

DNA bir dildir. Dört nükleotid — A, T, C, G — tüm sözcük dağarcığı budur. Kodon üçlüleri amino asitleri kodlar. Düzenleyici bölgeler gen ifadesini kontrol eder. Genomik modeller bu dizileri tokenize eder ve mutasyonları, gen işlevini, hatta hastalık riskini tahmin etmeyi öğrenir. 4 tokenlik sözcük dağarcığı, milyarlarca yıllık evrimle kodlanmış dilbilgisi.

Bir fabrika üretim hattı bir dildir. Malzeme kodları, makine ayarları, çevre koşulları, test sonuçları — bunlar nedensel yapıya sahip diziler oluşturur. “Sözcük dağarcığı” 500–2000 token olabilir. “Dilbilgisi” fiziksel nedensellik zinciridir: PVC_bilesik_A + sicaklik_175 + hiz_15 → cekme_GECTI + shore_85. 50 milyon parametreli bir model, tek bir metre kablo üretilmeden önce üretim sonuçlarını tahmin etmeyi öğrenebilir — malzeme, enerji ve zaman tasarrufu.

Kritik açıklama: bu modeller “konuşmaz.” Çoğu insanın kafasının karıştığı nokta burası. Bir müzik modeli İngilizce müzik hakkında sohbet etmez. Girdi tokenleri notaların kendisidir — gerçek perde/süre/hız değerleri. Çıktı tokenleri de notaların kendisidir. Model tek bir kelime insan dili görmemiştir. Bir protein modeli proteinleri cümlelerle açıklamaz. Tokenleri amino asit kodlarıdır — M E T H I O N I N E …. Bir fabrika modeli “hangi sıcaklığı kullanmalıyım?” sorusuna Türkçe cevap vermez. Tokenleri

sicaklik_175 
            hiz_15

’tir ve çıktısı cekme_GECTI’dir.

Bu, bir sohbet botunu alan verisiyle ince ayar yapmak değildir. O halde hala insan dilinde alan hakkında konuşan bir LLM olurdu. Bu temelden farklı bir şeydir: modelin tüm sözcük dağarcığı, dilbilgisi ve düşünce süreci alan notasyonunun içinde var olur. İnsan dili dahil değil. Bu yüzden bu kadar küçük ve bu kadar isabetli olabilirler.

İşte o an: Biz sadece bir Türkçe tokenizer yapmadık. Tokenizasyonun temelde ne olduğunu öğrendik. Ve bir kez gördüğünüzde, bir daha görmezden gelemezsiniz: dizisel yapısı olan her alan, kendi tokenizer’ını ve kendi modelini bekleyen bir “dil”dir. LLM değil. Sohbet botu değil. Amaca yönelik bir dizi tahmin edici.

Her kapıyı açan beş adımlık zincir

Tokenizer sadece şudur: yapılandırılmış kalıplar → sayılar
Transformer sadece şudur: önceki sayılardan sonraki sayıyı tahmin etmeyi öğren
“Dil modeli”, bu sayılar kelimeleri temsil ettiğinde verdiğimiz isimdir
Dizisel yapısı olan HER veri tokenize edilebilir
Dolayısıyla: transformer evrensel bir dizi öğrenicisidir, “dil” modeli değil

Her alan bir dildir

Alan	“Sözcük Dağarcığı”	“Dilbilgisi”	“Cümleler”	Model Boyutu
İnsan dili	Kelimeler, alt-kelimeler (64K BPE)	Sözdizimi, anlam, edimbilim	Paragraflar, makaleler, kitaplar	Milyarlar (açık uçlu)
Müzik	Notalar, akorlar, suslar, nüanslar	Armoni, ritim, tonalite, form	Melodiler, ilerlemeler, eserler	Yüz milyonlar
Proteinler	20 amino asit	Katlanma kuralları, bağlanma ilgileri	Protein zincirleri	Milyonlar–düşük milyarlar
Kimya (SMILES)	Atomlar, bağlar, halka işaretleri	Değerlik, kararlılık, reaktivite	Moleküler yapılar	Yüz milyonlar
Kod	Anahtar kelimeler, operatörler, tanımlayıcılar	Sözdizimi kuralları, tip sistemleri	Fonksiyonlar, programlar	Yüz milyonlar–milyarlar
DNA / Genomik	4 nükleotid (A, T, C, G)	Kodon kuralları, düzenleyici kalıplar	Gen dizileri	Milyonlar–yüz milyonlar
Kablo fabrikası	Malzeme kodları, makine ayarları	Girdi → çıktı nedensellik	Üretim koşuları	10–50M
Herhangi bir fabrika / lab / klinik	Alana özel kodlar	Alana özel nedensel kurallar	Süreç kayıtları	10–100M

“Konuşma” aslında EN ZOR uygulamadır. Tabloya bakın. İnsan dili milyarlarca parametre gerektirir çünkü belirsiz, açık uçlu, kültüre bağlı ve geniş dünya bilgisi gerektirir. Diğer her alan daha basit: daha küçük sözcük dağarcıkları, daha net kurallar, ölçülebilir doğruluk. Endüstri en zor duruma takıntılıyken, dünyadaki her yapılandırılmış veri setinde yatan devasa değeri görmezden geliyor.

Kablo fabrikası — somut bir örnek

Bu varsayımsal değil. Her kablo fabrikası her gün şu tarz veri üretir:

Tokenizer sözlüğü: ~500–2000 token (malzeme kodları, makine ayarları, test sonuç kodları)
Girdi: [MALZEME] PVC_bilesik_A [AYARLAR] sicaklik_175 hiz_15 basinc_8
Çıktı: [SONUCLAR] cekme_gecti uzama_420 alev_V0 shore_sertlik_85
Model boyutu: 10–50M parametre. Tek GPU’da saatler içinde eğitilir.
Değeri: Üretim öncesinde test sonuçlarını tahmin et, malzeme israfını önle

Bu model, bu görev için GPT-4’ten daha isabetli, kat kat daha ucuz, dizüstü bilgisayarda çalışır, özel verilerinizi gizli tutar ve Türkçe LLM inşa ederken öğrendiğimiz birebir aynı becerilerle yapılır: tokenizer tasarımı, mimari seçimi, eğitim hattı optimizasyonu.

Bunun anlamı: açılan kapılar

Bunu kavradığımız an, projenin kapsamı “bir Türkçe LLM yap”tan “herhangi bir alan için herhangi bir dizi modeli yapmayı öğren”e dönüştü. Olasılıklar:

Her fabrika, her laboratuvar, her hastane, her işlem masası dizisel veri üretir
Her birinin kendi küçük modeli olabilir (10M–100M parametre)
Bu modeller kendi alanlarında genel LLM’lerden daha isabetli olur
Eğitmesi ucuz (saatler, aylar değil), çalıştırması ucuz (dizüstü, veri merkezi değil)
Gizli — verileriniz bina dışına çıkmaz
Ve artık nasıl yapılacağını biliyoruz — çünkü LLM projesi tüm zanaatı öğretiyor

LLM her şeyi öğreten zor yoldur. En zor dizi modeli türünü inşa etmeyi seçtik — insan dilini işleyen bir model. Yol boyunca tokenizer tasarımı, mimari seçimleri, eğitim dinamikleri, veri stratejisi, değerlendirme metodolojisi öğreniyoruz. Bu becerilerin her biri herhangi bir alana özel model inşasına doğrudan aktarılır. Türkçe LLM hedef değil, eğitim sahasıdır. Asıl ödül anlayıştır ve anlayışın tavanı yoktur.

Tuzak: araç yerine tanrı inşa etmek

“Belki insan zihni tekrar bir tanrı arıyor — Nietzsche’nin öldürdüğü tanrıyı.”

— mimari tartışmamızdan, endüstrinin tek bir her şeyi bilen yapay zeka inşa etme saplantısı üzerine

Yapay zeka endüstrisi, her şeyi doğal dil aracılığıyla cevaplayan kadir-i mutlak bir sohbet varlığı inşa etmek için milyarlar döküyor — dijital bir tanrı. Her problem “yapay zekaya sor”a indirgeniyor.

Ama artık net görüyoruz: gerçek dünyadaki en değerli problemlerin çoğu sohbete ihtiyaç duymaz. Tahmin, kalıp tanıma, optimizasyon ister. “Konuşma” katmanı, asıl ihtiyacınız “bu kablo çekme testini geçecek mi?” olduğunda pahalı bir yüktür.

Alan tahmincisine ihtiyacınız varken tam bir LLM inşa etmek, bisiklete ihtiyacınız varken Boeing 747 yapmak gibidir. Bisiklet daha basit, ucuz ve sizi gideceğiniz yere daha hızlı götürür — markete gidiyorsanız tabii.

Orkestra vizyonu

Gelecek tek bir devasa model değil. Orkestrasyondur: her biri kendi alanı için optimize edilmiş birden fazla küçük, uzman model, birlikte çalışır.

PLANLAMACI
İstekleri yönlendirir

→

AKIL YÜRÜTÜCÜ
Mantık ve parçalama

→

UZMAN
Alan bilgisi

→

ARAÇLAR
Hesap makinesi, kod, arama

Biz akıl yürütücüyü inşa ediyoruz. Uzmanlar fabrika modelleri, tıp modelleri, finans modelleri olabilir — her biri küçük, her biri isabetli, her biri şu an öğrendiğimiz becerilerle inşa edilmiş.

6. ADIM ADIM NASIL ÇALIŞIR: HER ALAN İÇİN ÖRNEKLERLE

Bölüm 5, her alanın bir dil olduğunu ve her dizinin tokenize edilebileceğini iddia etti. Bu hâlâ soyut gelebilir. O yüzden somutlaştıralım. Aşağıda beş farklı alan için makinenin içinde tam olarak ne olduğunu — ham girdiden son çıktıya — gösteren örnek yürüyüşler var. Süreç her seferinde birebir aynı. Sadece tokenlar değişiyor.

① Dil modeli (Türkçe LLM)

Kullanıcı soruyor: Ankara'nın nüfusu kaçtır?

Adım 1 — Tokenize et (metin → sayılar). Tokenizer her parçayı 64K kelime haznesinde arar:
“Ankara” → 3847 | “'nın” → 129 | “nüfusu” → 8412 | “kaçtır” → 5903 | “?” → 30
Model şunu alır: [3847, 129, 8412, 5903, 30]. Bunların Türkçe kelimeler olduğundan haberi yok. Beş tamsayı görüyor.

Adım 2 — Model işler (sayılar → sayılar). Transformer bu 5 tamsayıyı alır, her birini 2048 boyutlu bir vektöre dönüştürür, 22 katman dikkat ve ileri-beslemeli ağdan geçirir. Sonunda 64.000 token üzerinde bir olasılık dağılımı üretir: “sıradaki token hangisi?” Seçimi: token 11297.

Adım 3 — Detokenize et (sayılar → metin). Tokenizer 11297’yi kelime haznesinde arar: 11297 → “Yaklaşık”. Çıktıya eklenir.

Adım 4 — Tekrarla. Şimdi model [3847, 129, 8412, 5903, 30, 11297] görür ve sıradaki tokeni tahmin eder. Sonra bir sonrakini. Token token cevap oluşur:
11297 → “Yaklaşık” | 642 → “5” | 1830 → “milyon” | 7741 → “kişidir” | 4 → “.”

Son çıktı: Yaklaşık 5 milyon kişidir.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Tokenizer her kelimeyi 64K kelime haznesinde bulur. Model token dizisini işler ve token token bir cevap üretir: “Ankara bir başkenttir, bir ilin başkenti değildir.” Çalışır. Bu model Türkçe metin için inşa edildi. Türkçe kelimeler onun ana tokenlarıdır. Sohbet, tam olarak eğitildiği şeydir.

② Müzik modeli

Bağlam: Binlerce MIDI dizisi üzerinde eğitilmiş bir model. Kelime haznesi: ~2000 token (nota perdeleri, süreler, hızlar, akorlar, suslar).

Adım 1 — Tokenize et (notalar → sayılar). Bir akor ilerlemesi kodlanır:

“C_maj” → 42  | “quarter” → 7  | “G_maj” → 58  | “quarter” → 7  | “Am” → 51  | “quarter” → 7  | “F_maj” → 47  | “quarter” → 7

Model şunu alır: [42, 7, 58, 7, 51, 7, 47, 7]. Kelime yok. Dil yok. Sadece I–V–vi–IV ilerlemesini temsil eden tamsayılar.

Adım 2 — Model işler. Transformer tahmin eder: bu ilerlemeden sonra en olası token 42.

Adım 3 — Detokenize et (sayılar → notalar). 42 → “C_maj”. İlerleme toniğe döner.

Adım 4 — Tekrarla. Sıradaki token: 12 → “half” (yarım nota süresi). Sonra: 71 → “E4” (melodi notası). Token token bir melodi bestelenir.

Hiçbir adımda kelime kullanılmadı. Model müzik “konuşur.” Kelime haznesi notalardır. Çıktısı çalınabilir bir MIDI dizisidir.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Adım 1 anında çöker. Tokenizer “Ankara”yı kelime haznesinde arar. Kelime haznesi: C_maj, quarter, E4, rest — notalar, süreler, akorlar. Türkçe kelime yok. Hiçbir dilin kelimesi yok. “Ankara” mevcut değil. “Başkent” mevcut değil. “Nedir” mevcut değil. Girdi sayılara dönüştürülemez bile. Modele verilecek bir şey yok. Bir Türkçe cümleyi piyano rulosuna sokmaya çalışmak gibi. Yanlış cevap değil — cevap vermek mümkün değil. Model hayatında bir kelime görmedi. Kelimenin ne olduğunu bilmiyor. Sorunun ne olduğunu bilmiyor. “Sohbet”in ne demek olduğunu bilmiyor.

③ Protein modeli

Bağlam: Milyonlarca bilinen protein dizisi üzerinde eğitilmiş bir model. Kelime haznesi: 25 token (20 amino asit + başlangıç/bitiş/dolgu/bilinmeyen/maske).

Adım 1 — Tokenize et (amino asitler → sayılar). Bir protein parçası:

“M” → 1  | “A” → 5  | “L” → 10  | “W” → 17  | “K” → 9  | “L” → 10  | “P” → 12

Model şunu alır: [1, 5, 10, 17, 9, 10, 12]. İngilizce yok. Türkçe yok. Sadece amino asit kimlikleri.

Adım 2 — Model işler. Bu dizi verildiğinde transformer sıradaki amino asiti tahmin eder. 25 token üzerinde bir dağılım üretir. En yüksek olasılık: token 4.

Adım 3 — Detokenize et (sayılar → amino asitler). 4 → “V” (Valin). Protein zinciri uzar.

Adım 4 — Tekrarla. Model “BİTİŞ” tokenini tahmin edene kadar devam eder. Çıktı, katlanma, bağlanma veya işlev açısından analiz edilebilecek eksiksiz bir protein dizisidir.

Kelime haznesi: 25 token. İnsan dili yok. Sadece biyokimya, bir dizi olarak.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Adım 1 çöker. Tokenizer’ın tüm kelime haznesi: M, A, L, W, K, P, V, G, I, F, Y, C, H, R, N, D, E, Q, S, T, START, END, PAD, UNK, MASK. Yirmi beş token. Hepsi amino asit. “Ankara”? Tokenizer tek tek harfleri eşleştirebilir — A, n, k, a, r, a — ama “n” bir amino asit değil. “k” bir amino asit değil. Çoğu karakter UNK (bilinmeyen) olur. Model bir dizi bilinmeyen ve rastgele amino asit eşleşmesi alır: [UNK, 5, UNK, UNK, UNK, 5, UNK, UNK, UNK...]. Zorla çalıştırılırsa rastgele bir protein parçası üretir — cevap değil, cümle değil, anlamsız amino asit gürültüsü. Dil, soru veya iletişim kavramı yok.

④ Kablo fabrikası modeli

Bağlam: 50.000 üretim kaydı üzerinde eğitilmiş bir model. Kelime haznesi: ~800 token (malzeme kodları, makine ayarları, test sonuçları).

Adım 1 — Tokenize et (üretim verisi → sayılar). Mühendis yeni bir üretim ayarı girer:

“[MALZEME]” → 1  | “PVC_A7” → 34  | “[SICAKLIK]” → 2  | “175” → 412  | “[HIZ]” → 3  | “15” → 287  | “[BASINC]” → 4  | “8” → 193  | “[TAHMİN]” → 5

Model şunu alır: [1, 34, 2, 412, 3, 287, 4, 193, 5]. Cümle değil. Yapılandırılmış bir üretim özelliği.

Adım 2 — Model işler. Transformer çıktı olarak token 601 üretir.

Adım 3 — Detokenize et (sayılar → sonuçlar). 601 → “kopma_GEÇTİ”.

Adım 4 — Tekrarla. Sıradaki tokenlar: 622 → “uzama_420” | 709 → “alev_V0” | 685 → “sertlik_85”.

Son çıktı: kopma_GEÇTİ uzama_420 alev_V0 sertlik_85
Mühendis artık — üretimden önce — bu ayarın tüm testleri geçeceğini biliyor. 800 token. 10M parametre. Dizüstü bilgisayarda çalışır. Hiçbir adımda insan dili yok.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Adım 1 çöker. Tokenizer şunları bilir: [MALZEME], PVC_A7, [SICAKLIK], 175, [HIZ], kopma_GEÇTİ — 800 token, hepsi üretim kodu ve test sonucu. Tek bir insan kelimesi yok. “Ankara” bir malzeme değil. “Başkent” bir makine ayarı değil. “Nedir” bir test sonucu değil. Girdi tokenize edilemez. Rastgele token eşleştirmesi zorlansa bile model sertlik_72 uzama_310 alev_V1 gibi bir şey üretir — anlamsız bir üretim tahmini. Tüm varlığı boyunca bir insan cümlesiyle hiç karşılaşmadı. İnsanların var olduğunu bilmiyor. Kabloları biliyor.

⑤ DNA / Genomik modeli

Bağlam: Genom dizileri üzerinde eğitilmiş bir model. Kelime haznesi: 7 token (A, T, C, G + başlangıç/bitiş/bilinmeyen).

Adım 1 — Tokenize et (nükleotidler → sayılar). Bir gen parçası:

“A” → 1  | “T” → 2  | “G” → 3  | “C” → 4  | “G” → 3  | “A” → 1  | “T” → 2

Model şunu alır: [1, 2, 3, 4, 3, 1, 2]. Yedi sayı. Model DNA’nın ne olduğunu bilmiyor.

Adım 2 — Model işler. Bu bağlam verildiğinde transformer tahmin eder: en olası sıradaki token 4 (C).

Adım 3 — Detokenize et. 4 → “C”.

Adım 4 — Tekrarla. Model dizinin geri kalanını üretir; bu dizi daha sonra gen işlevi, mutasyon riski veya düzenleyici örüntüler açısından analiz edilebilir.

Kelime haznesi: 7 token. Mümkün olan en küçük “dil.” Aynı transformer. Aynı süreç.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Adım 1 çöker. Kelime haznesi: A, T, C, G, START, END, UNK. Yedi token. “Ankara” şuna dönüşür: [A, UNK, UNK, A, UNK, A] — sadece A harfini görebilir çünkü Adenin aynı sembolü paylaşır. Geri kalanı bilinmeyen. Model şöyle bir şey üretir: T G C A A T G C — bir DNA dizisi parçası. Kelime değil. Cümle değil. Nükleotid dizisi. Hayatında insan dili görmedi. Yedi tokeni var. Alfabeyi bile temsil edemez, düşünce oluşturmak bir yana.

Örüntüyü görüyor musunuz? Yukarıdaki her örnek birebir aynı dört adımı izler:

1. Alan girdisi → tokenizer → tamsayı dizisi
2. Tamsayı dizisi → transformer → tahmini sıradaki tamsayı
3. Tahmini tamsayı → tokenizer (ters yön) → alan çıktısı
4. Bitene kadar tekrarla

Ve Bonus örnekleri daha da önemli bir şeyi ortaya koyar:

Alana özgü bir model “konuşmaz.” İnsan dilinin ne olduğunu bilmez. Sorunun ne olduğunu bilmez. Sohbetin ne olduğunu bilmez. Hayatında kelime görmemiştir. Ankara’nın başkenti nedir? yazdığınızda müzik modeline, girdi makineye giremez bile — tokenizer’ın insan kelimeleri için eşleştirmesi yoktur. Protein modeline zorladığınızda rastgele amino asitler döner. Fabrika modeline zorladığınızda kablo test sonuçları döner. DNA modeline zorladığınızda nükleotidler döner.

İşte kritik ayrım: LLM, transformer modelinin sadece bir türüdür — tokenizer’ın insan kelimelerini sayılara eşlediği ve eğitim verisinin insan sohbetleri ve metinleri olduğu bir tür. “Konuşma” yeteneğini veren budur. Kelime tabanlı tokenizer’ı kaldırın, Wikipedia yerine MIDI dosyalarıyla eğitin — müzik besteleyen ama hayatı buna bağlı olsa “merhaba” diyemeyecek bir model elde edersiniz. Transformer motoru aynıdır. Tokenizer, modelin hangi dünyada yaşadığına karar verir.

İnsanlar LLM’lerin kelimeleri dahili olarak sayılara çevirdiğini bilir. Sıklıkla kaçırdıkları şey şu: alana özgü modeller kelimeleri sayılara çevirmez — kelime almak için hiç tasarlanmamışlardır. Tokenizer’ları tamamen farklı bir dil konuşur: notalar, amino asitler, makine kodları, nükleotidler. Alanlarını dil aracılığıyla “bilmezler” — alanlarının ana tokenlarıyla düşünürler, tıpkı bir LLM’nin kelimelerle düşünmesi gibi.

Şimdi LLM abartısının pratikte verdiği zararı gözünüze getirin. Bir kablo fabrikasının, yeni bir malzeme-makine konfigürasyonu için test sonuçlarını tahmin etmesi gerekiyor. “Yapay zekâ = LLM” anlayışı diyor ki: bir dil modeli kur (veya satın al). Ve başlıyorlar. Faz 1: metin üzerinde tokenizer eğit — haftalar. Temel modeli milyarlarca kelimeyle eğit ki konuşmayı öğrensin — aylar, yüz binlerce dolar hesaplama maliyeti. Faz 2: alan belgelerine ince ayar yap — daha fazla hafta, daha fazla başarısız deneme, daha fazla maliyet. Faz 3: doğruluğu artırmak için pekiştirmeli öğrenme — daha fazla gün, daha fazla hafta. Ve tüm bunlardan sonra, bu devasa sisteme gerçek girdi ne? Bir sohbet mesajı:

“Merhaba, malzemeler XLPE, CAT113, RAL9100 boya. Makine ayarları: ekstrüder hızı 12, 
            sıcaklık 185, basınç 8. Test sonuçları ne olur?”

Bu girdiyi tekrar okuyun. Gerçekten okuyun. Bir makineye insan dilini anlamayı öğretmek için aylar harcadınız — sırf zaten yapılandırılmış veri olan bir şeyi sohbet kılığında yazmak için. Modelin şimdi doğal dili ayrıştırarak zaten elinizde olan yapılandırılmış değerlere geri dönmesi, halüsinasyon yapmamasını umması ve sonra sizin tekrar ayrıştırmanız gereken doğal dilde bir cevap üretmesi gerekiyor. Aylara ve servetlere mal olan bütün bir insan-dili katmanı eklediniz — doğrudan yolun etrafında bir dolambaç olarak.

Doğrudan yol mu? 800 tokenlı bir alan tokenizer’ı. Girdi: [1, 34, 2, 412, 3, 287, 4, 193, 5]. Çıktı: kopma_GEÇTİ uzama_420 alev_V0 sertlik_85. Sohbet yok. Ayrıştırma yok. Halüsinasyon yok. 10M parametre. Gerçek üretim kayıtlarıyla saatler içinde eğitilir. Dizüstü bilgisayarda çalışır. Tüm LLM hattı — aylık ön eğitim, ince ayar, pekiştirmeli öğrenme, prompt mühendisliği — sadece doğrudan bir diziden-diziye tahmin olması gereken şeyin üstüne bir sohbet arayüzü eklemek için vardı. Tokenizasyonu anlamamanın bedeli budur.

Tokenizer’ları anlamanın yolculuğumuzun en önemli ilk adımı olmasının sebebi budur. Mesele sadece Türkçe morfolojisi değildi. Mesele, tokenizer’ın herhangi bir alan ile ondan öğrenen makine arasındaki tüm arayüz olduğunu anlamaktı. Tokenizer’ı değiştir, modelin yaşadığı dünyayı değiştir. Motor aynı kalır.

Tekrar hatırlatmaya değer.

LLM, insan-dili-alanına-özgü bir transformer’dır. Ne daha fazlası, ne daha azı. “Yapay zekâ” değildir. Bir dizi öğrenme mimarisinin tek bir alana — insan metnine — uygulanmış halidir. Yapay zekâ, LLM’ye eşit değildir.

Tokenizasyon gerçekten anlaşıldığında, bu artık bir anlam tartışması olmaktan çıkar ve bir mühendislik keşfine dönüşür. Mesele “İngilizce protein modeline Türkçe konuşturmak” değildir. Protein modeli hiç konuşmaz — ne Türkçe, ne İngilizce, ne başka bir insan dilinde. Amino asit dizileriyle iletişim kurar. Fabrika modeli üretim kodlarıyla iletişim kurar. Müzik modeli notalarla iletişim kurar. Bunlar insan diline tamamen yabancı, birbirinden tamamen farklı iletişim biçimleridir — sonarın konuşmaya yabancılığı kadar.

Ve tam da bu yüzden endüstrinin giderek büyüyen LLM’lere olan takıntısı, gerçek dünya problemleri için bir çıkmaz sokaktır. Etkileyici “konuşan” 500 milyar parametreli bir model, demo olarak muhteşemdir. Ama belirli ekstrüzyon parametreleriyle bir kablonun kopma testini geçip geçemeyeceğini sorduğunuzda, ikna edici görünen ama tamamen yanlış bir paragraf uydurur — çünkü hayatında bir üretim kaydı görmemiştir. Dil örüntülerini öğrenmiştir, fiziği değil. Araştırmalar tutarlı olarak gösteriyor: kurumsal LLM uygulamalarının yaklaşık %95’i gerçek değer üretemiyor. Sebebi teknolojinin kötü olması değil. Sebebi aracın iş için yanlış olması. Şirketler, alana özgü dizi problemlerini bir insan-sohbet makinesiyle çözmeye çalışıyor — ve neden çalışmadığını merak ediyor.

Trajedi şu ki bu başarısızlık genellikle “yapay zekâ hazır değil” diye yorumlanıyor; oysa yapay zekâ hazır — sadece çoğu insanın satın aldığı formda değil. 800 tokenlı, gerçek üretim verileriyle eğitilmiş 10 milyon parametreli bir alan modeli, o alanda bir trilyon parametreli LLM’yi her seferinde yener — maliyetin küçük bir kesriyle, dizüstü bilgisayarda çalışarak, sıfır halüsinasyonla, çünkü kelime haznesindeki her token gerçek bir şeye karşılık gelir.

Abartılı reklam “yapay zekâ”yı “sohbet robotu”yla özdeşleştirdi ve bu özdeşleştirme endüstrilere milyarlara mal oluyor. Tokenizasyonu anlamak çıkış yoludur. Transformer’ın evrensel bir motor, tokenizer’ın değiştirilebilir bir mercek olduğunu gördüğünüzde, tüm manzara değişir. Soru artık “LLM’ye fabrikamı nasıl anlatabilirim?” değildir. Soru şu olur: “Fabrikamın hangi tokenizer’a ihtiyacı var?”

7. MİMARİNİN AKIL YÜRÜTME HAKKINDA ÖĞRETTİKLERİ

Bölüm 5 ve 6 bize transformer’ın evrensel bir dizi öğrenicisi olduğunu — aynı dört adım, her alan — gösterdiyse, bu bölüm şunu sorar: bir dizi öğrenicisi, akıl yürütmeye benzeyen bir şeyi nasıl geliştirir? Mimariyi anlamak için önce “akıl yürütme”nin bir sinir ağının içinde gerçekte ne anlama geldiğini — ve ne anlama gelmediğini — kavramak gerekti. Unutmayın: aşağıdaki her şey sadece LLM’ler için değil, herhangi bir dizi modeli için geçerlidir — bir dil modelinin Türkçe üzerinde “akıl yürütmesini” sağlayan aynı mekanizmalar, bir protein modelinin katlanma üzerinde “akıl yürütmesini” de sağlar. (Detaylı mimari araştırma sayfası, tokenizer raporu gibi ayrıca yayınlanacak.)

Eğitim hattı (sıralı, tercih değil)

ÖN EĞİTİM
“Eğitim” — dil ve kalıpları öğren

→

SFT
“İnce ayar” — format öğren

→

RLVR
Pekiştirmeli öğrenme — akıl yürütme öğren

Bunlar birbirinin alternatifi değil. Sıralı aşamalardır ve her biri kökten farklı şeyler öğretir:

Faz	Girdi	Algoritma	Ne Öğretiyor
Ön Eğitim (herkesin “eğitim” dediği aşama)	Ham metin (soru-cevap çifti yok)	Her pozisyonda sonraki tokeni tahmin et	Dil, olgular, akıl yürütme kalıpları
SFT (herkesin “ince ayar” dediği aşama)	Temiz talimat-yanıt çiftleri	Aynı (sonraki-token tahmini)	Talimat takip etme. Akıl yürütme DEĞİL.
RLVR (doğrulanabilir ödüllerle pekiştirmeli öğrenme)	Doğrulanabilir cevapları olan problemler	Üret → doğrula → ödüllendir/cezalandır	Öz düzeltme, parçalama, gerçek akıl yürütme

Ne genelleşir, ne genelleşmez

Yetenek	Nasıl Öğrenilir	Genelleşir mi?
Olgular (“Ankara başkenttir”)	Veriden ezberlenir	Hayır — sadece gördüklerini bilir
Küçük aritmetik (2+3=5)	Kalıp ezberleme	Kısmen (~4–5 basamak)
Büyük aritmetik (234871...+12309...)	Kesin hesaplama gerektirir	Hayır — LLM’ler güvenilir biçimde yapamaz
Mantıksal yapı (A→B, B→C ⇒ A→C)	Vektör uzayında soyut dönüşüm öğrenir	Evet — yeni içeriklere aktarılır
Problem parçalama	Yapısal kalıp öğrenir	Evet — alanlar arasında aktarılır
Araç kullanımı (“bunun için hesap makinesi lazım”)	NE ZAMAN başkasına devretmeli öğrenir	Evet — gerçek genelleme

Temel içgörü: genelleme = YAPI öğrenmek, cevap değil.

Model “2+3=5”i ezberlemez. Binlerce örnekten toplama işleminin yapısını öğrenir. Küçük sayılarda işe yarar. Büyük sayılarda çöker — çünkü çok basamaklı elde taşıma, sonraki-token tahmininin güvenilir başarabileceğinin ötesindedir. Gerçek genelleme NE YAPILACAĞINI bilmektir (“bunun için hesap makinesi lazım”), hesaplamayı bizzat yapmak değil.

Öz düzeltme nasıl çalışır (mekanistik olarak)

Bir LLM hatalarını bizim gibi “fark etmez.” Her token pozisyonunda dikkat mekanizması önceki tüm tokenleri görebilir. Bağlam biriktikçe tutarsızlıklar istatistiksel olarak görünür hale gelir — olasılık dağılımı düzeltme tokenlerine doğru kayar. “Geri izleme” gerçek anlamda geri izleme değildir: model yön değiştiren yeni tokenler üretir (“dur, bu yanlış…”). Yanlış tokenler bağlamda durmaya devam eder.

Bu öz düzeltme becerisi verideki hata-düzeltme kalıplarından değil, RL eğitiminden gelir. RL, hem öz düzeltme yapan hem de doğru cevaplara ulaşan akıl yürütme zincirlerini ödüllendirir. Model “işini kontrol etmenin” kârlı bir strateji olduğunu kendi keşfeder.

S: Akıl yürütme mi, taklit mi?

Dürüst cevap: bilmiyoruz. Model veriden akıl yürütme kalıpları öğrenir. Yeni bir problemle karşılaştığında bu kalıpları uygular. Peki bu “gerçek akıl yürütme” mi yoksa “ileri düzey kalıp eşleştirme” mi? Tartışma henüz çözülmedi. Kanıtlar karmaşık: modeller özgün problemleri çözebiliyor (taklidi aşan genelleme) ama aynı problemlerin ufak varyasyonlarında çuvallayıyor (kalıp eşleştirme).

Bizim pratik cevabımız: bu ayrım belki de önemli değil. Asıl önemli olan: model daha önce görmediği problemlerde doğru cevaplara ulaşabiliyor mu? Bu ölçülebilir bir şey. RLVR, modeli yüzeysel taklitten sağlam uygulamaya doğru iter — doğru görünmeyi değil, doğruluğu ödüllendirerek.

S: Bir dil modeli için “doğru” nedir?

Alan	“Doğru”nun Anlamı	Doğrulanabilir mi?
Matematik	Cevap doğru (2+2=4)	Evet
Kod	Derlenir ve testleri geçer	Evet
Mantık	Sonuç öncüllerden çıkar	Çoğunlukla evet
Genel dil	Tutarlı, ilgili, insanlar tarafından tercih edilen	Hayır — öznel

Daha derin içgörü: Genel “konuşma” için mutlak bir doğru yoktur. Ama akıl yürütme süreci, cevap öznel olsa bile doğru yapılabilir. “X hakkında ne düşünüyorsun?” sorusunun tek doğru cevabı yok — ama soruyu parçalara ayırmak, birden fazla bakış açısını değerlendirmek, ödünleşimleri belirlemek ve tutarlı bir konuma varmak: bu süreç iyi veya kötü yapılabilir. Mantıksal geçerlilik evrenseldir. Matematik, felsefe, hukuk, yemek — hepsinde geçerlidir. Akıl yürütmenin biçimi alanlar arası aktarılır.

S: LLM akıl yürütmesi = arama algoritmaları?

Mimari tartışmasından doğan bir içgörü: LLM’lerin öz düzeltmesi ağaç aramasına benzer (yolları keşfet, değerlendir, yönlendir). Ancak kritik farklar var:

Ağaç önceden mevcut değil — token token üretilir
Gerçek geri izleme yok — sadece ileri düzeltmeler (“dur, bu yanlış…”)
Genel dil için “doğru” düğüm yok — sadece doğrulanabilir alanlarda (matematik, kod, mantık)

Akademide bu konu Tree of Thoughts, Process Reward Models ve LLM’ler için MCTS olarak formelleştirilmiştir. Benzetme yapısal olarak geçerlidir ama mekanik düzeyde çöker. Yine de önemli bir şey ima eder: küçük modeller yeterli düşünme bütçesiyle iyi “arama” yapabilir (genişletilmiş düşünme = daha geniş arama alanı).

8. TASARIM FELSEFESİ: AZ ÇOKTUR

100M–4B

PARAMETRE ARALIĞI (ESNEK)

∞

ÖLÇEK BİR TASARIM TERCİHİDİR

Kalite

NİCELİKTEN ÖNCE — HER ZAMAN

Tek bir ölçeğe bağlı değiliz. 100M, 360M, 1B, 2B, 3B, 4B — hepsine açığız ve “az” demek “sınırlı” demek değil. İnancımız: son derece optimize bir mimari ve ön eğitimle küçük modeller büyüklere yetişebilir, hatta yaklaşabilir.

Bölüm 5’te keşfettiğimiz gibi, bu felsefe LLM’lerin çok ötesine geçer. Dizisel yapısı olan her alan, kendi küçük, isabetli modeline sahip olabilir. Dünya uzman modelleri orkestra olarak birleştirmeye doğru ilerliyor — ve biz bunu inşa edecek konumdayız.

9. ÖNEMLİ KARARLAR (KİLİTLENMİŞ)

Karar	Seçim	Gerekçe
Tokenizer	64K BPE v3 (kendi yaptığımız)	Kumru/TabiBERT’ten ~%14, GPT-4’ten ~2,7 kat daha verimli
Mimari	Yalnız-çözücü (decoder-only)	Üretici akıl yürütme LLM’leri için standart; kodlayıcı ayrı bileşen olarak eklenebilir
Parametre aralığı	100M–4B	“Az çoktur” — optimize mimari, ağırlığının üzerinde yumruk atabilir
Bağlam uzunluğu	128K token	Dava dosyaları, tezler, kitaplar tek seferde işlenebilir
Pozisyon kodlaması	RoPE sorgulanıyor	Önceki ince ayarlarda RoPE ile uzun bağlamda felaket sonuçlar. ALiBi/öğrenilmiş veya kanıtlanmış düzeltme tercih edilir.
Eğitim hattı	Ön Eğitim (eğitim) → SFT (ince ayar) → RLVR (pekiştirmeli öğrenme)	Sıralı aşamalar, her biri farklı şey öğretir. Tercih değil, zorunluluk.
SFT veri kalitesi	Terütemiz	Deneyimle doğrulandı: SFT verisindeki hatalar = model hata üretmeyi öğrenir
Literatür taraması	Her derin karardan önce zorunlu	arXiv, HF, ACL kullan, sadece Google değil. Aşırı özgüvenli ama güncel olmayan tavsiyelerden kaçın.

10. VERİ STRATEJİSİ

Bu bölüm Türkçe LLM’miz için veri stratejisine odaklanır. Ama Bölüm 5’in penceresinden bakın: aşağıda anlatılan her şey bir şablondur. “Türkçe metin” yerine “protein dizileri” veya “üretim logları” koyun, aynı hat yapısı geçerlidir — sadece farklı bir tokenizer ve farklı alan verisiyle.

Ön eğitim verisi — “eğitim” (miktar, çeşitlilik)

Ham Türkçe metin — soru-cevap çifti yok, biçimlendirme yok. Model kesintisiz metin okur ve her pozisyonda bir sonraki tokeni tahmin eder.

Kaynak	Amaç	Dağılım
Türkçe Vikipedi, haber, kitap, forum	Dil yapısı, dilbilgisi, akıcılık	%80–90 Türkçe %10–20 İngilizce
Hukuk, tıp, bilim, finans metinleri	Alan sözlüğü, formel akıl yürütme	%80–90 Türkçe %10–20 İngilizce
Kod (Python, vb.)	Mantıksal yapı, kesin akıl yürütme	İngilizce diller arası aktarıma yardımcı olur
Matematik metinleri, bilimsel makaleler	Akıl yürütme kalıpları, formel argümanlar	İngilizce diller arası aktarıma yardımcı olur

SFT verisi — “ince ayar” (kalite, temiz)

Türkçe talimat-yanıt çiftleri. Temiz, hatasız. Format öğretir, akıl yürütme değil.

RLVR verisi — pekiştirmeli öğrenme (doğrulanabilir problemler)

Matematik (GSM8K tarzı, yarışma matematiği), kod problemleri, mantık bulmacaları. Türkçeye çevrilebilir. Matematik ve mantık dile fazla bağımlı değil — 17 × 23 = ? her dilde geçerli. Akıl yürütmenin asıl eğitildiği yer burasıdır.

Sözel örnekler neden hâlâ gerekli: Salt soyut mantık (A→B, B→C ⇒ A→C) tek başına yetmez. Model tokenler (kelimeler/alt-kelimeler) üzerinde çalışır. Gerçek dünya cümlelerine ihtiyacı var: (1) doğal dildeki akıl yürütme durumlarını tanımak, (2) dili akıl yürütebileceği parçalara ayırmak ve (3) akıl yürütmeyi doğal dille ifade etmek. Soyut mantık küçük bir kalıp kümesidir; sözel veri modele bu kalıpları gerçek dünyayla ilişkilendirmeyi öğretir.

11. SIRADA NE VAR

TAMAM Faz 1: Tokenizer

64K BPE, 22 GB derlem, 11 alan, GPT-2 regex hatası keşfedildi, sözlük doygunluğu olgusu belgelendi.

SİRADAKİ Faz 2: Mimari

Temel mimari seçimi (100M–4B). Pozisyon kodlaması sorunu (RoPE vs ALiBi vs öğrenilmiş). Akıl yürütme öncelikli tasarım. 2025–2026 SOTA küçük modeller için literatür taraması.

Faz 3: Ön Eğitim (asıl “eğitim”)

Türkçe derlem hattını kur. Milyarlarca token boyunca sonraki-token tahmini. Dil, dünya bilgisi ve akıl yürütme kalıplarını öğren. Temel modeli sıfırdan yaratan adım budur.

Faz 4: SFT — Denetimli İnce Ayar (herkesin “ince ayar” dediği aşama)

Terütemiz talimat verisi. Modele talimat takip etmeyi ve sohbet kurmayı öğret. Yalnızca format; akıl yürütme değil. Ham temel modeli sohbet botuna dönüştüren adım budur.

Faz 5: RLVR — Doğrulanabilir Ödüllerle Pekiştirmeli Öğrenme

Matematik/kod/mantık üzerinde doğru cevaplar için modeli ödüllendir. Model deneme-yanılma yoluyla gerçek akıl yürütme stratejilerini kendi keşfeder. Kutup yıldızına ulaşacağımız yer burası.

SONRA Orkestra & Alan Modelleri

Birlikte çalışan birden fazla küçük uzman model. Bu projede kazandığımız becerilerle alana özel modeller (fabrika, malzeme, vb.) inşa etmek. Pratik kazanım.

Şimdiye kadar öğrendiklerimiz: Tokenizer fazı bilgi temsilini öğretti — ve ardından her dizisel alanın bir dil olduğunu göstererek tüm projeyi patlattı (Bölüm 5) — ve Bölüm 6 bunu somut adım adım yürüyüşlerle, alan alan kanıtladı. Mimari tartışması, bir sinir ağının içinde akıl yürütmenin gerçekte ne olduğunu (ve ne olmadığını) öğretti. Ön eğitim “bilgi”nin ne demek olduğunu öğretecek. SFT “format”ın ne demek olduğunu öğretecek. RLVR “doğru”nun ne demek olduğunu öğretecek. Her faz zihni biraz daha açıyor. Ve her ders sadece Türkçe LLM’miz için değil, herhangi bir alan için inşa edebileceğimiz herhangi bir dizi modeli için geçerli.

Son model dünyanın en iyisi olmasa bile, yığının her katmanını derinden anlayan kişi, en büyük modeli eğiten kişiden daha tehlikelidir. En büyük model sadece paradır. Anlamak kaldıraçtır.

12. DEPO GÖRÜNÜMÜ

Yol	İçeriği
`tokenizers/turkish_bpe_64k/`	Seçilen tokenizer (64K BPE v3)
`tokenizers/turkish_bpe_{16k,32k,48k}_*/`	Tüm deneysel sürümler saklı
`tokenizers/kumru_2b_reference/`	Kumru referans karşılaştırma
`data/processed/`	22 GB eğitim derlemi (27 dosya, 11 alan)
`train_tokenizer.py`	Tokenizer eğitim betiği
`benchmark_tokenizers.py`	104 cümle kıyaslaması (21 çekirdek + 83 zor/kenar)
`docs/tokenizer-research.html`	Tam tokenizer araştırma raporu (EN)
`docs/tokenizer-research_tr.html`	Tam tokenizer araştırma raporu (TR)
`docs/project-context_tr.html`	Bu dosya — yolculuk dokümanı
`reference_architecture/`	Konfigürasyon örnekleri, literatür taraması, README
`PROJECT_CONTEXT.md`	Makine tarafından okunabilir proje bağlamı (yapay zeka oturumları için)

Son söz. Bu proje basit bir soruyla başladı: “Daha iyi bir Türkçe tokenizer yapabilir miyiz?” Bu soru kimsenin beklemediği bir yere götürdü. Dilin sayılara nasıl dönüştüğünü öğrendik — ve sonra fark ettik ki her şey aynı şekilde sayılara dönüşüyor. Müzik, proteinler, fabrika verisi, DNA. Tokenizer sadece bir Türkçe metin aracı değildi. Herhangi bir alan ile öğrenen makine arasındaki evrensel arayüzdü. Bu tek farkındalık projeyi tamamen altüst etti.

Aynı zamanda endüstrinin en büyük yanılsamasını da yıktı: yapay zekânın LLM’ye eşit olduğu yanılsamasını. Değil. LLM, insan-dili-alanına-özgü bir transformer’dır — evrensel bir motorun tek bir alana uygulanması. Bunu gördüğünüzde, trilyon parametreli sohbet robotlarının fabrika zeminlerinde neden başarısız olduğunu, kurumsal LLM projelerinin %95’inin neden çöktüğünü ve cevabın neden asla “LLM’yi büyüt” olmadığını görürsünüz. Cevap: doğru alan için doğru tokenizer’ı inşa et ve küçük bir modelin, dev bir modelin asla yapamayacağını yapmasına izin ver. Tek bir sohbette byte-pair encoding’den Nietzsche’ye, oradan endüstriyel ekonomiye geldik.

Tokenizer ilk kapıyı açtı. Mimari ikincisini açtı. Önümüzde daha çok kapı var — ön eğitim, SFT, RLVR, orkestrasyon, alan modelleri. Her biri hiçbir makalenin veya dersin öğretemeyeceği bir şey öğretecek: kendi ellerinle inşa etmekten, duvarlara çarpmaktan ve nedenini çözmekten doğan anlayış. Ve her ders aynı gerçeği pekiştirecek: transformer motordur, tokenizer mercektir ve dünya kendi küçük, isabetli, amaca yönelik modellerini bekleyen alanlarla doludur.

Bu yaşayan bir dokümandır. Tamamlanan her faz, verilen her karar ve kazanılan her içgörüyle birlikte büyüyecektir.