SIFIRDAN TÜRKÇE LLM İNŞA ETMEK “?”
Proje Bağlamı, Yolculuk & Yol Boyunca Aslında Keşfettiklerimiz
İÇİNDEKİLER
1. BU NİYE VAR
Tüm büyük dil modelleri İngilizce merkezli bir temel üzerine inşa edilmiştir. Türkçe metin GPT-4’ün tokenizer’ından geçtiğinde, olması gerekenden yaklaşık 2,7 kat daha fazla token harcar. Türkçenin sondan eklemeli yapısı — anlamın ek zincirleriyle taşındığı yapı — İngilizce için eğitilmiş tokenizer’lara yabancıdır.
Mevcut Türkçe LLM’ler (Kumru, Hamza, LlamaTurk, TURNA ve Boğaziçi, ODTÜ gibi kurumlardan çıkan çalışmalar) ciddi çalışmalar ve anlamlı sonuçlar içerir. Kimisi özel tokenizer eğitir, kimisi sıfırdan inşa eder, kimisi çok dilli temelleri genişletir. Yakından inceledikten sonra dürüst çıkarım şu: iyi işler var, ama her biri farklı ödünleşimler yapıyor — ve hiçbiri bizim aradığımız uçtan uca anlayışı vermedi. Her katmanı kendimiz inşa etmek istedik; mevcut çalışmalar kötü olduğu için değil(except kumru it is fundamentally broken), öğrenme inşa etme sürecinde gerçekleştiği için.
2. KUTUP YILDIZI: AKIL YÜRÜTME
Birincil hedef bilgi kapsamı değil, sohbet akıcılığı değil, benchmark puanları değil. Hedef akıl yürütme — olağanüstü mantık yeteneği. Model şunları yapabilmeli:
- Anlama — girdiyi çözümle, ne sorulduğunu belirle
- Parçalama — problemi alt parçalara böl
- Adım adım akıl yürütme — mantıksal yapıyı uygula (eğer A→B ve B→C ise A→C)
- Öz denetim — tutarsızlıkları tespit et ve yönü düzelt
- Bilim insanı gibi düşün — dışarıdan taklit değil, içinden öyle işlesin
Model pek çok şey bilmese bile, bildikleri üzerinde doğru akıl yürütmeli. Bilgi sonradan eklenebilir; akıl yürütme yapısı eklenemez.
Önceki ince ayar deneyimlerimizden: SFT verisine kasıtlı hata-düzeltme kalıpları koymak sonuçları her zaman daha kötü yaptı. Model “hataları yakalamayı” öğrenmiyor — hata üretmeyi öğreniyor, çünkü SFT “çıktı böyle görünmeli” der.
Gerçek akıl yürütme RL’den (RLVR) gelir — doğrulanabilir ödüllerle pekiştirmeli öğrenme. Model kendi cevaplarını üretir, yalnızca doğru nihai cevaplar için ödüllendirilir ve deneme-yanılma yoluyla etkili akıl yürütme stratejileri keşfeder. SFT format öğretir. RLVR düşünmeyi öğretir. Taklit ile öğrenme arasındaki fark budur.
3. ŞİMDİYE KADAR YOLCULUK
Yol Haritası
Tokenizer
Mimari
Ön Eğitim
SFT
RLVR
| Faz | Durum | Ne Öğretiyor | Kapsam |
|---|---|---|---|
| 1. Tokenizer | TAMAM | Bilgi temsili, morfoloji, veri ölçekleme | 64K BPE, 22 GB derlem, 11 alan, 104 cümle kıyaslaması |
| 2. Mimari | SİRADAKİ | Hesaplama nasıl akıl yürütmeye dönüşür | 100M–4B parametre, 128K bağlam, yalnız-çözücü, akıl yürütme öncelikli |
| 3. Ön Eğitim (asıl “eğitim”) | BEKLİYOR | “Bilgi” gerçekte ne demek | Türkçe derlem üzerinde sonraki-token tahmini (teacher forcing) |
| 4. SFT (ince ayar) | BEKLİYOR | Format, akıl yürütme değil | Terütemiz talimat verisi. Hata yok. |
| 5. RLVR (ödülle ileri eğitim) | BEKLİYOR | “Doğru” gerçekte ne demek | Doğrulanabilir cevapları olan matematik/kod/mantık problemleri |
4. FAZ 1: TOKENİZER — HER ŞEYİN BAŞLADIĞI YER
“Sadece bir tokenizer yap” diye başlayan iş, dilin sayılara nasıl dönüştüğünün, İngilizce merkezli tasarımın diğer dillere neden zarar verdiğinin ve veriyle sözlüğün şaşırtıcı biçimde nasıl etkileştiğinin derin keşfine dönüştü. (Tam tokenizer raporu →)
Anlayışımızı değiştiren üç keşif
's|'t|'re|'d) içerir
ve Türkçe eklerin ilk karakterini çalar. Ankara'dır,
["Ankara", "'", "dır"] yerine ["Ankara", "'d", "ır"] olur.
Bildiğimiz kadarıyla bu etkileşim daha önce hiçbir yerde belgelenmemişti.
ev, evde, evden, eve, evin, evler —
hepsi tek token. değerlendirilmelidir (6 morfemlik ek zinciri) tek token.
Tokenizer fazı bize şunu öğretti: temsil her şeydir. Bir model Türkçe üzerinde akıl yürütebilmek için önce onu verimli biçimde okuyup yazabilmelidir. Kötü bir tokenizer, pipetten düşünmeye çalışmak gibidir — bir miktar sinyal geçer ama kapasitenin çoğu darboğaza harcanır.
Ürünler:
EN rapor •
TR rapor •
benchmark_tokenizers.py (104 cümle) •
train_tokenizer.py •
tokenizers/turkish_bpe_64k/
5. TOKENİZER’IN AÇTIĞI KAPI
Tokenizer fazı bize çalışan bir 64K Türkçe BPE verdi. Ama asıl hediye kimsenin beklemediği bir şeydi: yapay zekayı, dili ve endüstrinin tamamını nasıl gördüğümüzü kökünden değiştiren bir bakış açısı. Bu, projenin tamamında şimdiye kadar öğrendiğimiz en önemli şey.
Tokenizer gerçekte nedir?
Jargonu bir kenara bırakalım. Tokenizer tek bir iş yapar: yapılandırılmış girdiyi bir sayı dizisine çevirir. Biz girdi olarak Türkçe metin kullandık. Ama algoritmada girdinin insan dili olmasını gerektiren hiçbir şey yok.
64K BPE’mizi eğitirken algoritma Türkçe işlediğini “bilmiyordu.” Bayt dizilerini gördü, sık tekrarlanan kalıpları buldu ve bunları tokenlere birleştirdi. Sonuç: girdi kalıpları → tam sayı kimlikleri. Hepsi bu. Algoritma bu kalıpların Türkçe ek mi, müzik notası mı, yoksa kimyasal bağ mı olduğunu umursamaz.
Bunu gerçekten içselleştirdiğinizde, bir daha kapanmayacak bir kapı açılır.
Her şeyi değiştiren soru
Sürekli “dil modeli” diyorduk. Peki bir şeyi dil yapan ne? Sözcük dağarcığı ve dilbilgisi olan her sistem — öğeler kümesi ve bunların nasıl birleşeceğinin kuralları. İnsan dili bunun bir örneği. Tek örneği değil. Pratik yapay zeka için en önemlisi bile değil.
Müzik bir dildir. Notalar sözcük dağarcığıdır. Akor ilerlemeleri, gamlar, ritim kalıpları, tonaliteler — bunlar dilbilgisidir. Bir melodi bir “cümle”dir. Bir senfoni bir “doküman”dır. Müzik için bir “tokenizer”, nota olaylarını (perde, süre, hız, akor) tam sayı kimliklerine eşler. Bu token dizileri üzerinde eğitilmiş bir transformer öğrenir: bu akor ilerlemesinden sonra bu çözüm gelir. Bu ritim kalıbından sonra bu varyasyon izler. Transformer “müzik yaptığını” bilmez. Sonraki tokeni tahmin eder — aynen Türkçe kelimelerle yaptığı gibi.
Proteinler bir dildir. Amino asitler sözcük dağarcığıdır — sadece 20 temel karakter. Proteinler “cümle”dir: fiziksel kurallara göre 3B yapılara katlanan diziler. “Dilbilgisi”, hangi dizilerin alfa sarmal, hangilerinin beta tabaka oluşturduğunu, hangi kombinasyonların belirli reseptörlere bağlandığını belirler. Protein dizileri üzerinde eğitilmiş bir transformer bu dilbilgisini öğrenir — biyoloji anladığı için değil, token dizilerinde istatistiksel kalıplar bulduğu için. AlphaFold sınıfı modeller tam olarak böyle çalışır.
Kimyasal formüller bir dildir. SMILES notasyonu moleküler yapıları metin dizeleri olarak kodlar. Atomlar ve bağlar sözcük dağarcığıdır. Değerlik kuralları, halka yapıları, fonksiyonel gruplar — bunlar dilbilgisidir. Bir “tokenizer” kimyasal sembolleri tam sayılara eşler. Transformer öğrenir: bu molekül parçasından sonra bu bağlanma özelliği muhtemeldir. İlaç keşif modelleri zaten böyle çalışır.
DNA bir dildir. Dört nükleotid — A, T, C, G — tüm sözcük dağarcığı budur. Kodon üçlüleri amino asitleri kodlar. Düzenleyici bölgeler gen ifadesini kontrol eder. Genomik modeller bu dizileri tokenize eder ve mutasyonları, gen işlevini, hatta hastalık riskini tahmin etmeyi öğrenir. 4 tokenlik sözcük dağarcığı, milyarlarca yıllık evrimle kodlanmış dilbilgisi.
Bir fabrika üretim hattı bir dildir. Malzeme kodları, makine ayarları, çevre
koşulları, test sonuçları — bunlar nedensel yapıya sahip diziler oluşturur.
“Sözcük dağarcığı” 500–2000 token olabilir. “Dilbilgisi” fiziksel
nedensellik zinciridir: PVC_bilesik_A + sicaklik_175 + hiz_15 → cekme_GECTI + shore_85.
50 milyon parametreli bir model, tek bir metre kablo üretilmeden önce üretim sonuçlarını
tahmin etmeyi öğrenebilir — malzeme, enerji ve zaman tasarrufu.
M E T H I O N I N E …. Bir fabrika modeli “hangi sıcaklığı
kullanmalıyım?” sorusuna Türkçe cevap vermez. Tokenleri sicaklik_175
hiz_15’tir ve çıktısı cekme_GECTI’dir.Bu, bir sohbet botunu alan verisiyle ince ayar yapmak değildir. O halde hala insan dilinde alan hakkında konuşan bir LLM olurdu. Bu temelden farklı bir şeydir: modelin tüm sözcük dağarcığı, dilbilgisi ve düşünce süreci alan notasyonunun içinde var olur. İnsan dili dahil değil. Bu yüzden bu kadar küçük ve bu kadar isabetli olabilirler.
Her kapıyı açan beş adımlık zincir
- Tokenizer sadece şudur: yapılandırılmış kalıplar → sayılar
- Transformer sadece şudur: önceki sayılardan sonraki sayıyı tahmin etmeyi öğren
- “Dil modeli”, bu sayılar kelimeleri temsil ettiğinde verdiğimiz isimdir
- Dizisel yapısı olan HER veri tokenize edilebilir
- Dolayısıyla: transformer evrensel bir dizi öğrenicisidir, “dil” modeli değil
Her alan bir dildir
| Alan | “Sözcük Dağarcığı” | “Dilbilgisi” | “Cümleler” | Model Boyutu |
|---|---|---|---|---|
| İnsan dili | Kelimeler, alt-kelimeler (64K BPE) | Sözdizimi, anlam, edimbilim | Paragraflar, makaleler, kitaplar | Milyarlar (açık uçlu) |
| Müzik | Notalar, akorlar, suslar, nüanslar | Armoni, ritim, tonalite, form | Melodiler, ilerlemeler, eserler | Yüz milyonlar |
| Proteinler | 20 amino asit | Katlanma kuralları, bağlanma ilgileri | Protein zincirleri | Milyonlar–düşük milyarlar |
| Kimya (SMILES) | Atomlar, bağlar, halka işaretleri | Değerlik, kararlılık, reaktivite | Moleküler yapılar | Yüz milyonlar |
| Kod | Anahtar kelimeler, operatörler, tanımlayıcılar | Sözdizimi kuralları, tip sistemleri | Fonksiyonlar, programlar | Yüz milyonlar–milyarlar |
| DNA / Genomik | 4 nükleotid (A, T, C, G) | Kodon kuralları, düzenleyici kalıplar | Gen dizileri | Milyonlar–yüz milyonlar |
| Kablo fabrikası | Malzeme kodları, makine ayarları | Girdi → çıktı nedensellik | Üretim koşuları | 10–50M |
| Herhangi bir fabrika / lab / klinik | Alana özel kodlar | Alana özel nedensel kurallar | Süreç kayıtları | 10–100M |
Kablo fabrikası — somut bir örnek
Bu varsayımsal değil. Her kablo fabrikası her gün şu tarz veri üretir:
- Tokenizer sözlüğü: ~500–2000 token (malzeme kodları, makine ayarları, test sonuç kodları)
- Girdi:
[MALZEME] PVC_bilesik_A [AYARLAR] sicaklik_175 hiz_15 basinc_8 - Çıktı:
[SONUCLAR] cekme_gecti uzama_420 alev_V0 shore_sertlik_85 - Model boyutu: 10–50M parametre. Tek GPU’da saatler içinde eğitilir.
- Değeri: Üretim öncesinde test sonuçlarını tahmin et, malzeme israfını önle
Bu model, bu görev için GPT-4’ten daha isabetli, kat kat daha ucuz, dizüstü bilgisayarda çalışır, özel verilerinizi gizli tutar ve Türkçe LLM inşa ederken öğrendiğimiz birebir aynı becerilerle yapılır: tokenizer tasarımı, mimari seçimi, eğitim hattı optimizasyonu.
Bunun anlamı: açılan kapılar
Bunu kavradığımız an, projenin kapsamı “bir Türkçe LLM yap”tan “herhangi bir alan için herhangi bir dizi modeli yapmayı öğren”e dönüştü. Olasılıklar:
- Her fabrika, her laboratuvar, her hastane, her işlem masası dizisel veri üretir
- Her birinin kendi küçük modeli olabilir (10M–100M parametre)
- Bu modeller kendi alanlarında genel LLM’lerden daha isabetli olur
- Eğitmesi ucuz (saatler, aylar değil), çalıştırması ucuz (dizüstü, veri merkezi değil)
- Gizli — verileriniz bina dışına çıkmaz
- Ve artık nasıl yapılacağını biliyoruz — çünkü LLM projesi tüm zanaatı öğretiyor
Tuzak: araç yerine tanrı inşa etmek
Yapay zeka endüstrisi, her şeyi doğal dil aracılığıyla cevaplayan kadir-i mutlak bir sohbet varlığı inşa etmek için milyarlar döküyor — dijital bir tanrı. Her problem “yapay zekaya sor”a indirgeniyor.
Ama artık net görüyoruz: gerçek dünyadaki en değerli problemlerin çoğu sohbete ihtiyaç duymaz. Tahmin, kalıp tanıma, optimizasyon ister. “Konuşma” katmanı, asıl ihtiyacınız “bu kablo çekme testini geçecek mi?” olduğunda pahalı bir yüktür.
Alan tahmincisine ihtiyacınız varken tam bir LLM inşa etmek, bisiklete ihtiyacınız varken Boeing 747 yapmak gibidir. Bisiklet daha basit, ucuz ve sizi gideceğiniz yere daha hızlı götürür — markete gidiyorsanız tabii.
Orkestra vizyonu
Gelecek tek bir devasa model değil. Orkestrasyondur: her biri kendi alanı için optimize edilmiş birden fazla küçük, uzman model, birlikte çalışır.
İstekleri yönlendirir
Mantık ve parçalama
Alan bilgisi
Hesap makinesi, kod, arama
Biz akıl yürütücüyü inşa ediyoruz. Uzmanlar fabrika modelleri, tıp modelleri, finans modelleri olabilir — her biri küçük, her biri isabetli, her biri şu an öğrendiğimiz becerilerle inşa edilmiş.
6. ADIM ADIM NASIL ÇALIŞIR: HER ALAN İÇİN ÖRNEKLERLE
Bölüm 5, her alanın bir dil olduğunu ve her dizinin tokenize edilebileceğini iddia etti. Bu hâlâ soyut gelebilir. O yüzden somutlaştıralım. Aşağıda beş farklı alan için makinenin içinde tam olarak ne olduğunu — ham girdiden son çıktıya — gösteren örnek yürüyüşler var. Süreç her seferinde birebir aynı. Sadece tokenlar değişiyor.
① Dil modeli (Türkçe LLM)
Ankara'nın nüfusu kaçtır?Adım 1 — Tokenize et (metin → sayılar). Tokenizer her parçayı 64K kelime haznesinde arar:
“Ankara” → 3847 | “'nın” → 129 | “nüfusu” → 8412 | “kaçtır” → 5903 | “?” → 30Model şunu alır:
[3847, 129, 8412, 5903, 30]. Bunların Türkçe kelimeler olduğundan haberi yok. Beş tamsayı görüyor.Adım 2 — Model işler (sayılar → sayılar). Transformer bu 5 tamsayıyı alır, her birini 2048 boyutlu bir vektöre dönüştürür, 22 katman dikkat ve ileri-beslemeli ağdan geçirir. Sonunda 64.000 token üzerinde bir olasılık dağılımı üretir: “sıradaki token hangisi?” Seçimi: token
11297.Adım 3 — Detokenize et (sayılar → metin). Tokenizer
11297’yi
kelime haznesinde arar: 11297 → “Yaklaşık”. Çıktıya eklenir.Adım 4 — Tekrarla. Şimdi model
[3847, 129, 8412, 5903, 30, 11297] görür
ve sıradaki tokeni tahmin eder. Sonra bir sonrakini. Token token cevap oluşur:11297 → “Yaklaşık” | 642 → “5” | 1830 → “milyon” | 7741 → “kişidir” | 4 → “.”Son çıktı:
Yaklaşık 5 milyon kişidir.Bonus — ya
Ankara’nın başkenti nedir? diye sorsaydık?Tokenizer her kelimeyi 64K kelime haznesinde bulur. Model token dizisini işler ve token token bir cevap üretir:
“Ankara bir başkenttir, bir ilin başkenti değildir.”
Çalışır. Bu model Türkçe metin için inşa edildi. Türkçe
kelimeler onun ana tokenlarıdır. Sohbet, tam olarak eğitildiği şeydir.
② Müzik modeli
Adım 1 — Tokenize et (notalar → sayılar). Bir akor ilerlemesi kodlanır:
“C_maj” → 42 | “quarter” → 7 | “G_maj” → 58 | “quarter” → 7 | “Am” → 51 | “quarter” → 7 | “F_maj” → 47 | “quarter” → 7Model şunu alır:
[42, 7, 58, 7, 51, 7, 47, 7]. Kelime yok. Dil yok. Sadece I–V–vi–IV
ilerlemesini temsil eden tamsayılar.Adım 2 — Model işler. Transformer tahmin eder: bu ilerlemeden sonra en olası token
42.Adım 3 — Detokenize et (sayılar → notalar).
42 → “C_maj”.
İlerleme toniğe döner.Adım 4 — Tekrarla. Sıradaki token:
12 → “half” (yarım nota süresi).
Sonra: 71 → “E4” (melodi notası). Token token bir melodi bestelenir.Hiçbir adımda kelime kullanılmadı. Model müzik “konuşur.” Kelime haznesi notalardır. Çıktısı çalınabilir bir MIDI dizisidir.
Bonus — ya
Ankara’nın başkenti nedir? diye sorsaydık?Adım 1 anında çöker. Tokenizer “Ankara”yı kelime haznesinde arar. Kelime haznesi:
C_maj, quarter, E4, rest — notalar,
süreler, akorlar. Türkçe kelime yok. Hiçbir dilin kelimesi yok. “Ankara” mevcut değil.
“Başkent” mevcut değil. “Nedir” mevcut değil. Girdi sayılara
dönüştürülemez bile. Modele verilecek bir şey yok. Bir Türkçe cümleyi
piyano rulosuna sokmaya çalışmak gibi. Yanlış cevap değil —
cevap vermek mümkün değil. Model hayatında bir kelime görmedi.
Kelimenin ne olduğunu bilmiyor. Sorunun ne olduğunu bilmiyor. “Sohbet”in ne demek olduğunu bilmiyor.
③ Protein modeli
Adım 1 — Tokenize et (amino asitler → sayılar). Bir protein parçası:
“M” → 1 | “A” → 5 | “L” → 10 | “W” → 17 | “K” → 9 | “L” → 10 | “P” → 12Model şunu alır:
[1, 5, 10, 17, 9, 10, 12]. İngilizce yok. Türkçe yok. Sadece amino asit kimlikleri.Adım 2 — Model işler. Bu dizi verildiğinde transformer sıradaki amino asiti tahmin eder. 25 token üzerinde bir dağılım üretir. En yüksek olasılık: token
4.Adım 3 — Detokenize et (sayılar → amino asitler).
4 → “V” (Valin).
Protein zinciri uzar.Adım 4 — Tekrarla. Model “BİTİŞ” tokenini tahmin edene kadar devam eder. Çıktı, katlanma, bağlanma veya işlev açısından analiz edilebilecek eksiksiz bir protein dizisidir.
Kelime haznesi: 25 token. İnsan dili yok. Sadece biyokimya, bir dizi olarak.
Bonus — ya
Ankara’nın başkenti nedir? diye sorsaydık?Adım 1 çöker. Tokenizer’ın tüm kelime haznesi:
M, A, L, W, K, P, V, G, I, F, Y, C, H, R, N, D, E, Q, S, T, START, END, PAD, UNK, MASK.
Yirmi beş token. Hepsi amino asit. “Ankara”? Tokenizer tek tek harfleri eşleştirebilir
— A, n, k, a, r, a — ama “n” bir amino asit değil. “k” bir amino asit değil.
Çoğu karakter UNK (bilinmeyen) olur. Model bir dizi bilinmeyen ve rastgele amino asit eşleşmesi
alır: [UNK, 5, UNK, UNK, UNK, 5, UNK, UNK, UNK...]. Zorla çalıştırılırsa
rastgele bir protein parçası üretir — cevap değil, cümle değil, anlamsız amino asit
gürültüsü. Dil, soru veya iletişim kavramı yok.
④ Kablo fabrikası modeli
Adım 1 — Tokenize et (üretim verisi → sayılar). Mühendis yeni bir üretim ayarı girer:
“[MALZEME]” → 1 | “PVC_A7” → 34 | “[SICAKLIK]” → 2 | “175” → 412 | “[HIZ]” → 3 | “15” → 287 | “[BASINC]” → 4 | “8” → 193 | “[TAHMİN]” → 5Model şunu alır:
[1, 34, 2, 412, 3, 287, 4, 193, 5]. Cümle değil. Yapılandırılmış bir üretim özelliği.Adım 2 — Model işler. Transformer çıktı olarak token
601 üretir.Adım 3 — Detokenize et (sayılar → sonuçlar).
601 → “kopma_GEÇTİ”.Adım 4 — Tekrarla. Sıradaki tokenlar:
622 → “uzama_420” | 709 → “alev_V0” | 685 → “sertlik_85”.Son çıktı:
kopma_GEÇTİ uzama_420 alev_V0 sertlik_85Mühendis artık — üretimden önce — bu ayarın tüm testleri geçeceğini biliyor. 800 token. 10M parametre. Dizüstü bilgisayarda çalışır. Hiçbir adımda insan dili yok.
Bonus — ya
Ankara’nın başkenti nedir? diye sorsaydık?Adım 1 çöker. Tokenizer şunları bilir:
[MALZEME], PVC_A7,
[SICAKLIK], 175, [HIZ], kopma_GEÇTİ — 800 token,
hepsi üretim kodu ve test sonucu. Tek bir insan kelimesi yok. “Ankara” bir malzeme değil.
“Başkent” bir makine ayarı değil. “Nedir” bir test sonucu değil.
Girdi tokenize edilemez. Rastgele token eşleştirmesi zorlansa bile model
sertlik_72 uzama_310 alev_V1 gibi bir şey üretir — anlamsız bir üretim tahmini.
Tüm varlığı boyunca bir insan cümlesiyle hiç karşılaşmadı.
İnsanların var olduğunu bilmiyor. Kabloları biliyor.
⑤ DNA / Genomik modeli
Adım 1 — Tokenize et (nükleotidler → sayılar). Bir gen parçası:
“A” → 1 | “T” → 2 | “G” → 3 | “C” → 4 | “G” → 3 | “A” → 1 | “T” → 2Model şunu alır:
[1, 2, 3, 4, 3, 1, 2]. Yedi sayı. Model DNA’nın ne olduğunu bilmiyor.Adım 2 — Model işler. Bu bağlam verildiğinde transformer tahmin eder: en olası sıradaki token
4 (C).Adım 3 — Detokenize et.
4 → “C”.Adım 4 — Tekrarla. Model dizinin geri kalanını üretir; bu dizi daha sonra gen işlevi, mutasyon riski veya düzenleyici örüntüler açısından analiz edilebilir.
Kelime haznesi: 7 token. Mümkün olan en küçük “dil.” Aynı transformer. Aynı süreç.
Bonus — ya
Ankara’nın başkenti nedir? diye sorsaydık?Adım 1 çöker. Kelime haznesi:
A, T, C, G, START, END, UNK. Yedi token.
“Ankara” şuna dönüşür: [A, UNK, UNK, A, UNK, A] — sadece A harfini
görebilir çünkü Adenin aynı sembolü paylaşır. Geri kalanı bilinmeyen.
Model şöyle bir şey üretir: T G C A A T G C — bir DNA dizisi parçası.
Kelime değil. Cümle değil. Nükleotid dizisi. Hayatında insan dili görmedi.
Yedi tokeni var. Alfabeyi bile temsil edemez, düşünce oluşturmak bir yana.
1. Alan girdisi → tokenizer → tamsayı dizisi
2. Tamsayı dizisi → transformer → tahmini sıradaki tamsayı
3. Tahmini tamsayı → tokenizer (ters yön) → alan çıktısı
4. Bitene kadar tekrarla
Ve Bonus örnekleri daha da önemli bir şeyi ortaya koyar:
Alana özgü bir model “konuşmaz.” İnsan dilinin ne olduğunu bilmez. Sorunun ne olduğunu bilmez. Sohbetin ne olduğunu bilmez. Hayatında kelime görmemiştir.
Ankara’nın başkenti nedir? yazdığınızda müzik modeline, girdi
makineye giremez bile — tokenizer’ın insan kelimeleri için eşleştirmesi yoktur.
Protein modeline zorladığınızda rastgele amino asitler döner. Fabrika modeline zorladığınızda
kablo test sonuçları döner. DNA modeline zorladığınızda nükleotidler döner.İşte kritik ayrım: LLM, transformer modelinin sadece bir türüdür — tokenizer’ın insan kelimelerini sayılara eşlediği ve eğitim verisinin insan sohbetleri ve metinleri olduğu bir tür. “Konuşma” yeteneğini veren budur. Kelime tabanlı tokenizer’ı kaldırın, Wikipedia yerine MIDI dosyalarıyla eğitin — müzik besteleyen ama hayatı buna bağlı olsa “merhaba” diyemeyecek bir model elde edersiniz. Transformer motoru aynıdır. Tokenizer, modelin hangi dünyada yaşadığına karar verir.
İnsanlar LLM’lerin kelimeleri dahili olarak sayılara çevirdiğini bilir. Sıklıkla kaçırdıkları şey şu: alana özgü modeller kelimeleri sayılara çevirmez — kelime almak için hiç tasarlanmamışlardır. Tokenizer’ları tamamen farklı bir dil konuşur: notalar, amino asitler, makine kodları, nükleotidler. Alanlarını dil aracılığıyla “bilmezler” — alanlarının ana tokenlarıyla düşünürler, tıpkı bir LLM’nin kelimelerle düşünmesi gibi.
Şimdi LLM abartısının pratikte verdiği zararı gözünüze getirin. Bir kablo fabrikasının, yeni bir malzeme-makine konfigürasyonu için test sonuçlarını tahmin etmesi gerekiyor. “Yapay zekâ = LLM” anlayışı diyor ki: bir dil modeli kur (veya satın al). Ve başlıyorlar. Faz 1: metin üzerinde tokenizer eğit — haftalar. Temel modeli milyarlarca kelimeyle eğit ki konuşmayı öğrensin — aylar, yüz binlerce dolar hesaplama maliyeti. Faz 2: alan belgelerine ince ayar yap — daha fazla hafta, daha fazla başarısız deneme, daha fazla maliyet. Faz 3: doğruluğu artırmak için pekiştirmeli öğrenme — daha fazla gün, daha fazla hafta. Ve tüm bunlardan sonra, bu devasa sisteme gerçek girdi ne? Bir sohbet mesajı:
“Merhaba, malzemeler XLPE, CAT113, RAL9100 boya. Makine ayarları: ekstrüder hızı 12,
sıcaklık 185, basınç 8. Test sonuçları ne olur?”Bu girdiyi tekrar okuyun. Gerçekten okuyun. Bir makineye insan dilini anlamayı öğretmek için aylar harcadınız — sırf zaten yapılandırılmış veri olan bir şeyi sohbet kılığında yazmak için. Modelin şimdi doğal dili ayrıştırarak zaten elinizde olan yapılandırılmış değerlere geri dönmesi, halüsinasyon yapmamasını umması ve sonra sizin tekrar ayrıştırmanız gereken doğal dilde bir cevap üretmesi gerekiyor. Aylara ve servetlere mal olan bütün bir insan-dili katmanı eklediniz — doğrudan yolun etrafında bir dolambaç olarak.
Doğrudan yol mu? 800 tokenlı bir alan tokenizer’ı. Girdi:
[1, 34, 2, 412, 3, 287, 4, 193, 5].
Çıktı: kopma_GEÇTİ uzama_420 alev_V0 sertlik_85. Sohbet yok. Ayrıştırma yok.
Halüsinasyon yok. 10M parametre. Gerçek üretim kayıtlarıyla saatler içinde eğitilir.
Dizüstü bilgisayarda çalışır.
Tüm LLM hattı — aylık ön eğitim, ince ayar, pekiştirmeli öğrenme, prompt
mühendisliği — sadece doğrudan bir diziden-diziye tahmin olması gereken şeyin üstüne
bir sohbet arayüzü eklemek için vardı. Tokenizasyonu anlamamanın bedeli budur.Tokenizer’ları anlamanın yolculuğumuzun en önemli ilk adımı olmasının sebebi budur. Mesele sadece Türkçe morfolojisi değildi. Mesele, tokenizer’ın herhangi bir alan ile ondan öğrenen makine arasındaki tüm arayüz olduğunu anlamaktı. Tokenizer’ı değiştir, modelin yaşadığı dünyayı değiştir. Motor aynı kalır.
LLM, insan-dili-alanına-özgü bir transformer’dır. Ne daha fazlası, ne daha azı. “Yapay zekâ” değildir. Bir dizi öğrenme mimarisinin tek bir alana — insan metnine — uygulanmış halidir. Yapay zekâ, LLM’ye eşit değildir.
Tokenizasyon gerçekten anlaşıldığında, bu artık bir anlam tartışması olmaktan çıkar ve bir mühendislik keşfine dönüşür. Mesele “İngilizce protein modeline Türkçe konuşturmak” değildir. Protein modeli hiç konuşmaz — ne Türkçe, ne İngilizce, ne başka bir insan dilinde. Amino asit dizileriyle iletişim kurar. Fabrika modeli üretim kodlarıyla iletişim kurar. Müzik modeli notalarla iletişim kurar. Bunlar insan diline tamamen yabancı, birbirinden tamamen farklı iletişim biçimleridir — sonarın konuşmaya yabancılığı kadar.
Ve tam da bu yüzden endüstrinin giderek büyüyen LLM’lere olan takıntısı, gerçek dünya problemleri için bir çıkmaz sokaktır. Etkileyici “konuşan” 500 milyar parametreli bir model, demo olarak muhteşemdir. Ama belirli ekstrüzyon parametreleriyle bir kablonun kopma testini geçip geçemeyeceğini sorduğunuzda, ikna edici görünen ama tamamen yanlış bir paragraf uydurur — çünkü hayatında bir üretim kaydı görmemiştir. Dil örüntülerini öğrenmiştir, fiziği değil. Araştırmalar tutarlı olarak gösteriyor: kurumsal LLM uygulamalarının yaklaşık %95’i gerçek değer üretemiyor. Sebebi teknolojinin kötü olması değil. Sebebi aracın iş için yanlış olması. Şirketler, alana özgü dizi problemlerini bir insan-sohbet makinesiyle çözmeye çalışıyor — ve neden çalışmadığını merak ediyor.
Trajedi şu ki bu başarısızlık genellikle “yapay zekâ hazır değil” diye yorumlanıyor; oysa yapay zekâ hazır — sadece çoğu insanın satın aldığı formda değil. 800 tokenlı, gerçek üretim verileriyle eğitilmiş 10 milyon parametreli bir alan modeli, o alanda bir trilyon parametreli LLM’yi her seferinde yener — maliyetin küçük bir kesriyle, dizüstü bilgisayarda çalışarak, sıfır halüsinasyonla, çünkü kelime haznesindeki her token gerçek bir şeye karşılık gelir.
Abartılı reklam “yapay zekâ”yı “sohbet robotu”yla özdeşleştirdi ve bu özdeşleştirme endüstrilere milyarlara mal oluyor. Tokenizasyonu anlamak çıkış yoludur. Transformer’ın evrensel bir motor, tokenizer’ın değiştirilebilir bir mercek olduğunu gördüğünüzde, tüm manzara değişir. Soru artık “LLM’ye fabrikamı nasıl anlatabilirim?” değildir. Soru şu olur: “Fabrikamın hangi tokenizer’a ihtiyacı var?”
7. MİMARİNİN AKIL YÜRÜTME HAKKINDA ÖĞRETTİKLERİ
Bölüm 5 ve 6 bize transformer’ın evrensel bir dizi öğrenicisi olduğunu — aynı dört adım, her alan — gösterdiyse, bu bölüm şunu sorar: bir dizi öğrenicisi, akıl yürütmeye benzeyen bir şeyi nasıl geliştirir? Mimariyi anlamak için önce “akıl yürütme”nin bir sinir ağının içinde gerçekte ne anlama geldiğini — ve ne anlama gelmediğini — kavramak gerekti. Unutmayın: aşağıdaki her şey sadece LLM’ler için değil, herhangi bir dizi modeli için geçerlidir — bir dil modelinin Türkçe üzerinde “akıl yürütmesini” sağlayan aynı mekanizmalar, bir protein modelinin katlanma üzerinde “akıl yürütmesini” de sağlar. (Detaylı mimari araştırma sayfası, tokenizer raporu gibi ayrıca yayınlanacak.)
Eğitim hattı (sıralı, tercih değil)
“Eğitim” — dil ve kalıpları öğren
“İnce ayar” — format öğren
Pekiştirmeli öğrenme — akıl yürütme öğren
Bunlar birbirinin alternatifi değil. Sıralı aşamalardır ve her biri kökten farklı şeyler öğretir:
| Faz | Girdi | Algoritma | Ne Öğretiyor |
|---|---|---|---|
| Ön Eğitim (herkesin “eğitim” dediği aşama) | Ham metin (soru-cevap çifti yok) | Her pozisyonda sonraki tokeni tahmin et | Dil, olgular, akıl yürütme kalıpları |
| SFT (herkesin “ince ayar” dediği aşama) | Temiz talimat-yanıt çiftleri | Aynı (sonraki-token tahmini) | Talimat takip etme. Akıl yürütme DEĞİL. |
| RLVR (doğrulanabilir ödüllerle pekiştirmeli öğrenme) | Doğrulanabilir cevapları olan problemler | Üret → doğrula → ödüllendir/cezalandır | Öz düzeltme, parçalama, gerçek akıl yürütme |
Ne genelleşir, ne genelleşmez
| Yetenek | Nasıl Öğrenilir | Genelleşir mi? |
|---|---|---|
| Olgular (“Ankara başkenttir”) | Veriden ezberlenir | Hayır — sadece gördüklerini bilir |
| Küçük aritmetik (2+3=5) | Kalıp ezberleme | Kısmen (~4–5 basamak) |
| Büyük aritmetik (234871...+12309...) | Kesin hesaplama gerektirir | Hayır — LLM’ler güvenilir biçimde yapamaz |
| Mantıksal yapı (A→B, B→C ⇒ A→C) | Vektör uzayında soyut dönüşüm öğrenir | Evet — yeni içeriklere aktarılır |
| Problem parçalama | Yapısal kalıp öğrenir | Evet — alanlar arasında aktarılır |
| Araç kullanımı (“bunun için hesap makinesi lazım”) | NE ZAMAN başkasına devretmeli öğrenir | Evet — gerçek genelleme |
Model “2+3=5”i ezberlemez. Binlerce örnekten toplama işleminin yapısını öğrenir. Küçük sayılarda işe yarar. Büyük sayılarda çöker — çünkü çok basamaklı elde taşıma, sonraki-token tahmininin güvenilir başarabileceğinin ötesindedir. Gerçek genelleme NE YAPILACAĞINI bilmektir (“bunun için hesap makinesi lazım”), hesaplamayı bizzat yapmak değil.
Öz düzeltme nasıl çalışır (mekanistik olarak)
Bir LLM hatalarını bizim gibi “fark etmez.” Her token pozisyonunda dikkat mekanizması önceki tüm tokenleri görebilir. Bağlam biriktikçe tutarsızlıklar istatistiksel olarak görünür hale gelir — olasılık dağılımı düzeltme tokenlerine doğru kayar. “Geri izleme” gerçek anlamda geri izleme değildir: model yön değiştiren yeni tokenler üretir (“dur, bu yanlış…”). Yanlış tokenler bağlamda durmaya devam eder.
Bu öz düzeltme becerisi verideki hata-düzeltme kalıplarından değil, RL eğitiminden gelir. RL, hem öz düzeltme yapan hem de doğru cevaplara ulaşan akıl yürütme zincirlerini ödüllendirir. Model “işini kontrol etmenin” kârlı bir strateji olduğunu kendi keşfeder.
S: Akıl yürütme mi, taklit mi?
Dürüst cevap: bilmiyoruz. Model veriden akıl yürütme kalıpları öğrenir. Yeni bir problemle karşılaştığında bu kalıpları uygular. Peki bu “gerçek akıl yürütme” mi yoksa “ileri düzey kalıp eşleştirme” mi? Tartışma henüz çözülmedi. Kanıtlar karmaşık: modeller özgün problemleri çözebiliyor (taklidi aşan genelleme) ama aynı problemlerin ufak varyasyonlarında çuvallayıyor (kalıp eşleştirme).
Bizim pratik cevabımız: bu ayrım belki de önemli değil. Asıl önemli olan: model daha önce görmediği problemlerde doğru cevaplara ulaşabiliyor mu? Bu ölçülebilir bir şey. RLVR, modeli yüzeysel taklitten sağlam uygulamaya doğru iter — doğru görünmeyi değil, doğruluğu ödüllendirerek.
S: Bir dil modeli için “doğru” nedir?
| Alan | “Doğru”nun Anlamı | Doğrulanabilir mi? |
|---|---|---|
| Matematik | Cevap doğru (2+2=4) | Evet |
| Kod | Derlenir ve testleri geçer | Evet |
| Mantık | Sonuç öncüllerden çıkar | Çoğunlukla evet |
| Genel dil | Tutarlı, ilgili, insanlar tarafından tercih edilen | Hayır — öznel |
S: LLM akıl yürütmesi = arama algoritmaları?
Mimari tartışmasından doğan bir içgörü: LLM’lerin öz düzeltmesi ağaç aramasına benzer (yolları keşfet, değerlendir, yönlendir). Ancak kritik farklar var:
- Ağaç önceden mevcut değil — token token üretilir
- Gerçek geri izleme yok — sadece ileri düzeltmeler (“dur, bu yanlış…”)
- Genel dil için “doğru” düğüm yok — sadece doğrulanabilir alanlarda (matematik, kod, mantık)
Akademide bu konu Tree of Thoughts, Process Reward Models ve LLM’ler için MCTS olarak formelleştirilmiştir. Benzetme yapısal olarak geçerlidir ama mekanik düzeyde çöker. Yine de önemli bir şey ima eder: küçük modeller yeterli düşünme bütçesiyle iyi “arama” yapabilir (genişletilmiş düşünme = daha geniş arama alanı).
8. TASARIM FELSEFESİ: AZ ÇOKTUR
Tek bir ölçeğe bağlı değiliz. 100M, 360M, 1B, 2B, 3B, 4B — hepsine açığız ve “az” demek “sınırlı” demek değil. İnancımız: son derece optimize bir mimari ve ön eğitimle küçük modeller büyüklere yetişebilir, hatta yaklaşabilir.
Bölüm 5’te keşfettiğimiz gibi, bu felsefe LLM’lerin çok ötesine geçer. Dizisel yapısı olan her alan, kendi küçük, isabetli modeline sahip olabilir. Dünya uzman modelleri orkestra olarak birleştirmeye doğru ilerliyor — ve biz bunu inşa edecek konumdayız.
9. ÖNEMLİ KARARLAR (KİLİTLENMİŞ)
| Karar | Seçim | Gerekçe |
|---|---|---|
| Tokenizer | 64K BPE v3 (kendi yaptığımız) | Kumru/TabiBERT’ten ~%14, GPT-4’ten ~2,7 kat daha verimli |
| Mimari | Yalnız-çözücü (decoder-only) | Üretici akıl yürütme LLM’leri için standart; kodlayıcı ayrı bileşen olarak eklenebilir |
| Parametre aralığı | 100M–4B | “Az çoktur” — optimize mimari, ağırlığının üzerinde yumruk atabilir |
| Bağlam uzunluğu | 128K token | Dava dosyaları, tezler, kitaplar tek seferde işlenebilir |
| Pozisyon kodlaması | RoPE sorgulanıyor | Önceki ince ayarlarda RoPE ile uzun bağlamda felaket sonuçlar. ALiBi/öğrenilmiş veya kanıtlanmış düzeltme tercih edilir. |
| Eğitim hattı | Ön Eğitim (eğitim) → SFT (ince ayar) → RLVR (pekiştirmeli öğrenme) | Sıralı aşamalar, her biri farklı şey öğretir. Tercih değil, zorunluluk. |
| SFT veri kalitesi | Terütemiz | Deneyimle doğrulandı: SFT verisindeki hatalar = model hata üretmeyi öğrenir |
| Literatür taraması | Her derin karardan önce zorunlu | arXiv, HF, ACL kullan, sadece Google değil. Aşırı özgüvenli ama güncel olmayan tavsiyelerden kaçın. |
10. VERİ STRATEJİSİ
Bu bölüm Türkçe LLM’miz için veri stratejisine odaklanır. Ama Bölüm 5’in penceresinden bakın: aşağıda anlatılan her şey bir şablondur. “Türkçe metin” yerine “protein dizileri” veya “üretim logları” koyun, aynı hat yapısı geçerlidir — sadece farklı bir tokenizer ve farklı alan verisiyle.
Ön eğitim verisi — “eğitim” (miktar, çeşitlilik)
Ham Türkçe metin — soru-cevap çifti yok, biçimlendirme yok. Model kesintisiz metin okur ve her pozisyonda bir sonraki tokeni tahmin eder.
| Kaynak | Amaç | Dağılım |
|---|---|---|
| Türkçe Vikipedi, haber, kitap, forum | Dil yapısı, dilbilgisi, akıcılık | %80–90 Türkçe %10–20 İngilizce |
| Hukuk, tıp, bilim, finans metinleri | Alan sözlüğü, formel akıl yürütme | |
| Kod (Python, vb.) | Mantıksal yapı, kesin akıl yürütme | İngilizce diller arası aktarıma yardımcı olur |
| Matematik metinleri, bilimsel makaleler | Akıl yürütme kalıpları, formel argümanlar |
SFT verisi — “ince ayar” (kalite, temiz)
Türkçe talimat-yanıt çiftleri. Temiz, hatasız. Format öğretir, akıl yürütme değil.
RLVR verisi — pekiştirmeli öğrenme (doğrulanabilir problemler)
Matematik (GSM8K tarzı, yarışma matematiği), kod problemleri, mantık bulmacaları. Türkçeye çevrilebilir.
Matematik ve mantık dile fazla bağımlı değil — 17 × 23 = ? her dilde geçerli.
Akıl yürütmenin asıl eğitildiği yer burasıdır.
11. SIRADA NE VAR
Son model dünyanın en iyisi olmasa bile, yığının her katmanını derinden anlayan kişi, en büyük modeli eğiten kişiden daha tehlikelidir. En büyük model sadece paradır. Anlamak kaldıraçtır.
12. DEPO GÖRÜNÜMÜ
| Yol | İçeriği |
|---|---|
tokenizers/turkish_bpe_64k/ | Seçilen tokenizer (64K BPE v3) |
tokenizers/turkish_bpe_{16k,32k,48k}_*/ | Tüm deneysel sürümler saklı |
tokenizers/kumru_2b_reference/ | Kumru referans karşılaştırma |
data/processed/ | 22 GB eğitim derlemi (27 dosya, 11 alan) |
train_tokenizer.py | Tokenizer eğitim betiği |
benchmark_tokenizers.py | 104 cümle kıyaslaması (21 çekirdek + 83 zor/kenar) |
docs/tokenizer-research.html | Tam tokenizer araştırma raporu (EN) |
docs/tokenizer-research_tr.html | Tam tokenizer araştırma raporu (TR) |
docs/project-context_tr.html | Bu dosya — yolculuk dokümanı |
reference_architecture/ | Konfigürasyon örnekleri, literatür taraması, README |
PROJECT_CONTEXT.md | Makine tarafından okunabilir proje bağlamı (yapay zeka oturumları için) |
Aynı zamanda endüstrinin en büyük yanılsamasını da yıktı: yapay zekânın LLM’ye eşit olduğu yanılsamasını. Değil. LLM, insan-dili-alanına-özgü bir transformer’dır — evrensel bir motorun tek bir alana uygulanması. Bunu gördüğünüzde, trilyon parametreli sohbet robotlarının fabrika zeminlerinde neden başarısız olduğunu, kurumsal LLM projelerinin %95’inin neden çöktüğünü ve cevabın neden asla “LLM’yi büyüt” olmadığını görürsünüz. Cevap: doğru alan için doğru tokenizer’ı inşa et ve küçük bir modelin, dev bir modelin asla yapamayacağını yapmasına izin ver. Tek bir sohbette byte-pair encoding’den Nietzsche’ye, oradan endüstriyel ekonomiye geldik.
Tokenizer ilk kapıyı açtı. Mimari ikincisini açtı. Önümüzde daha çok kapı var — ön eğitim, SFT, RLVR, orkestrasyon, alan modelleri. Her biri hiçbir makalenin veya dersin öğretemeyeceği bir şey öğretecek: kendi ellerinle inşa etmekten, duvarlara çarpmaktan ve nedenini çözmekten doğan anlayış. Ve her ders aynı gerçeği pekiştirecek: transformer motordur, tokenizer mercektir ve dünya kendi küçük, isabetli, amaca yönelik modellerini bekleyen alanlarla doludur.
Bu yaşayan bir dokümandır. Tamamlanan her faz, verilen her karar ve kazanılan her içgörüyle birlikte büyüyecektir.
© 2026 • Bağımsız Araştırma • Tokenizer Raporu • Tokenizer Report (EN)