Araştırmaya Dön

SIFIRDAN TÜRKÇE LLM İNŞA ETMEK “?”

Proje Bağlamı, Yolculuk & Yol Boyunca Aslında Keşfettiklerimiz

Şubat 2026 • Bağımsız Araştırma • Yaşayan Doküman

5
PLANLANAN FAZ
1
TAMAMLANAN FAZ
100M–4B
PARAMETRE ARALIĞI
128K
HEDEF BAĞLAM
64K
TOKENİZER SÖZLÜK
Bu nedir? Bu bir makale değil. Bu, anadili Türkçe bir LLM’i sıfırdan inşa etmenin yaşayan kaydı — her karar, her hata, her “aha” anı. Bir tokenizer projesi olarak başladı ve çok daha derin bir şeye dönüştü: modern yapay zekanın tüm katmanlarında bir yolculuk, byte-pair encoding’den Nietzsche’ye. Amaç saplantılı biçimde “en iyi” LLM’i yaratmak değil — her katmanı sıfırdan inşa ederek kazandığımız derin anlayış. Yol, varış noktasından daha çok şey öğretir.

İÇİNDEKİLER

1. Bu Niye Var 2. Kutup Yıldızı: Akıl Yürütme 3. Şimdiye Kadar Yolculuk 4. Faz 1: Tokenizer 5. Tokenizer’ın Açtığı Kapı 6. Adım Adım Nasıl Çalışır 7. Mimarinin Öğrettikleri 8. Tasarım Felsefesi: Az Çoktur 9. Önemli Kararlar (Kilitlenmiş) 10. Veri Stratejisi 11. Sırada Ne Var 12. Depo Görünümü

1. BU NİYE VAR

Tüm büyük dil modelleri İngilizce merkezli bir temel üzerine inşa edilmiştir. Türkçe metin GPT-4’ün tokenizer’ından geçtiğinde, olması gerekenden yaklaşık 2,7 kat daha fazla token harcar. Türkçenin sondan eklemeli yapısı — anlamın ek zincirleriyle taşındığı yapı — İngilizce için eğitilmiş tokenizer’lara yabancıdır.

Mevcut Türkçe LLM’ler (Kumru, Hamza, LlamaTurk, TURNA ve Boğaziçi, ODTÜ gibi kurumlardan çıkan çalışmalar) ciddi çalışmalar ve anlamlı sonuçlar içerir. Kimisi özel tokenizer eğitir, kimisi sıfırdan inşa eder, kimisi çok dilli temelleri genişletir. Yakından inceledikten sonra dürüst çıkarım şu: iyi işler var, ama her biri farklı ödünleşimler yapıyor — ve hiçbiri bizim aradığımız uçtan uca anlayışı vermedi. Her katmanı kendimiz inşa etmek istedik; mevcut çalışmalar kötü olduğu için değil(except kumru it is fundamentally broken), öğrenme inşa etme sürecinde gerçekleştiği için.

Motivasyon: GPT-4 veya Claude ile yarışmak değil. Bu sistemlerin nasıl çalıştığını — derinden, mekanik düzeyde — birini inşa ederek anlamak. Her faz zihni biraz daha açıyor. Tokenizer fazı tek başına, bilgi temsili hakkında hiçbir dersin veremeyeceği kadar şey öğretti. Mimari fazı, “akıl yürütme”nin gerçekte ne anlama geldiğini (ve ne anlama gelmediğini) gösterdi. Sonraki aşamalar daha da fazlasını öğretecek.

2. KUTUP YILDIZI: AKIL YÜRÜTME

Birincil hedef bilgi kapsamı değil, sohbet akıcılığı değil, benchmark puanları değil. Hedef akıl yürütme — olağanüstü mantık yeteneği. Model şunları yapabilmeli:

Model pek çok şey bilmese bile, bildikleri üzerinde doğru akıl yürütmeli. Bilgi sonradan eklenebilir; akıl yürütme yapısı eklenemez.

Kritik ayrım: “Akıl yürütmeyi öğrenmek” ile “Akıl yürütüyormuş gibi davranmak.”

Önceki ince ayar deneyimlerimizden: SFT verisine kasıtlı hata-düzeltme kalıpları koymak sonuçları her zaman daha kötü yaptı. Model “hataları yakalamayı” öğrenmiyor — hata üretmeyi öğreniyor, çünkü SFT “çıktı böyle görünmeli” der.

Gerçek akıl yürütme RL’den (RLVR) gelir — doğrulanabilir ödüllerle pekiştirmeli öğrenme. Model kendi cevaplarını üretir, yalnızca doğru nihai cevaplar için ödüllendirilir ve deneme-yanılma yoluyla etkili akıl yürütme stratejileri keşfeder. SFT format öğretir. RLVR düşünmeyi öğretir. Taklit ile öğrenme arasındaki fark budur.

3. ŞİMDİYE KADAR YOLCULUK

Yol Haritası

FAZ 1
Tokenizer
FAZ 3
Ön Eğitim
FAZ 4
SFT
FAZ 5
RLVR
FazDurumNe ÖğretiyorKapsam
1. Tokenizer TAMAM Bilgi temsili, morfoloji, veri ölçekleme 64K BPE, 22 GB derlem, 11 alan, 104 cümle kıyaslaması
2. Mimari SİRADAKİ Hesaplama nasıl akıl yürütmeye dönüşür 100M–4B parametre, 128K bağlam, yalnız-çözücü, akıl yürütme öncelikli
3. Ön Eğitim (asıl “eğitim”) BEKLİYOR “Bilgi” gerçekte ne demek Türkçe derlem üzerinde sonraki-token tahmini (teacher forcing)
4. SFT (ince ayar) BEKLİYOR Format, akıl yürütme değil Terütemiz talimat verisi. Hata yok.
5. RLVR (ödülle ileri eğitim) BEKLİYOR “Doğru” gerçekte ne demek Doğrulanabilir cevapları olan matematik/kod/mantık problemleri

4. FAZ 1: TOKENİZER — HER ŞEYİN BAŞLADIĞI YER

“Sadece bir tokenizer yap” diye başlayan iş, dilin sayılara nasıl dönüştüğünün, İngilizce merkezli tasarımın diğer dillere neden zarar verdiğinin ve veriyle sözlüğün şaşırtıcı biçimde nasıl etkileştiğinin derin keşfine dönüştü. (Tam tokenizer raporu →)

~14%
KUMRU/TABIBERT’TEN DAHA AZ TOKEN
~2,7×
GPT-4’TEN DAHA AZ TOKEN
64K
SÖZLÜK BOYUTU
22 GB
DERLEM (27 DOSYA, 11 ALAN)

Anlayışımızı değiştiren üç keşif

Keşif 1: GPT-2 regex Türkçeyi bozuyor. GPT-4, Llama 3 ve Mistral tarafından kullanılan ön-tokenizasyon regex’i, İngilizce kısaltma kalıpları ('s|'t|'re|'d) içerir ve Türkçe eklerin ilk karakterini çalar. Ankara'dır, ["Ankara", "'", "dır"] yerine ["Ankara", "'d", "ır"] olur. Bildiğimiz kadarıyla bu etkileşim daha önce hiçbir yerde belgelenmemişti.
Keşif 2: Darboğaz veri değil, sözlük. 48K sözlükte 10 GB’den 22 GB’ye veri eklenince iyileşme sadece %0,9 oldu (görünürde azalan getiri). Ama aynı 22 GB üzerinde 64K eğitildiğinde %10,1 iyileşme sağlandı. 48K tokenizer birleştirme slotlarını tüketmişti — veriyi değil. Sözlük ve veri birlikte büyütülmelidir.
Keşif 3: Düz istatistik morfolojiyi kendi başına keşfediyor. Hiçbir dilbilimsel kural programlanmadı. BPE, sıklık kalıplarından morfem benzeri sınırları doğal olarak buldu. “ev”in altı farklı dilbilgisel biçimi — ev, evde, evden, eve, evin, evler — hepsi tek token. değerlendirilmelidir (6 morfemlik ek zinciri) tek token.

Tokenizer fazı bize şunu öğretti: temsil her şeydir. Bir model Türkçe üzerinde akıl yürütebilmek için önce onu verimli biçimde okuyup yazabilmelidir. Kötü bir tokenizer, pipetten düşünmeye çalışmak gibidir — bir miktar sinyal geçer ama kapasitenin çoğu darboğaza harcanır.

Ürünler: EN raporTR raporbenchmark_tokenizers.py (104 cümle) • train_tokenizer.pytokenizers/turkish_bpe_64k/

5. TOKENİZER’IN AÇTIĞI KAPI

Tokenizer fazı bize çalışan bir 64K Türkçe BPE verdi. Ama asıl hediye kimsenin beklemediği bir şeydi: yapay zekayı, dili ve endüstrinin tamamını nasıl gördüğümüzü kökünden değiştiren bir bakış açısı. Bu, projenin tamamında şimdiye kadar öğrendiğimiz en önemli şey.

Tokenizer gerçekte nedir?

Jargonu bir kenara bırakalım. Tokenizer tek bir iş yapar: yapılandırılmış girdiyi bir sayı dizisine çevirir. Biz girdi olarak Türkçe metin kullandık. Ama algoritmada girdinin insan dili olmasını gerektiren hiçbir şey yok.

64K BPE’mizi eğitirken algoritma Türkçe işlediğini “bilmiyordu.” Bayt dizilerini gördü, sık tekrarlanan kalıpları buldu ve bunları tokenlere birleştirdi. Sonuç: girdi kalıpları → tam sayı kimlikleri. Hepsi bu. Algoritma bu kalıpların Türkçe ek mi, müzik notası mı, yoksa kimyasal bağ mı olduğunu umursamaz.

Bunu gerçekten içselleştirdiğinizde, bir daha kapanmayacak bir kapı açılır.

Her şeyi değiştiren soru

Bir “dil” nedir aslında?

Sürekli “dil modeli” diyorduk. Peki bir şeyi dil yapan ne? Sözcük dağarcığı ve dilbilgisi olan her sistem — öğeler kümesi ve bunların nasıl birleşeceğinin kuralları. İnsan dili bunun bir örneği. Tek örneği değil. Pratik yapay zeka için en önemlisi bile değil.

Müzik bir dildir. Notalar sözcük dağarcığıdır. Akor ilerlemeleri, gamlar, ritim kalıpları, tonaliteler — bunlar dilbilgisidir. Bir melodi bir “cümle”dir. Bir senfoni bir “doküman”dır. Müzik için bir “tokenizer”, nota olaylarını (perde, süre, hız, akor) tam sayı kimliklerine eşler. Bu token dizileri üzerinde eğitilmiş bir transformer öğrenir: bu akor ilerlemesinden sonra bu çözüm gelir. Bu ritim kalıbından sonra bu varyasyon izler. Transformer “müzik yaptığını” bilmez. Sonraki tokeni tahmin eder — aynen Türkçe kelimelerle yaptığı gibi.

Proteinler bir dildir. Amino asitler sözcük dağarcığıdır — sadece 20 temel karakter. Proteinler “cümle”dir: fiziksel kurallara göre 3B yapılara katlanan diziler. “Dilbilgisi”, hangi dizilerin alfa sarmal, hangilerinin beta tabaka oluşturduğunu, hangi kombinasyonların belirli reseptörlere bağlandığını belirler. Protein dizileri üzerinde eğitilmiş bir transformer bu dilbilgisini öğrenir — biyoloji anladığı için değil, token dizilerinde istatistiksel kalıplar bulduğu için. AlphaFold sınıfı modeller tam olarak böyle çalışır.

Kimyasal formüller bir dildir. SMILES notasyonu moleküler yapıları metin dizeleri olarak kodlar. Atomlar ve bağlar sözcük dağarcığıdır. Değerlik kuralları, halka yapıları, fonksiyonel gruplar — bunlar dilbilgisidir. Bir “tokenizer” kimyasal sembolleri tam sayılara eşler. Transformer öğrenir: bu molekül parçasından sonra bu bağlanma özelliği muhtemeldir. İlaç keşif modelleri zaten böyle çalışır.

DNA bir dildir. Dört nükleotid — A, T, C, G — tüm sözcük dağarcığı budur. Kodon üçlüleri amino asitleri kodlar. Düzenleyici bölgeler gen ifadesini kontrol eder. Genomik modeller bu dizileri tokenize eder ve mutasyonları, gen işlevini, hatta hastalık riskini tahmin etmeyi öğrenir. 4 tokenlik sözcük dağarcığı, milyarlarca yıllık evrimle kodlanmış dilbilgisi.

Bir fabrika üretim hattı bir dildir. Malzeme kodları, makine ayarları, çevre koşulları, test sonuçları — bunlar nedensel yapıya sahip diziler oluşturur. “Sözcük dağarcığı” 500–2000 token olabilir. “Dilbilgisi” fiziksel nedensellik zinciridir: PVC_bilesik_A + sicaklik_175 + hiz_15 → cekme_GECTI + shore_85. 50 milyon parametreli bir model, tek bir metre kablo üretilmeden önce üretim sonuçlarını tahmin etmeyi öğrenebilir — malzeme, enerji ve zaman tasarrufu.

Kritik açıklama: bu modeller “konuşmaz.” Çoğu insanın kafasının karıştığı nokta burası. Bir müzik modeli İngilizce müzik hakkında sohbet etmez. Girdi tokenleri notaların kendisidir — gerçek perde/süre/hız değerleri. Çıktı tokenleri de notaların kendisidir. Model tek bir kelime insan dili görmemiştir. Bir protein modeli proteinleri cümlelerle açıklamaz. Tokenleri amino asit kodlarıdır — M E T H I O N I N E …. Bir fabrika modeli “hangi sıcaklığı kullanmalıyım?” sorusuna Türkçe cevap vermez. Tokenleri sicaklik_175 hiz_15’tir ve çıktısı cekme_GECTI’dir.

Bu, bir sohbet botunu alan verisiyle ince ayar yapmak değildir. O halde hala insan dilinde alan hakkında konuşan bir LLM olurdu. Bu temelden farklı bir şeydir: modelin tüm sözcük dağarcığı, dilbilgisi ve düşünce süreci alan notasyonunun içinde var olur. İnsan dili dahil değil. Bu yüzden bu kadar küçük ve bu kadar isabetli olabilirler.
İşte o an: Biz sadece bir Türkçe tokenizer yapmadık. Tokenizasyonun temelde ne olduğunu öğrendik. Ve bir kez gördüğünüzde, bir daha görmezden gelemezsiniz: dizisel yapısı olan her alan, kendi tokenizer’ını ve kendi modelini bekleyen bir “dil”dir. LLM değil. Sohbet botu değil. Amaca yönelik bir dizi tahmin edici.

Her kapıyı açan beş adımlık zincir

  1. Tokenizer sadece şudur: yapılandırılmış kalıplar → sayılar
  2. Transformer sadece şudur: önceki sayılardan sonraki sayıyı tahmin etmeyi öğren
  3. “Dil modeli”, bu sayılar kelimeleri temsil ettiğinde verdiğimiz isimdir
  4. Dizisel yapısı olan HER veri tokenize edilebilir
  5. Dolayısıyla: transformer evrensel bir dizi öğrenicisidir, “dil” modeli değil

Her alan bir dildir

Alan“Sözcük Dağarcığı”“Dilbilgisi”“Cümleler”Model Boyutu
İnsan dili Kelimeler, alt-kelimeler (64K BPE) Sözdizimi, anlam, edimbilim Paragraflar, makaleler, kitaplar Milyarlar (açık uçlu)
Müzik Notalar, akorlar, suslar, nüanslar Armoni, ritim, tonalite, form Melodiler, ilerlemeler, eserler Yüz milyonlar
Proteinler 20 amino asit Katlanma kuralları, bağlanma ilgileri Protein zincirleri Milyonlar–düşük milyarlar
Kimya (SMILES) Atomlar, bağlar, halka işaretleri Değerlik, kararlılık, reaktivite Moleküler yapılar Yüz milyonlar
Kod Anahtar kelimeler, operatörler, tanımlayıcılar Sözdizimi kuralları, tip sistemleri Fonksiyonlar, programlar Yüz milyonlar–milyarlar
DNA / Genomik 4 nükleotid (A, T, C, G) Kodon kuralları, düzenleyici kalıplar Gen dizileri Milyonlar–yüz milyonlar
Kablo fabrikası Malzeme kodları, makine ayarları Girdi → çıktı nedensellik Üretim koşuları 10–50M
Herhangi bir fabrika / lab / klinik Alana özel kodlar Alana özel nedensel kurallar Süreç kayıtları 10–100M
“Konuşma” aslında EN ZOR uygulamadır. Tabloya bakın. İnsan dili milyarlarca parametre gerektirir çünkü belirsiz, açık uçlu, kültüre bağlı ve geniş dünya bilgisi gerektirir. Diğer her alan daha basit: daha küçük sözcük dağarcıkları, daha net kurallar, ölçülebilir doğruluk. Endüstri en zor duruma takıntılıyken, dünyadaki her yapılandırılmış veri setinde yatan devasa değeri görmezden geliyor.

Kablo fabrikası — somut bir örnek

Bu varsayımsal değil. Her kablo fabrikası her gün şu tarz veri üretir:

Bu model, bu görev için GPT-4’ten daha isabetli, kat kat daha ucuz, dizüstü bilgisayarda çalışır, özel verilerinizi gizli tutar ve Türkçe LLM inşa ederken öğrendiğimiz birebir aynı becerilerle yapılır: tokenizer tasarımı, mimari seçimi, eğitim hattı optimizasyonu.

Bunun anlamı: açılan kapılar

Bunu kavradığımız an, projenin kapsamı “bir Türkçe LLM yap”tan “herhangi bir alan için herhangi bir dizi modeli yapmayı öğren”e dönüştü. Olasılıklar:

LLM her şeyi öğreten zor yoldur. En zor dizi modeli türünü inşa etmeyi seçtik — insan dilini işleyen bir model. Yol boyunca tokenizer tasarımı, mimari seçimleri, eğitim dinamikleri, veri stratejisi, değerlendirme metodolojisi öğreniyoruz. Bu becerilerin her biri herhangi bir alana özel model inşasına doğrudan aktarılır. Türkçe LLM hedef değil, eğitim sahasıdır. Asıl ödül anlayıştır ve anlayışın tavanı yoktur.

Tuzak: araç yerine tanrı inşa etmek

“Belki insan zihni tekrar bir tanrı arıyor — Nietzsche’nin öldürdüğü tanrıyı.”
— mimari tartışmamızdan, endüstrinin tek bir her şeyi bilen yapay zeka inşa etme saplantısı üzerine

Yapay zeka endüstrisi, her şeyi doğal dil aracılığıyla cevaplayan kadir-i mutlak bir sohbet varlığı inşa etmek için milyarlar döküyor — dijital bir tanrı. Her problem “yapay zekaya sor”a indirgeniyor.

Ama artık net görüyoruz: gerçek dünyadaki en değerli problemlerin çoğu sohbete ihtiyaç duymaz. Tahmin, kalıp tanıma, optimizasyon ister. “Konuşma” katmanı, asıl ihtiyacınız “bu kablo çekme testini geçecek mi?” olduğunda pahalı bir yüktür.

Alan tahmincisine ihtiyacınız varken tam bir LLM inşa etmek, bisiklete ihtiyacınız varken Boeing 747 yapmak gibidir. Bisiklet daha basit, ucuz ve sizi gideceğiniz yere daha hızlı götürür — markete gidiyorsanız tabii.

Orkestra vizyonu

Gelecek tek bir devasa model değil. Orkestrasyondur: her biri kendi alanı için optimize edilmiş birden fazla küçük, uzman model, birlikte çalışır.

PLANLAMACI
İstekleri yönlendirir
AKIL YÜRÜTÜCÜ
Mantık ve parçalama
UZMAN
Alan bilgisi
ARAÇLAR
Hesap makinesi, kod, arama

Biz akıl yürütücüyü inşa ediyoruz. Uzmanlar fabrika modelleri, tıp modelleri, finans modelleri olabilir — her biri küçük, her biri isabetli, her biri şu an öğrendiğimiz becerilerle inşa edilmiş.

6. ADIM ADIM NASIL ÇALIŞIR: HER ALAN İÇİN ÖRNEKLERLE

Bölüm 5, her alanın bir dil olduğunu ve her dizinin tokenize edilebileceğini iddia etti. Bu hâlâ soyut gelebilir. O yüzden somutlaştıralım. Aşağıda beş farklı alan için makinenin içinde tam olarak ne olduğunu — ham girdiden son çıktıya — gösteren örnek yürüyüşler var. Süreç her seferinde birebir aynı. Sadece tokenlar değişiyor.

① Dil modeli (Türkçe LLM)

Kullanıcı soruyor: Ankara'nın nüfusu kaçtır?

Adım 1 — Tokenize et (metin → sayılar). Tokenizer her parçayı 64K kelime haznesinde arar:
“Ankara” → 3847  | “'nın” → 129  | “nüfusu” → 8412  | “kaçtır” → 5903  | “?” → 30
Model şunu alır: [3847, 129, 8412, 5903, 30]. Bunların Türkçe kelimeler olduğundan haberi yok. Beş tamsayı görüyor.

Adım 2 — Model işler (sayılar → sayılar). Transformer bu 5 tamsayıyı alır, her birini 2048 boyutlu bir vektöre dönüştürür, 22 katman dikkat ve ileri-beslemeli ağdan geçirir. Sonunda 64.000 token üzerinde bir olasılık dağılımı üretir: “sıradaki token hangisi?” Seçimi: token 11297.

Adım 3 — Detokenize et (sayılar → metin). Tokenizer 11297’yi kelime haznesinde arar: 11297 → “Yaklaşık”. Çıktıya eklenir.

Adım 4 — Tekrarla. Şimdi model [3847, 129, 8412, 5903, 30, 11297] görür ve sıradaki tokeni tahmin eder. Sonra bir sonrakini. Token token cevap oluşur:
11297 → “Yaklaşık” | 642 → “5” | 1830 → “milyon” | 7741 → “kişidir” | 4 → “.”

Son çıktı: Yaklaşık 5 milyon kişidir.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Tokenizer her kelimeyi 64K kelime haznesinde bulur. Model token dizisini işler ve token token bir cevap üretir: “Ankara bir başkenttir, bir ilin başkenti değildir.” Çalışır. Bu model Türkçe metin için inşa edildi. Türkçe kelimeler onun ana tokenlarıdır. Sohbet, tam olarak eğitildiği şeydir.

② Müzik modeli

Bağlam: Binlerce MIDI dizisi üzerinde eğitilmiş bir model. Kelime haznesi: ~2000 token (nota perdeleri, süreler, hızlar, akorlar, suslar).

Adım 1 — Tokenize et (notalar → sayılar). Bir akor ilerlemesi kodlanır:
“C_maj” → 42  | “quarter” → 7  | “G_maj” → 58  | “quarter” → 7  | “Am” → 51  | “quarter” → 7  | “F_maj” → 47  | “quarter” → 7
Model şunu alır: [42, 7, 58, 7, 51, 7, 47, 7]. Kelime yok. Dil yok. Sadece I–V–vi–IV ilerlemesini temsil eden tamsayılar.

Adım 2 — Model işler. Transformer tahmin eder: bu ilerlemeden sonra en olası token 42.

Adım 3 — Detokenize et (sayılar → notalar). 42 → “C_maj”. İlerleme toniğe döner.

Adım 4 — Tekrarla. Sıradaki token: 12 → “half” (yarım nota süresi). Sonra: 71 → “E4” (melodi notası). Token token bir melodi bestelenir.

Hiçbir adımda kelime kullanılmadı. Model müzik “konuşur.” Kelime haznesi notalardır. Çıktısı çalınabilir bir MIDI dizisidir.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Adım 1 anında çöker. Tokenizer “Ankara”yı kelime haznesinde arar. Kelime haznesi: C_maj, quarter, E4, rest — notalar, süreler, akorlar. Türkçe kelime yok. Hiçbir dilin kelimesi yok. “Ankara” mevcut değil. “Başkent” mevcut değil. “Nedir” mevcut değil. Girdi sayılara dönüştürülemez bile. Modele verilecek bir şey yok. Bir Türkçe cümleyi piyano rulosuna sokmaya çalışmak gibi. Yanlış cevap değil — cevap vermek mümkün değil. Model hayatında bir kelime görmedi. Kelimenin ne olduğunu bilmiyor. Sorunun ne olduğunu bilmiyor. “Sohbet”in ne demek olduğunu bilmiyor.

③ Protein modeli

Bağlam: Milyonlarca bilinen protein dizisi üzerinde eğitilmiş bir model. Kelime haznesi: 25 token (20 amino asit + başlangıç/bitiş/dolgu/bilinmeyen/maske).

Adım 1 — Tokenize et (amino asitler → sayılar). Bir protein parçası:
“M” → 1  | “A” → 5  | “L” → 10  | “W” → 17  | “K” → 9  | “L” → 10  | “P” → 12
Model şunu alır: [1, 5, 10, 17, 9, 10, 12]. İngilizce yok. Türkçe yok. Sadece amino asit kimlikleri.

Adım 2 — Model işler. Bu dizi verildiğinde transformer sıradaki amino asiti tahmin eder. 25 token üzerinde bir dağılım üretir. En yüksek olasılık: token 4.

Adım 3 — Detokenize et (sayılar → amino asitler). 4 → “V” (Valin). Protein zinciri uzar.

Adım 4 — Tekrarla. Model “BİTİŞ” tokenini tahmin edene kadar devam eder. Çıktı, katlanma, bağlanma veya işlev açısından analiz edilebilecek eksiksiz bir protein dizisidir.

Kelime haznesi: 25 token. İnsan dili yok. Sadece biyokimya, bir dizi olarak.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Adım 1 çöker. Tokenizer’ın tüm kelime haznesi: M, A, L, W, K, P, V, G, I, F, Y, C, H, R, N, D, E, Q, S, T, START, END, PAD, UNK, MASK. Yirmi beş token. Hepsi amino asit. “Ankara”? Tokenizer tek tek harfleri eşleştirebilir — A, n, k, a, r, a — ama “n” bir amino asit değil. “k” bir amino asit değil. Çoğu karakter UNK (bilinmeyen) olur. Model bir dizi bilinmeyen ve rastgele amino asit eşleşmesi alır: [UNK, 5, UNK, UNK, UNK, 5, UNK, UNK, UNK...]. Zorla çalıştırılırsa rastgele bir protein parçası üretir — cevap değil, cümle değil, anlamsız amino asit gürültüsü. Dil, soru veya iletişim kavramı yok.

④ Kablo fabrikası modeli

Bağlam: 50.000 üretim kaydı üzerinde eğitilmiş bir model. Kelime haznesi: ~800 token (malzeme kodları, makine ayarları, test sonuçları).

Adım 1 — Tokenize et (üretim verisi → sayılar). Mühendis yeni bir üretim ayarı girer:
“[MALZEME]” → 1  | “PVC_A7” → 34  | “[SICAKLIK]” → 2  | “175” → 412  | “[HIZ]” → 3  | “15” → 287  | “[BASINC]” → 4  | “8” → 193  | “[TAHMİN]” → 5
Model şunu alır: [1, 34, 2, 412, 3, 287, 4, 193, 5]. Cümle değil. Yapılandırılmış bir üretim özelliği.

Adım 2 — Model işler. Transformer çıktı olarak token 601 üretir.

Adım 3 — Detokenize et (sayılar → sonuçlar). 601 → “kopma_GEÇTİ”.

Adım 4 — Tekrarla. Sıradaki tokenlar: 622 → “uzama_420” | 709 → “alev_V0” | 685 → “sertlik_85”.

Son çıktı: kopma_GEÇTİ uzama_420 alev_V0 sertlik_85
Mühendis artık — üretimden önce — bu ayarın tüm testleri geçeceğini biliyor. 800 token. 10M parametre. Dizüstü bilgisayarda çalışır. Hiçbir adımda insan dili yok.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Adım 1 çöker. Tokenizer şunları bilir: [MALZEME], PVC_A7, [SICAKLIK], 175, [HIZ], kopma_GEÇTİ — 800 token, hepsi üretim kodu ve test sonucu. Tek bir insan kelimesi yok. “Ankara” bir malzeme değil. “Başkent” bir makine ayarı değil. “Nedir” bir test sonucu değil. Girdi tokenize edilemez. Rastgele token eşleştirmesi zorlansa bile model sertlik_72 uzama_310 alev_V1 gibi bir şey üretir — anlamsız bir üretim tahmini. Tüm varlığı boyunca bir insan cümlesiyle hiç karşılaşmadı. İnsanların var olduğunu bilmiyor. Kabloları biliyor.

⑤ DNA / Genomik modeli

Bağlam: Genom dizileri üzerinde eğitilmiş bir model. Kelime haznesi: 7 token (A, T, C, G + başlangıç/bitiş/bilinmeyen).

Adım 1 — Tokenize et (nükleotidler → sayılar). Bir gen parçası:
“A” → 1  | “T” → 2  | “G” → 3  | “C” → 4  | “G” → 3  | “A” → 1  | “T” → 2
Model şunu alır: [1, 2, 3, 4, 3, 1, 2]. Yedi sayı. Model DNA’nın ne olduğunu bilmiyor.

Adım 2 — Model işler. Bu bağlam verildiğinde transformer tahmin eder: en olası sıradaki token 4 (C).

Adım 3 — Detokenize et. 4 → “C”.

Adım 4 — Tekrarla. Model dizinin geri kalanını üretir; bu dizi daha sonra gen işlevi, mutasyon riski veya düzenleyici örüntüler açısından analiz edilebilir.

Kelime haznesi: 7 token. Mümkün olan en küçük “dil.” Aynı transformer. Aynı süreç.

Bonus — ya Ankara’nın başkenti nedir? diye sorsaydık?
Adım 1 çöker. Kelime haznesi: A, T, C, G, START, END, UNK. Yedi token. “Ankara” şuna dönüşür: [A, UNK, UNK, A, UNK, A] — sadece A harfini görebilir çünkü Adenin aynı sembolü paylaşır. Geri kalanı bilinmeyen. Model şöyle bir şey üretir: T G C A A T G C — bir DNA dizisi parçası. Kelime değil. Cümle değil. Nükleotid dizisi. Hayatında insan dili görmedi. Yedi tokeni var. Alfabeyi bile temsil edemez, düşünce oluşturmak bir yana.
Örüntüyü görüyor musunuz? Yukarıdaki her örnek birebir aynı dört adımı izler:

1. Alan girdisi → tokenizer → tamsayı dizisi
2. Tamsayı dizisi → transformer → tahmini sıradaki tamsayı
3. Tahmini tamsayı → tokenizer (ters yön) → alan çıktısı
4. Bitene kadar tekrarla

Ve Bonus örnekleri daha da önemli bir şeyi ortaya koyar:

Alana özgü bir model “konuşmaz.” İnsan dilinin ne olduğunu bilmez. Sorunun ne olduğunu bilmez. Sohbetin ne olduğunu bilmez. Hayatında kelime görmemiştir. Ankara’nın başkenti nedir? yazdığınızda müzik modeline, girdi makineye giremez bile — tokenizer’ın insan kelimeleri için eşleştirmesi yoktur. Protein modeline zorladığınızda rastgele amino asitler döner. Fabrika modeline zorladığınızda kablo test sonuçları döner. DNA modeline zorladığınızda nükleotidler döner.

İşte kritik ayrım: LLM, transformer modelinin sadece bir türüdür — tokenizer’ın insan kelimelerini sayılara eşlediği ve eğitim verisinin insan sohbetleri ve metinleri olduğu bir tür. “Konuşma” yeteneğini veren budur. Kelime tabanlı tokenizer’ı kaldırın, Wikipedia yerine MIDI dosyalarıyla eğitin — müzik besteleyen ama hayatı buna bağlı olsa “merhaba” diyemeyecek bir model elde edersiniz. Transformer motoru aynıdır. Tokenizer, modelin hangi dünyada yaşadığına karar verir.

İnsanlar LLM’lerin kelimeleri dahili olarak sayılara çevirdiğini bilir. Sıklıkla kaçırdıkları şey şu: alana özgü modeller kelimeleri sayılara çevirmez — kelime almak için hiç tasarlanmamışlardır. Tokenizer’ları tamamen farklı bir dil konuşur: notalar, amino asitler, makine kodları, nükleotidler. Alanlarını dil aracılığıyla “bilmezler” — alanlarının ana tokenlarıyla düşünürler, tıpkı bir LLM’nin kelimelerle düşünmesi gibi.

Şimdi LLM abartısının pratikte verdiği zararı gözünüze getirin. Bir kablo fabrikasının, yeni bir malzeme-makine konfigürasyonu için test sonuçlarını tahmin etmesi gerekiyor. “Yapay zekâ = LLM” anlayışı diyor ki: bir dil modeli kur (veya satın al). Ve başlıyorlar. Faz 1: metin üzerinde tokenizer eğit — haftalar. Temel modeli milyarlarca kelimeyle eğit ki konuşmayı öğrensin — aylar, yüz binlerce dolar hesaplama maliyeti. Faz 2: alan belgelerine ince ayar yap — daha fazla hafta, daha fazla başarısız deneme, daha fazla maliyet. Faz 3: doğruluğu artırmak için pekiştirmeli öğrenme — daha fazla gün, daha fazla hafta. Ve tüm bunlardan sonra, bu devasa sisteme gerçek girdi ne? Bir sohbet mesajı:
“Merhaba, malzemeler XLPE, CAT113, RAL9100 boya. Makine ayarları: ekstrüder hızı 12, sıcaklık 185, basınç 8. Test sonuçları ne olur?”

Bu girdiyi tekrar okuyun. Gerçekten okuyun. Bir makineye insan dilini anlamayı öğretmek için aylar harcadınız — sırf zaten yapılandırılmış veri olan bir şeyi sohbet kılığında yazmak için. Modelin şimdi doğal dili ayrıştırarak zaten elinizde olan yapılandırılmış değerlere geri dönmesi, halüsinasyon yapmamasını umması ve sonra sizin tekrar ayrıştırmanız gereken doğal dilde bir cevap üretmesi gerekiyor. Aylara ve servetlere mal olan bütün bir insan-dili katmanı eklediniz — doğrudan yolun etrafında bir dolambaç olarak.

Doğrudan yol mu? 800 tokenlı bir alan tokenizer’ı. Girdi: [1, 34, 2, 412, 3, 287, 4, 193, 5]. Çıktı: kopma_GEÇTİ uzama_420 alev_V0 sertlik_85. Sohbet yok. Ayrıştırma yok. Halüsinasyon yok. 10M parametre. Gerçek üretim kayıtlarıyla saatler içinde eğitilir. Dizüstü bilgisayarda çalışır. Tüm LLM hattı — aylık ön eğitim, ince ayar, pekiştirmeli öğrenme, prompt mühendisliği — sadece doğrudan bir diziden-diziye tahmin olması gereken şeyin üstüne bir sohbet arayüzü eklemek için vardı. Tokenizasyonu anlamamanın bedeli budur.

Tokenizer’ları anlamanın yolculuğumuzun en önemli ilk adımı olmasının sebebi budur. Mesele sadece Türkçe morfolojisi değildi. Mesele, tokenizer’ın herhangi bir alan ile ondan öğrenen makine arasındaki tüm arayüz olduğunu anlamaktı. Tokenizer’ı değiştir, modelin yaşadığı dünyayı değiştir. Motor aynı kalır.
Tekrar hatırlatmaya değer.

LLM, insan-dili-alanına-özgü bir transformer’dır. Ne daha fazlası, ne daha azı. “Yapay zekâ” değildir. Bir dizi öğrenme mimarisinin tek bir alana — insan metnine — uygulanmış halidir. Yapay zekâ, LLM’ye eşit değildir.

Tokenizasyon gerçekten anlaşıldığında, bu artık bir anlam tartışması olmaktan çıkar ve bir mühendislik keşfine dönüşür. Mesele “İngilizce protein modeline Türkçe konuşturmak” değildir. Protein modeli hiç konuşmaz — ne Türkçe, ne İngilizce, ne başka bir insan dilinde. Amino asit dizileriyle iletişim kurar. Fabrika modeli üretim kodlarıyla iletişim kurar. Müzik modeli notalarla iletişim kurar. Bunlar insan diline tamamen yabancı, birbirinden tamamen farklı iletişim biçimleridir — sonarın konuşmaya yabancılığı kadar.

Ve tam da bu yüzden endüstrinin giderek büyüyen LLM’lere olan takıntısı, gerçek dünya problemleri için bir çıkmaz sokaktır. Etkileyici “konuşan” 500 milyar parametreli bir model, demo olarak muhteşemdir. Ama belirli ekstrüzyon parametreleriyle bir kablonun kopma testini geçip geçemeyeceğini sorduğunuzda, ikna edici görünen ama tamamen yanlış bir paragraf uydurur — çünkü hayatında bir üretim kaydı görmemiştir. Dil örüntülerini öğrenmiştir, fiziği değil. Araştırmalar tutarlı olarak gösteriyor: kurumsal LLM uygulamalarının yaklaşık %95’i gerçek değer üretemiyor. Sebebi teknolojinin kötü olması değil. Sebebi aracın iş için yanlış olması. Şirketler, alana özgü dizi problemlerini bir insan-sohbet makinesiyle çözmeye çalışıyor — ve neden çalışmadığını merak ediyor.

Trajedi şu ki bu başarısızlık genellikle “yapay zekâ hazır değil” diye yorumlanıyor; oysa yapay zekâ hazır — sadece çoğu insanın satın aldığı formda değil. 800 tokenlı, gerçek üretim verileriyle eğitilmiş 10 milyon parametreli bir alan modeli, o alanda bir trilyon parametreli LLM’yi her seferinde yener — maliyetin küçük bir kesriyle, dizüstü bilgisayarda çalışarak, sıfır halüsinasyonla, çünkü kelime haznesindeki her token gerçek bir şeye karşılık gelir.

Abartılı reklam “yapay zekâ”yı “sohbet robotu”yla özdeşleştirdi ve bu özdeşleştirme endüstrilere milyarlara mal oluyor. Tokenizasyonu anlamak çıkış yoludur. Transformer’ın evrensel bir motor, tokenizer’ın değiştirilebilir bir mercek olduğunu gördüğünüzde, tüm manzara değişir. Soru artık “LLM’ye fabrikamı nasıl anlatabilirim?” değildir. Soru şu olur: “Fabrikamın hangi tokenizer’a ihtiyacı var?”

7. MİMARİNİN AKIL YÜRÜTME HAKKINDA ÖĞRETTİKLERİ

Bölüm 5 ve 6 bize transformer’ın evrensel bir dizi öğrenicisi olduğunu — aynı dört adım, her alan — gösterdiyse, bu bölüm şunu sorar: bir dizi öğrenicisi, akıl yürütmeye benzeyen bir şeyi nasıl geliştirir? Mimariyi anlamak için önce “akıl yürütme”nin bir sinir ağının içinde gerçekte ne anlama geldiğini — ve ne anlama gelmediğini — kavramak gerekti. Unutmayın: aşağıdaki her şey sadece LLM’ler için değil, herhangi bir dizi modeli için geçerlidir — bir dil modelinin Türkçe üzerinde “akıl yürütmesini” sağlayan aynı mekanizmalar, bir protein modelinin katlanma üzerinde “akıl yürütmesini” de sağlar. (Detaylı mimari araştırma sayfası, tokenizer raporu gibi ayrıca yayınlanacak.)

Eğitim hattı (sıralı, tercih değil)

ÖN EĞİTİM
“Eğitim” — dil ve kalıpları öğren
SFT
“İnce ayar” — format öğren
RLVR
Pekiştirmeli öğrenme — akıl yürütme öğren

Bunlar birbirinin alternatifi değil. Sıralı aşamalardır ve her biri kökten farklı şeyler öğretir:

FazGirdiAlgoritmaNe Öğretiyor
Ön Eğitim (herkesin “eğitim” dediği aşama) Ham metin (soru-cevap çifti yok) Her pozisyonda sonraki tokeni tahmin et Dil, olgular, akıl yürütme kalıpları
SFT (herkesin “ince ayar” dediği aşama) Temiz talimat-yanıt çiftleri Aynı (sonraki-token tahmini) Talimat takip etme. Akıl yürütme DEĞİL.
RLVR (doğrulanabilir ödüllerle pekiştirmeli öğrenme) Doğrulanabilir cevapları olan problemler Üret → doğrula → ödüllendir/cezalandır Öz düzeltme, parçalama, gerçek akıl yürütme

Ne genelleşir, ne genelleşmez

YetenekNasıl ÖğrenilirGenelleşir mi?
Olgular (“Ankara başkenttir”)Veriden ezberlenirHayır — sadece gördüklerini bilir
Küçük aritmetik (2+3=5)Kalıp ezberlemeKısmen (~4–5 basamak)
Büyük aritmetik (234871...+12309...)Kesin hesaplama gerektirirHayır — LLM’ler güvenilir biçimde yapamaz
Mantıksal yapı (A→B, B→C ⇒ A→C)Vektör uzayında soyut dönüşüm öğrenirEvet — yeni içeriklere aktarılır
Problem parçalamaYapısal kalıp öğrenirEvet — alanlar arasında aktarılır
Araç kullanımı (“bunun için hesap makinesi lazım”)NE ZAMAN başkasına devretmeli öğrenirEvet — gerçek genelleme
Temel içgörü: genelleme = YAPI öğrenmek, cevap değil.

Model “2+3=5”i ezberlemez. Binlerce örnekten toplama işleminin yapısını öğrenir. Küçük sayılarda işe yarar. Büyük sayılarda çöker — çünkü çok basamaklı elde taşıma, sonraki-token tahmininin güvenilir başarabileceğinin ötesindedir. Gerçek genelleme NE YAPILACAĞINI bilmektir (“bunun için hesap makinesi lazım”), hesaplamayı bizzat yapmak değil.

Öz düzeltme nasıl çalışır (mekanistik olarak)

Bir LLM hatalarını bizim gibi “fark etmez.” Her token pozisyonunda dikkat mekanizması önceki tüm tokenleri görebilir. Bağlam biriktikçe tutarsızlıklar istatistiksel olarak görünür hale gelir — olasılık dağılımı düzeltme tokenlerine doğru kayar. “Geri izleme” gerçek anlamda geri izleme değildir: model yön değiştiren yeni tokenler üretir (“dur, bu yanlış…”). Yanlış tokenler bağlamda durmaya devam eder.

Bu öz düzeltme becerisi verideki hata-düzeltme kalıplarından değil, RL eğitiminden gelir. RL, hem öz düzeltme yapan hem de doğru cevaplara ulaşan akıl yürütme zincirlerini ödüllendirir. Model “işini kontrol etmenin” kârlı bir strateji olduğunu kendi keşfeder.

S: Akıl yürütme mi, taklit mi?

Dürüst cevap: bilmiyoruz. Model veriden akıl yürütme kalıpları öğrenir. Yeni bir problemle karşılaştığında bu kalıpları uygular. Peki bu “gerçek akıl yürütme” mi yoksa “ileri düzey kalıp eşleştirme” mi? Tartışma henüz çözülmedi. Kanıtlar karmaşık: modeller özgün problemleri çözebiliyor (taklidi aşan genelleme) ama aynı problemlerin ufak varyasyonlarında çuvallayıyor (kalıp eşleştirme).

Bizim pratik cevabımız: bu ayrım belki de önemli değil. Asıl önemli olan: model daha önce görmediği problemlerde doğru cevaplara ulaşabiliyor mu? Bu ölçülebilir bir şey. RLVR, modeli yüzeysel taklitten sağlam uygulamaya doğru iter — doğru görünmeyi değil, doğruluğu ödüllendirerek.

S: Bir dil modeli için “doğru” nedir?

Alan“Doğru”nun AnlamıDoğrulanabilir mi?
MatematikCevap doğru (2+2=4)Evet
KodDerlenir ve testleri geçerEvet
MantıkSonuç öncüllerden çıkarÇoğunlukla evet
Genel dilTutarlı, ilgili, insanlar tarafından tercih edilenHayır — öznel
Daha derin içgörü: Genel “konuşma” için mutlak bir doğru yoktur. Ama akıl yürütme süreci, cevap öznel olsa bile doğru yapılabilir. “X hakkında ne düşünüyorsun?” sorusunun tek doğru cevabı yok — ama soruyu parçalara ayırmak, birden fazla bakış açısını değerlendirmek, ödünleşimleri belirlemek ve tutarlı bir konuma varmak: bu süreç iyi veya kötü yapılabilir. Mantıksal geçerlilik evrenseldir. Matematik, felsefe, hukuk, yemek — hepsinde geçerlidir. Akıl yürütmenin biçimi alanlar arası aktarılır.

S: LLM akıl yürütmesi = arama algoritmaları?

Mimari tartışmasından doğan bir içgörü: LLM’lerin öz düzeltmesi ağaç aramasına benzer (yolları keşfet, değerlendir, yönlendir). Ancak kritik farklar var:

  1. Ağaç önceden mevcut değil — token token üretilir
  2. Gerçek geri izleme yok — sadece ileri düzeltmeler (“dur, bu yanlış…”)
  3. Genel dil için “doğru” düğüm yok — sadece doğrulanabilir alanlarda (matematik, kod, mantık)

Akademide bu konu Tree of Thoughts, Process Reward Models ve LLM’ler için MCTS olarak formelleştirilmiştir. Benzetme yapısal olarak geçerlidir ama mekanik düzeyde çöker. Yine de önemli bir şey ima eder: küçük modeller yeterli düşünme bütçesiyle iyi “arama” yapabilir (genişletilmiş düşünme = daha geniş arama alanı).

8. TASARIM FELSEFESİ: AZ ÇOKTUR

100M–4B
PARAMETRE ARALIĞI (ESNEK)
ÖLÇEK BİR TASARIM TERCİHİDİR
Kalite
NİCELİKTEN ÖNCE — HER ZAMAN

Tek bir ölçeğe bağlı değiliz. 100M, 360M, 1B, 2B, 3B, 4B — hepsine açığız ve “az” demek “sınırlı” demek değil. İnancımız: son derece optimize bir mimari ve ön eğitimle küçük modeller büyüklere yetişebilir, hatta yaklaşabilir.

Bölüm 5’te keşfettiğimiz gibi, bu felsefe LLM’lerin çok ötesine geçer. Dizisel yapısı olan her alan, kendi küçük, isabetli modeline sahip olabilir. Dünya uzman modelleri orkestra olarak birleştirmeye doğru ilerliyor — ve biz bunu inşa edecek konumdayız.

9. ÖNEMLİ KARARLAR (KİLİTLENMİŞ)

KararSeçimGerekçe
Tokenizer64K BPE v3 (kendi yaptığımız)Kumru/TabiBERT’ten ~%14, GPT-4’ten ~2,7 kat daha verimli
MimariYalnız-çözücü (decoder-only)Üretici akıl yürütme LLM’leri için standart; kodlayıcı ayrı bileşen olarak eklenebilir
Parametre aralığı100M–4B“Az çoktur” — optimize mimari, ağırlığının üzerinde yumruk atabilir
Bağlam uzunluğu128K tokenDava dosyaları, tezler, kitaplar tek seferde işlenebilir
Pozisyon kodlamasıRoPE sorgulanıyorÖnceki ince ayarlarda RoPE ile uzun bağlamda felaket sonuçlar. ALiBi/öğrenilmiş veya kanıtlanmış düzeltme tercih edilir.
Eğitim hattıÖn Eğitim (eğitim) → SFT (ince ayar) → RLVR (pekiştirmeli öğrenme)Sıralı aşamalar, her biri farklı şey öğretir. Tercih değil, zorunluluk.
SFT veri kalitesiTerütemizDeneyimle doğrulandı: SFT verisindeki hatalar = model hata üretmeyi öğrenir
Literatür taramasıHer derin karardan önce zorunluarXiv, HF, ACL kullan, sadece Google değil. Aşırı özgüvenli ama güncel olmayan tavsiyelerden kaçın.

10. VERİ STRATEJİSİ

Bu bölüm Türkçe LLM’miz için veri stratejisine odaklanır. Ama Bölüm 5’in penceresinden bakın: aşağıda anlatılan her şey bir şablondur. “Türkçe metin” yerine “protein dizileri” veya “üretim logları” koyun, aynı hat yapısı geçerlidir — sadece farklı bir tokenizer ve farklı alan verisiyle.

Ön eğitim verisi — “eğitim” (miktar, çeşitlilik)

Ham Türkçe metin — soru-cevap çifti yok, biçimlendirme yok. Model kesintisiz metin okur ve her pozisyonda bir sonraki tokeni tahmin eder.

KaynakAmaçDağılım
Türkçe Vikipedi, haber, kitap, forumDil yapısı, dilbilgisi, akıcılık%80–90 Türkçe
%10–20 İngilizce
Hukuk, tıp, bilim, finans metinleriAlan sözlüğü, formel akıl yürütme
Kod (Python, vb.)Mantıksal yapı, kesin akıl yürütmeİngilizce diller arası
aktarıma yardımcı olur
Matematik metinleri, bilimsel makalelerAkıl yürütme kalıpları, formel argümanlar

SFT verisi — “ince ayar” (kalite, temiz)

Türkçe talimat-yanıt çiftleri. Temiz, hatasız. Format öğretir, akıl yürütme değil.

RLVR verisi — pekiştirmeli öğrenme (doğrulanabilir problemler)

Matematik (GSM8K tarzı, yarışma matematiği), kod problemleri, mantık bulmacaları. Türkçeye çevrilebilir. Matematik ve mantık dile fazla bağımlı değil — 17 × 23 = ? her dilde geçerli. Akıl yürütmenin asıl eğitildiği yer burasıdır.

Sözel örnekler neden hâlâ gerekli: Salt soyut mantık (A→B, B→C ⇒ A→C) tek başına yetmez. Model tokenler (kelimeler/alt-kelimeler) üzerinde çalışır. Gerçek dünya cümlelerine ihtiyacı var: (1) doğal dildeki akıl yürütme durumlarını tanımak, (2) dili akıl yürütebileceği parçalara ayırmak ve (3) akıl yürütmeyi doğal dille ifade etmek. Soyut mantık küçük bir kalıp kümesidir; sözel veri modele bu kalıpları gerçek dünyayla ilişkilendirmeyi öğretir.

11. SIRADA NE VAR

TAMAM Faz 1: Tokenizer
64K BPE, 22 GB derlem, 11 alan, GPT-2 regex hatası keşfedildi, sözlük doygunluğu olgusu belgelendi.
SİRADAKİ Faz 2: Mimari
Temel mimari seçimi (100M–4B). Pozisyon kodlaması sorunu (RoPE vs ALiBi vs öğrenilmiş). Akıl yürütme öncelikli tasarım. 2025–2026 SOTA küçük modeller için literatür taraması.
Faz 3: Ön Eğitim (asıl “eğitim”)
Türkçe derlem hattını kur. Milyarlarca token boyunca sonraki-token tahmini. Dil, dünya bilgisi ve akıl yürütme kalıplarını öğren. Temel modeli sıfırdan yaratan adım budur.
Faz 4: SFT — Denetimli İnce Ayar (herkesin “ince ayar” dediği aşama)
Terütemiz talimat verisi. Modele talimat takip etmeyi ve sohbet kurmayı öğret. Yalnızca format; akıl yürütme değil. Ham temel modeli sohbet botuna dönüştüren adım budur.
Faz 5: RLVR — Doğrulanabilir Ödüllerle Pekiştirmeli Öğrenme
Matematik/kod/mantık üzerinde doğru cevaplar için modeli ödüllendir. Model deneme-yanılma yoluyla gerçek akıl yürütme stratejilerini kendi keşfeder. Kutup yıldızına ulaşacağımız yer burası.
SONRA Orkestra & Alan Modelleri
Birlikte çalışan birden fazla küçük uzman model. Bu projede kazandığımız becerilerle alana özel modeller (fabrika, malzeme, vb.) inşa etmek. Pratik kazanım.
Şimdiye kadar öğrendiklerimiz: Tokenizer fazı bilgi temsilini öğretti — ve ardından her dizisel alanın bir dil olduğunu göstererek tüm projeyi patlattı (Bölüm 5) — ve Bölüm 6 bunu somut adım adım yürüyüşlerle, alan alan kanıtladı. Mimari tartışması, bir sinir ağının içinde akıl yürütmenin gerçekte ne olduğunu (ve ne olmadığını) öğretti. Ön eğitim “bilgi”nin ne demek olduğunu öğretecek. SFT “format”ın ne demek olduğunu öğretecek. RLVR “doğru”nun ne demek olduğunu öğretecek. Her faz zihni biraz daha açıyor. Ve her ders sadece Türkçe LLM’miz için değil, herhangi bir alan için inşa edebileceğimiz herhangi bir dizi modeli için geçerli.

Son model dünyanın en iyisi olmasa bile, yığının her katmanını derinden anlayan kişi, en büyük modeli eğiten kişiden daha tehlikelidir. En büyük model sadece paradır. Anlamak kaldıraçtır.

12. DEPO GÖRÜNÜMÜ

Yolİçeriği
tokenizers/turkish_bpe_64k/Seçilen tokenizer (64K BPE v3)
tokenizers/turkish_bpe_{16k,32k,48k}_*/Tüm deneysel sürümler saklı
tokenizers/kumru_2b_reference/Kumru referans karşılaştırma
data/processed/22 GB eğitim derlemi (27 dosya, 11 alan)
train_tokenizer.pyTokenizer eğitim betiği
benchmark_tokenizers.py104 cümle kıyaslaması (21 çekirdek + 83 zor/kenar)
docs/tokenizer-research.htmlTam tokenizer araştırma raporu (EN)
docs/tokenizer-research_tr.htmlTam tokenizer araştırma raporu (TR)
docs/project-context_tr.htmlBu dosya — yolculuk dokümanı
reference_architecture/Konfigürasyon örnekleri, literatür taraması, README
PROJECT_CONTEXT.mdMakine tarafından okunabilir proje bağlamı (yapay zeka oturumları için)
Son söz. Bu proje basit bir soruyla başladı: “Daha iyi bir Türkçe tokenizer yapabilir miyiz?” Bu soru kimsenin beklemediği bir yere götürdü. Dilin sayılara nasıl dönüştüğünü öğrendik — ve sonra fark ettik ki her şey aynı şekilde sayılara dönüşüyor. Müzik, proteinler, fabrika verisi, DNA. Tokenizer sadece bir Türkçe metin aracı değildi. Herhangi bir alan ile öğrenen makine arasındaki evrensel arayüzdü. Bu tek farkındalık projeyi tamamen altüst etti.

Aynı zamanda endüstrinin en büyük yanılsamasını da yıktı: yapay zekânın LLM’ye eşit olduğu yanılsamasını. Değil. LLM, insan-dili-alanına-özgü bir transformer’dır — evrensel bir motorun tek bir alana uygulanması. Bunu gördüğünüzde, trilyon parametreli sohbet robotlarının fabrika zeminlerinde neden başarısız olduğunu, kurumsal LLM projelerinin %95’inin neden çöktüğünü ve cevabın neden asla “LLM’yi büyüt” olmadığını görürsünüz. Cevap: doğru alan için doğru tokenizer’ı inşa et ve küçük bir modelin, dev bir modelin asla yapamayacağını yapmasına izin ver. Tek bir sohbette byte-pair encoding’den Nietzsche’ye, oradan endüstriyel ekonomiye geldik.

Tokenizer ilk kapıyı açtı. Mimari ikincisini açtı. Önümüzde daha çok kapı var — ön eğitim, SFT, RLVR, orkestrasyon, alan modelleri. Her biri hiçbir makalenin veya dersin öğretemeyeceği bir şey öğretecek: kendi ellerinle inşa etmekten, duvarlara çarpmaktan ve nedenini çözmekten doğan anlayış. Ve her ders aynı gerçeği pekiştirecek: transformer motordur, tokenizer mercektir ve dünya kendi küçük, isabetli, amaca yönelik modellerini bekleyen alanlarla doludur.

Bu yaşayan bir dokümandır. Tamamlanan her faz, verilen her karar ve kazanılan her içgörüyle birlikte büyüyecektir.

© 2026 • Bağımsız Araştırma • Tokenizer RaporuTokenizer Report (EN)