Araştırmaya Dön

TÜRKÇE BPE TOKENİZER

Anadili Türkçe Bir LLM'e Doğru: Aşama 1 — Tokenizasyon

Şubat 2026 • Bağımsız Araştırma • TAMAMLANDI

~%14
KUMRU/TABIBERT'TEN DAHA AZ TOKEN (50K)
~2,7×
GPT-4'TEN DAHA AZ TOKEN (21 CÜMLE)
64K
KELİME HACİMİ
22 GB
EĞİTİM DERLEMİ (27 DOSYA)
Özet. Yaygın kullanılan büyük dil modelleri İngilizce için tasarlanmış tokenizer'lara dayanır. Türkçe metin bu sistemlerde işlendiğinde kabaca 2× daha fazla token tüketir — on milyonlarca konuşuru etkileyen gizli bir “dil vergisi”. Bu rapor, Türkçe için özel BPE tokenizer'ın geliştirilmesini ve buna yol açan deneyleri belgeler. Geliştirme sırasında GPT-2 ön-tokenizasyon regex'inin (GPT-4, Llama ve Mistral tarafından kullanılan) Türkçe kesme işareti-ek kalıplarını bozduğu tespit edildi — daha önce belgelenmemiş bir etkileşim. Üç yinelemeli eğitim turu (11 alanda 1,7GB → 10GB → 22GB) ve sistematik kelime hacmi deneyleri (16K–64K) sonucunda bir bulgu ortaya çıktı: 48K'da görülen “azalan getiri” veri fazlalığından değil, kelime hacmi doyumundan kaynaklanıyordu; aynı derlemde 64K'ya geçiş %10,1 iyileşme sağladı. 21 cümlelik kıyaslamada kullanılan 64K tokenizer, Kumru ve TabiBERT'ten (ikisi de ~50K kelime) ~%14 daha az token kullanıyor ve GPT-4'ten kabaca 2,7× daha az. 128K bağlam uzunluğunda bu, ~149K Kumru tokenı veya ~352K GPT-4 tokenına eşdeğer Türkçe metin anlamına gelir.

İÇİNDEKİLER

1. Sorun: Dil Vergisi 2. İlgili Çalışmalar 3. Yeni Bulgu: GPT-2 Regex Türkçeyi Bozuyor 4. Mimari Kararlar 5. Eğitim Derlemi: 3 Yineleme 6. Veri ve Kelime Hacmi Ölçekleme 7. Karşılaştırma: 64K v3 vs Diğerleri 8. Alana Özel Analiz 9. Biçimbilimsel Analiz 10. Diyakritik Dayanıklılığı 11. Bağlam Penceresi: Biriken Avantaj 12. Pratik Sonuçları 13. Proje Durumu 14. Yeniden Üretilebilirlik

1. SORUN: DİL VERGİSİ

Türkçe metin büyük bir LLM'de işlendiğinde, İngilizce için tasarlanmış bir tokenizer'dan geçer. Türkçenin sondan eklemeli yapısı — anlamın eklerde yoğunlaştığı — bu tokenizer'lara yabancıdır.

Aynı cümle, farklı maliyet

TokenizerKelime HacmiTokenOran
Türkçe 64K v3 (bu çalışma)64.00091,0x
Kumru-2B50.17691,0x
GPT-4o (o200k)200.019121,3x
GPT-4 (cl100k)100.277171,9x

Test cümlesi: “Türkiye Cumhuriyeti'nin başkenti Ankara'dır.”

Yani her Türkçe API çağrısı kabaca 2× daha fazla token tüketebilir. Bağlam pencereleri orantılı olarak daha az Türkçe metin tutar; eğitim çalıştırmaları parti başına daha az cümle işler. Bu vergi metin uzadıkça katlanır.

2. İLGİLİ ÇALIŞMALAR

Birçok Türkçe dil modeli ve tokenizer mevcuttur. Hamza (Acıkgöz, “Bridging the Bosphorus”) 124M ile 1,3B parametre aralığında Türkçe LLM'ler sunar; GPT-2 ve Mistral'dan uyarlanmış modeller dahil. Hamza tokenizer'ının kelime hacmi 50.257'dir (GPT-2 ile aynı) ve Türkçe biçimbilimi için optimize edilmemiştir. TabiBERT (Boğaziçi Üniversitesi TabiLab) Türkçe NLP için 1T token üzerinde eğitilmiş ModernBERT tabanlı bir kodlayıcıdır; kelime hacmi 50.176. Kumru-2B, 50.176 kelimelik BPE tokenizer kullanır. LlamaTurk (ODTÜ NLP) Türkçe OSCAR üzerinde eğitilmiş 28K BPE tokenizer ile LLaMA'yı uyarlar.

Tutarlı bir örüntü, mevcut Türkçe çözücü LLM'lerin ~50K kelime hacminde buluşmasıdır: taban model GPT-2 olduğunda 50.257 (GPT-2 boyutu), diğerlerinde 50.176. Bu, Türkçe için sistematik kelime hacmi deneylerinden çok, İngilizce tabanlı tokenizer'ların uyarlanmasından kaynaklanıyor gibi görünür. Yazarın bildiği kadarıyla (1) GPT-2 ön-tokenizasyon regex'inin Türkçe kesme işareti eklerini bozduğunu, (2) tokenizer eğitiminde kelime doyumu ile veri doyumunu ya da (3) aynı derlemde 16K–64K kelime hacminin sistematik karşılaştırmasını raporlayan önceki bir çalışma yoktur.

3. YENİ BULGU: GPT-2 REGEX TÜRKÇEYİ BOZUYOR

Geliştirme sırasında GPT-2 ön-tokenizasyon regex'inin — GPT-4, GPT-4o, Llama 3 ve Mistral tarafından kullanılan aynı kalıbın — İngilizce kısaltma kalıplarını ('s|'t|'re|'ve|'m|'ll|'d) içerdiği ve bunun Türkçe tokenizasyonuna zarar verdiği tespit edildi.

HATA: 'd kalıbı (İngilizce “I'd” kısaltması) Türkçedeki -dA eklerinin başındaki “d”yi kendi içine alıyor — Türkçede en sık kullanılan ek ailelerinden biri (bulunma, çıkma). Aynı sorun 's (koşul eki), 't ve 'm için de geçerli.

GPT-4 Türkçe kesme işareti eklerini nasıl tokenize ediyor

Türkçe MetinGPT-4 TokenizasyonuSorun
Ankara'dır["Ankara", "'d", "ır"]'d kalıbı “dır”ın d'sini çalıyor
İstanbul'da["İstanbul", "'d", "a"]'d kalıbı “da”nın d'sini çalıyor
Ali'den["Ali", "'d", "en"]'d kalıbı “den”in d'sini çalıyor

Çözüm: temizlenmiş Türkçe regex

Türkçe MetinDüzeltilmiş TokenizasyonSonuç
Ankara'dır["Ankara", "'", "dır"]Ek tek parça kalıyor
İstanbul'da["İstanbul", "'", "da"]Ek tek parça kalıyor
Ali'den["Ali", "'", "den"]Ek tek parça kalıyor
Uygulama: Çözüm, İngilizce kısaltma kalıpları çıkarılmış özel bir ön-tokenizasyon regex'i ile dahili regex'ini kullanmayacak şekilde yapılandırılmış byte-level kodlayıcının zincirlenmesinden oluşur. Bu iki aşamalı yaklaşım Türkçe eklerin dilbilimsel olarak tek parça kalmasını sağlarken tam byte-level kapsamı korur. Asıl mesele şu: byte-level kodlayıcının varsayılan davranışı sorunlu GPT-2 regex'ini yeniden uyguluyor — açıkça devre dışı bırakılması gereken ince bir etkileşim. Yazarın bildiği kadarıyla GPT-2 regex'i ile Türkçe biçimbilimi arasındaki bu etkileşim daha önce belgelenmemiştir.

4. MİMARİ KARARLAR

BileşenSeçimGerekçe
AlgoritmaByte-level BPESektör standardı (GPT-4, Llama 3, Mistral)
NormalizasyonNFC Unicodeç, ş, ğ, ö, ü, İ için birleşik/ayrışık biçimleri birleştirir
Ön-tokenizasyonÖzel Türkçe regex + ByteLevelİngilizce kısaltmalar çıkarılmış GPT-2 tarzı
Byte-level ayarDahili regex devre dışıSorunlu kalıpların yeniden uygulanmasını engeller
Özel tokenlarLlama-3 tarzı (7 token)İleride talimat ince ayarı uyumluluğu
Min frekans2Nadir biçimbirimleri kaybetmeden yazım/gürültü filtreler
KütüphaneHuggingFace tokenizers (Rust)Üretim kalitesi, hızlı eğitim

Özel tokenlar

TokenIDAmaç
<|begin_of_text|>0Belge/dizinin başı
<|end_of_text|>1Belge/dizinin sonu
<|pad|>2Toplu işleme için doldurma
<|unk|>3Bilinmeyen (güvenlik yedeği, nadiren tetiklenir)
<|start_header_id|>4Talimat ince ayarı: rol başlığı başı
<|end_header_id|>5Talimat ince ayarı: rol başlığı sonu
<|eot_id|>6Talimat ince ayarı: tur sonu

5. EĞİTİM DERLEMİ: 3 YİNELEME

Tokenizer üç yinelemeli turda eğitildi; her turda yeni veri alanları eklendi. Bu süreç derlem çeşitliliği ile tokenizer kalitesi arasındaki ilişkiye dair önemli sonuçlar ortaya çıkardı.

v1: Temel (1,7 GB, 14 dosya)

AlanKaynakBoyut
Genel BilgiWikipedia TR (520K madde)866 MB
KodPython derlemi569 MB
MantıkMatematik problemleri, RAG, Zincir-düşünce221 MB
EdebiTED konuşmaları, klasik edebiyat, şiir, şarkı, halk, deyimler46 MB
KelimeTDK sözlük (tam + sadeleştirilmiş)15 MB

v2: Kalite Artışı (10 GB, 16 dosya) — seçkin edebi ve akademik veri eklendi

Alan (YENİ)KaynakBoyut
Kültürel/Edebi WebBellaTurca ÖzenliDerlem (1,4M seçilmiş belge)4,4 GB
Akademik/TezBellaTurca AkademikDerlem (668K makale)3,5 GB

v3: Alan Kapsamı (22 GB, 27 dosya) — 7 yeni uzmanlık alanı

Alan (YENİ)KaynakBoyut
Haber/Gazetecilik1,8M haber + özetleme derlemi4,5 GB
Hukuk700K mahkeme kararı + Anayasa Mahkemesi3,7 GB
Talimatlar2,5M talimat-cevap çifti3,7 GB
FinansKAP duyuruları, sermaye piyasası (256K belge)425 MB
EğitimEğitim QA + MMLU sınav soruları (8 ders)91 MB
TıbbiTıbbi mantık + hastane makaleleri108 MB
1,7 GB
v1: 14 DOSYA, 5 ALAN
10 GB
v2: 16 DOSYA, 7 ALAN
22 GB
v3: 27 DOSYA, 11 ALAN

6. VERİ VE KELİME HACMİ ÖLÇEKLEME DENEYLERİ

İki sistematik deney yapıldı: (1) sabit 48K kelime hacminde eğitim verisini 1,7GB'dan 22GB'a ölçekleme, (2) tam 22GB derlemde kelime hacmini 48K'dan 64K'ya ölçekleme. Birlikte veri hacmi ile kelime kapasitesi arasındaki etkileşime dair kritik bir içgörü ortaya çıktı.

Deney A: 48K kelime hacminde veri ölçekleme

Cümle48k_v148k_v248k_v3Kumru
Merhaba dünya, nasılsın?6668
Evlerdekilere söyleyin, yarın geliyoruz.119912
Çekoslovakyalılaştıramadıklarımızdan mısınız?1291013
Dün akşam arkadaşlarımla buluştuk...15101015
Spinoza'nın töz ontolojisi...33293230
Sanığın mahkumiyet kararına... (legal)1211812
Anayasa Mahkemesi başvuruyu... (legal)109711
Hastanın ameliyat sonrası... (medical)10878
TOPLAM (21 cümle)261235233267

Yukarıdaki toplamlar kısaltılmış cümle setinden alınmıştır. Bölüm 7'de aynı tokenizer'lar tam cümleler üzerinde raporlanıyor (192 / 199 / 224).

v1→v2 (1,7GB → 10GB): +%10,0 iyileşme. v2→v3 (10GB → 22GB): +%0,9 iyileşme — görünür azalan getiri.

Deney B: Kelime hacmi ölçekleme — dönüm noktası

48K'da v2→v3'te görülen neredeyse sıfır iyileşme başta veri doyumunu düşündürdü. Ancak aynı v3 derlemi üzerinde 64K tokenizer eğitmek temelden farklı bir sonuç verdi:

TokenizerVeriToplam TokenKumru'ya göre
48k_v11.7 GB261+2.2%
48k_v210 GB235+12.0%
48k_v322 GB233+12.7%
64k_v11.7 GB247+7.5%
64k_v322 GB222+16.9%
Kumru (50k)~500 GB267taban (kısaltılmış set)
+%0,9
48K: v2→v3 (DOYUM)
+%10,1
64K: v1→v3 (EMİLİM)
+%4,7
64K vs 48K (AYNI VERİ)
ANA BULGU: Kelime Doyumu, Veri Doyumu Değil.

48K'da gözlenen “azalan getiri” fazla veriden kaynaklanmıyordu — kelime hacminin dolmasından kaynaklanıyordu. 48.000 birleştirme yuvasında tokenizer'ın v3'te eklenen hukuk, tıp ve finans verisinden gelen yeni alan özgü kalıpları kodlayacak yeri kalmamıştı.

Aynı 22GB derlem 64K tokenizer eğitmek için kullanıldığında, ek 16.000 kelime yuvası 48K'nın yer veremediği alan sözcüklerini emdi ve 48K'da yalnızca %0,9 iyileşme getiren aynı veride %10,1 iyileşme (64k_v1→64k_v3) sağladı.

Sonuç: Kelime hacmi ile eğitim verisi birlikte ölçeklenmelidir. Kelime kapasitesi olmadan veri eklemek ya da veri çeşitliliği olmadan kelime eklemek azalan getiri üretir. En uygun tokenizer hem yeterli kelime yuvası hem de onları dolduracak yeterince çeşitli eğitim verisi gerektirir.

7. KARŞILAŞTIRMA: 64K v3 vs TÜRKÇE VE İNGİLİZCE TOKENİZERLAR

Günlük konuşma, resmi dil, sondan eklemeli yapı, kod ve altı uzmanlık alanını kapsayan 21 test cümlesi üzerinde tokenizer'lar karşılaştırıldı. Türkçe tokenizer'lar (bu çalışma, Kumru, TabiBERT, Hamza) aynı tam cümle setinde değerlendirildi; GPT-4/GPT-4o farklı tokenizer kullanır ve referans için dahil edildi.

Test Cümlesi64k v348k v3KumruTabiBERTHamzaGPT-4oGPT-4
Merhaba dünya, nasılsın?667714911
Türkiye Cumhuriyeti'nin başkenti Ankara'dır.9988211217
Evlerdekilere söyleyin, yarın geliyoruz.891111211218
Çekoslovakyalılaştıramadıklarımızdan mısınız?9101212291921
Görüşebileceğimizi umuyorum.5666151114
Dün akşam arkadaşlarımla buluştuk.5599202025
Edebiyatımızın en önemli eserlerinden...15161616422740
Osmanlı İmparatorluğu'nun son...12121111472843
Spinoza'nın töz ontolojisi...17171616333753
def __init__(self, value):881111988
for i in range(len(dataset)):9913131277
Makine öğrenmesi algoritmalarının...10101111362033
Büyükşehir belediyesi toplu taşıma...8988281728
İstanbul'dan Ankara'ya tren...11111111191416
2024 yılında Türkiye'nin nüfusu...11111515321526
Sanığın mahkumiyet kararına... (legal)771111261724
Anayasa Mahkemesi başvuruyu... (legal)671010231620
Hastanın ameliyat sonrası... (medical)7777301526
Şirketin halka arz sürecinde... (finance)11111111362030
Fotosentez sırasında... (science)11111212362938
Cumhurbaşkanlığı Sözcüsü basın...7888391829
TOPLAM (21 cümle)192199224224568371527

Toplamlar benchmark_tokenizers.py ile 21 tam cümle üzerinden. Hamza GPT-2 tokenizer kullanır (50.257 kelime); Kumru ve TabiBERT ~50K BPE.

Gözlem: Kumru ve TabiBERT bu kıyaslamada her cümlede aynı token sayısını üretmektedir (aynı kelime hacmi 50.176; aynı toplam 224). 21 cümlenin tamamında birebir örtüşme, bağımsız eğitilmiş BPE tokenizer'ları için alışılmadıktır. Bulgu burada yorum eklenmeden raporlanmıştır.

Genişletilmiş kıyaslama: 104 cümle (21 çekirdek + 83 zor/kenar)

Aynı tokenizer'lar genişletilmiş sette de çalıştırıldı: yukarıdaki 21 çekirdek cümle artı 83 “zor” cümle (uzun birleştirmeler, hukuk/tıp/finans ifadeleri, günlük dil/argo, sayı ve tarihler, kod parçaları, noktalama ve kısaltmalar, alıntı sözcükler, büyük/küçük harf ve vurgu işareti kenar durumları). Tüm sayılar benchmark_tokenizers.py çıktısından.

TokenizerToplam token (104 cümle)en iyiye göre
64k v31.041temel (en iyi)
48k v31.073+%3,1
32k v21.163+%11,7
16k v11.359+%30,5
Kumru1.198+%15,1
TabiBERT1.198+%15,1
Hamza2.451+%135,4

64K genişletilmiş sette de en iyi kalır; Kumru ve TabiBERT yine birbiriyle aynı (1.198). Zor set örneğin Muvaffakiyetsizleştiricileştiriveremeyebileceklerimizdenmişsinizcesine, hukuk (HMK 353, tahkim), tıp (pankreatikoduodenektomi, kardiyovasküler), finans (BIST 100, SPK), argo (N'olcak, bişey), kod (return {'key': value}) ve alıntı sözcükler (Startup'lar, API endpoint'i) içerir.

192
BU ÇALIŞMA (64K v3)
224
KUMRU / TABIBERT (50K)
568
HAMZA (GPT-2 TOKENİZER)
527
GPT-4 (100K)
Sonuç: Aynı 21 cümlelik sette 64K tokenizer 192 token kullanır; Kumru ve TabiBERT 224 (~%16 daha fazla), Hamza 568 (~%289 daha fazla). Hamza tokenizer'ı 50.257 kelime hacmine sahiptir (GPT-2 ile aynı) ve Türkçe için optimize edilmemiştir. 64K tokenizer kodda GPT-4/GPT-4o ile aynı veya daha iyi performans gösterir; hukuk, tıp ve haber alanlarında belirgin kazanım sağlar. Kumru ve TabiBERT birebir aynı performansı gösterir; ikisi de ~50K BPE kullanır.(biri diğerinin tokenizerını kullanıyor.)

8. ALANA ÖZEL ANALİZ

Alana yönelik eğitim verisi, uzmanlık alanı sözcük dağarcığında ölçülebilir iyileşmeler sağlar. Aşağıda her alan için token düzeyinde karşılaştırmalar yer alıyor.

Hukuk Türkçesi

TokenizerToken"Anayasa Mahkemesi başvuruyu oybirliğiyle reddetti."
64k v36Anayasa | Mahkemesi | başvuruyu | oybirliğiyle | reddetti | .
Kumru10Anayasa | Mahkemesi | başvur | uyu | oy | bir | liğiyle | reddet | ti | .
TabiBERT10(Kumru ile aynı)
Hamza23(GPT-2 tokenizer)
GPT-420(alt kelime parçalarına bölünmüş)

başvuruyu (başvuru) ve oybirliğiyle (oybirliğiyle) 64K'da tek token. Kumru ve TabiBERT birincisini 2, ikincisini 3 parçaya böler. Sonuç: 6 vs 10 (Kumru/TabiBERT), 6 vs 23 (Hamza).

Tıbbi Türkçe

TokenizerToken"Hastanın ameliyat sonrası komplikasyon riski değerlendirilmelidir."
64k v37Hastanın | ameliyat | sonrası | komplikasyon | riski | değerlendirilmelidir | .
Kumru7Hastanın | ameliyat | sonrası | komplikasyon | riski | değerlendirilmelidir | .
TabiBERT7(Kumru ile aynı)
Hamza30(GPT-2 tokenizer)
GPT-426(alt kelime parçalarına bölünmüş)

Hastanın (hastanın) tek tokendir. değerlendirilmelidir (değerlendirilmelidir) — 6 biçimbirimlik ek zinciri — yine tek tokendir. Kumru/TabiBERT 7; Hamza 30; GPT-4 26.

Finans Türkçesi

TokenizerToken"Şirketin halka arz sürecinde sermaye piyasası kurulu onayı gerekmektedir."
64k v311Şirket | in | halka | arz | sürecinde | sermaye | piyasası | kurulu | onayı | gerekmektedir | .
Kumru11Şirket | in | halka | arz | sürecinde | sermaye | piyasası | kurulu | onayı | gerekmektedir | .
TabiBERT11(Kumru ile aynı)
Hamza36(GPT-2 tokenizer)
GPT-430(alt kelime parçalarına bölünmüş)

Haber/Gazetecilik Türkçesi

TokenizerToken"Cumhurbaşkanlığı Sözcüsü basın toplantısında açıklamalarda bulundu."
64k v37Cumhurbaşkanlığı | Sözcüsü | basın | toplantısında | açıklamalarda | bulundu | .
Kumru8Cumhurbaşkanlığı | Sözc | üsü | basın | toplantısında | açıklamalarda | bulundu | .
TabiBERT8(Kumru ile aynı)
Hamza39(GPT-2 tokenizer)
GPT-429(alt kelime parçalarına bölünmüş)

Cumhurbaşkanlığı (Cumhurbaşkanlığı) ve Sözcüsü (Sözcüsü) 64K'da tek token. Kumru ve TabiBERT Sözcüsü 2 parçaya böler; Hamza 39 token. Ek kelime kapasitesi 64K'nın bu yüksek frekanslı kurumsal terimleri atomik birimler olarak yakalamasını sağlar.

9. BİÇİMBİLİMSEL ANALİZ

Tokenizer Türkçe biçimbilimini salt istatistikten öğrendi — hiçbir dilbilimsel kural programlanmadı. BPE, 22GB metnin frekans analiziyle biçimbirim benzeri sınırları kendiliğinden keşfetti.

Fiil biçimbilimi (öğrenildi, kodlanmadı)

KelimeTokenBiçimbilimsel Yorum
geliyorumgel | iyorumgövde + şimdiki zaman 1. kişi
geldimgel | dimgövde + geçmiş zaman 1. kişi
gelecekgelecektek token (çok yaygın kelime)
gelmişgelmiştek token (yaygın duyulan geçmiş)
geliyoruzgeliyoruztek token (yaygın 1. çoğul)

İsim hal ekleri

KelimeTokenSayı
ev (ev)ev1
evde (evde)evde1
evden (evden)evden1
eve (eve)eve1
evin (evin)evin1
evler (evler)evler1

“Ev”in altı farklı dilbilgisel biçimi — hepsi tek token olarak kodlanır.

Ek zinciri işleme

KelimeTokenSayı
değerlendirilmelidirdeğerlendirilmelidir1
larımızdan (bizim ...lerimizden)larımızdan1
gidebilirsiniz (gidebilirsiniz)gidebilirsiniz1
oybirliğiyle (oybirliğiyle)oybirliğiyle1

10. DİYAKRİTİK DAYANIKLILIĞI

Türkçe kullanıcılar bazen vurgu işaretleri olmadan yazar (c yerine ç, s yerine ş, i yerine ı). Tokenizer her iki biçimi de işler; ancak doğru Türkçe, tasarım gereği belirgin biçimde daha az token tüketir.

Doğru TürkçeTokenVurgusuz yazımTokenMaliyet
şehir1sehir3+2
büyükşehir2buyuksehir6+4
Türkiye1Turkiye2+1
öğrenci1ogrenci3+2
günaydın2gunaydin3+1
Tasarım tercihi: Vurgu işaretleri olmadan yazılmış Türkçe eğitim derlemine bilinçli olarak alınmadı. Böylece özensiz giriş yine de işlenebilir (hiçbir şey bozulmaz — byte-level BPE her şeyi temsil edebilir) ancak daha fazla token tüketir. Bu tokenizer ile eğitilen model özensiz girişi kabul ederken çıktıda her zaman doğru Türkçe üretir — çünkü eğitildiği tek biçim doğru Türkçedir.

11. BAĞLAM PENCERESİ: BİRİKEN AVANTAJ

Tokenizer verimliliği sabit bir tasarruf değildir — bağlam uzunluğu üzerinde bir çarpandır. Bağlam penceresi ne kadar uzunsa avantaj o kadar birikir. Bu hedef model için doğrudan mimari sonuçlar doğurur.

Etkin bağlam kapasitesi

Her bağlam uzunluğunda 64K tokenizer, rakiplerin aynı sayıda token yuvasına sığdırabileceğinden belirgin biçimde daha fazla Türkçe metin tutar:

Bağlam UzunluğuBu Çalışma (64K)Kumru EşdeğeriGPT-4 EşdeğeriEk Metin Kapasitesi
2,048 tokens2,048~2,387~5,627+339 vs Kumru
4,096 tokens4,096~4,773~11,253+677 vs Kumru
32,768 tokens32,768~38,187~90,027+5,419 vs Kumru
128,000 tokens128,000~149,333~351,667+21,333 vs Kumru

“Kumru Eşdeğeri” = aynı miktarda Türkçe metni tutmak için kaç Kumru tokenı gerekir. Bölüm 7'de ölçülen verimlilik farklarından hesaplandı.

Mimari sonuç: küçük model, büyük bağlam

Verimlilik avantajı Türkçe için en uygun model mimarisini temelden değiştirir. İki strateji değerlendirildi:

StratejiParametrelerBağlamTürkçe Metin KapasitesiEğitilebilirlik
Büyük model, kısa bağlam7B4.096~3–4 sayfa40–80 GB VRAM gerekir
Küçük model, uzun bağlam1–2B128K~tüm kitapTüketici donanımında eğitilebilir
Stratejik karar: 128K bağlam uzunluğuna sahip 1–2B parametreli model hedef mimari olarak seçildi. 64K tokenizer ile bu yapılandırma, Kumru ile tokenize edilmiş bir modelin ~150K tokenla veya GPT-4'ün ~303K tokenla tutacağı Türkçe metni tutar. Mevcut Türkçe dil modellerinin çoğu 4K–8K token bağlam sunar. 128K bağlama sahip anadili Türkçe tokenizer'lı bir model, dava dosyalarını, akademik tezleri veya edebi eserleri tek seferde işleyebilir.

1B ölçeğinde 64K kelime hacminin gömme katmanı maliyeti toplam parametrelerin yaklaşık %3,3'üdür — işlenen her token için Kumru/TabiBERT'e karşı kalıcı ~%14 verimlilik avantajı için ihmal edilebilir bir maliyet.

12. PRATİK SONUÇLARI

~2,7×
DAHA AZ TOKEN (GPT-4'e göre, 21 CÜMLE)
~%14
KUMRU/TABIBERT'TEN DAHA AZ TOKEN
%66
HAMZA'DAN DAHA AZ TOKEN (GPT-2)
11
KAPSANAN ALAN

İngilizce merkezli tokenizer'larda işlenen Türkçe metin, bağlam uzunluğu, hız, maliyet ve eğitim verimliliği açısından kabaca 2× token cezasına uğrar. Anadili Türkçe tokenizer bu vergiyi tamamen kaldırır.

Tokenizer 11 uzmanlık alanını kapsar (genel, akademik, hukuk, tıp, finans, eğitim, haber, kod, edebi, mantık, talimatlar); konu ne olursa olsun verimli tokenizasyon sağlanır.

13. PROJE DURUMU

AşamaDurumAna Sonuç
Aşama 1: TokenizerTAMAMLANDI64K kelime, Kumru/TabiBERT'ten ~%14 daha az token, GPT-4'e göre ~2,7×, 11 alan
Aşama 2: MimariSIRADA1–2B parametre, 128K bağlam hedefi
Aşama 3: Ön eğitimSIRADATürkçe derlemden dil öğrenimi
Aşama 4: İnce ayarSIRADATalimat takibi, sohbet yeteneği

14. YENİDEN ÜRETİLEBİLİRLİK

Kod, veri kaynakları ve eğitilmiş tokenizer'lar mevcuttur.

Sonuç. Türkçe için özel tokenizer, verimli Türkçe dil modellemesi için ön koşuldur. İngilizce merkezli tokenizer'ların getirdiği verimlilik cezası ölçülebilir ve giderilebilir. Üç bulgu vurgulanır: (1) GPT-2 ön-tokenizasyon regex'i Türkçe kesme işareti-ek kalıplarını bozar — daha önce belgelenmemiş bir etkileşim; (2) 48K'da görülen azalan getiriyi veri fazlalığı değil kelime doyumu açıklar — sondan eklemeli diller için önem taşır; (3) tokenizer verimliliği bağlam uzunluğuyla birikir ve küçük, uzun bağlamlı mimarileri destekler. Bu rapor sıfırdan anadili Türkçe bir LLM kurma çabasının Aşama 1'ini belgeler.

Kumru AI’ya özel bir teşekkür borçluyuz: Türkçe LLM’lerinin mantık ve Türkçe biçimbiliminde iyi belgelenmiş sınırlılıkları, sıfırdan düzgün bir Türkçe dil modeli kurma motivasyonunu sağladı. Hamza (emrecanacikgoz) ve TabiBERT (boun-tabilab) tokenizer’ları da karşılaştırıldı; Bölüm 7 ve benchmark_tokenizers.py'ye bakınız.

© 2026 • Bağımsız Araştırma