TÜRKÇE BPE TOKENİZER
Anadili Türkçe Bir LLM'e Doğru: Aşama 1 — Tokenizasyon
İÇİNDEKİLER
1. SORUN: DİL VERGİSİ
Türkçe metin büyük bir LLM'de işlendiğinde, İngilizce için tasarlanmış bir tokenizer'dan geçer. Türkçenin sondan eklemeli yapısı — anlamın eklerde yoğunlaştığı — bu tokenizer'lara yabancıdır.
Aynı cümle, farklı maliyet
| Tokenizer | Kelime Hacmi | Token | Oran |
|---|---|---|---|
| Türkçe 64K v3 (bu çalışma) | 64.000 | 9 | 1,0x |
| Kumru-2B | 50.176 | 9 | 1,0x |
| GPT-4o (o200k) | 200.019 | 12 | 1,3x |
| GPT-4 (cl100k) | 100.277 | 17 | 1,9x |
Test cümlesi: “Türkiye Cumhuriyeti'nin başkenti Ankara'dır.”
Yani her Türkçe API çağrısı kabaca 2× daha fazla token tüketebilir. Bağlam pencereleri orantılı olarak daha az Türkçe metin tutar; eğitim çalıştırmaları parti başına daha az cümle işler. Bu vergi metin uzadıkça katlanır.
2. İLGİLİ ÇALIŞMALAR
Birçok Türkçe dil modeli ve tokenizer mevcuttur. Hamza (Acıkgöz, “Bridging the Bosphorus”) 124M ile 1,3B parametre aralığında Türkçe LLM'ler sunar; GPT-2 ve Mistral'dan uyarlanmış modeller dahil. Hamza tokenizer'ının kelime hacmi 50.257'dir (GPT-2 ile aynı) ve Türkçe biçimbilimi için optimize edilmemiştir. TabiBERT (Boğaziçi Üniversitesi TabiLab) Türkçe NLP için 1T token üzerinde eğitilmiş ModernBERT tabanlı bir kodlayıcıdır; kelime hacmi 50.176. Kumru-2B, 50.176 kelimelik BPE tokenizer kullanır. LlamaTurk (ODTÜ NLP) Türkçe OSCAR üzerinde eğitilmiş 28K BPE tokenizer ile LLaMA'yı uyarlar.
Tutarlı bir örüntü, mevcut Türkçe çözücü LLM'lerin ~50K kelime hacminde buluşmasıdır: taban model GPT-2 olduğunda 50.257 (GPT-2 boyutu), diğerlerinde 50.176. Bu, Türkçe için sistematik kelime hacmi deneylerinden çok, İngilizce tabanlı tokenizer'ların uyarlanmasından kaynaklanıyor gibi görünür. Yazarın bildiği kadarıyla (1) GPT-2 ön-tokenizasyon regex'inin Türkçe kesme işareti eklerini bozduğunu, (2) tokenizer eğitiminde kelime doyumu ile veri doyumunu ya da (3) aynı derlemde 16K–64K kelime hacminin sistematik karşılaştırmasını raporlayan önceki bir çalışma yoktur.
3. YENİ BULGU: GPT-2 REGEX TÜRKÇEYİ BOZUYOR
Geliştirme sırasında GPT-2 ön-tokenizasyon regex'inin — GPT-4, GPT-4o, Llama 3 ve Mistral tarafından kullanılan
aynı kalıbın — İngilizce kısaltma kalıplarını ('s|'t|'re|'ve|'m|'ll|'d) içerdiği ve bunun Türkçe
tokenizasyonuna zarar verdiği tespit edildi.
'd kalıbı (İngilizce “I'd” kısaltması) Türkçedeki -dA
eklerinin başındaki “d”yi kendi içine alıyor — Türkçede en sık kullanılan ek ailelerinden biri (bulunma, çıkma).
Aynı sorun 's (koşul eki), 't ve 'm için de geçerli.
GPT-4 Türkçe kesme işareti eklerini nasıl tokenize ediyor
| Türkçe Metin | GPT-4 Tokenizasyonu | Sorun |
|---|---|---|
| Ankara'dır | ["Ankara", "'d", "ır"] | 'd kalıbı “dır”ın d'sini çalıyor |
| İstanbul'da | ["İstanbul", "'d", "a"] | 'd kalıbı “da”nın d'sini çalıyor |
| Ali'den | ["Ali", "'d", "en"] | 'd kalıbı “den”in d'sini çalıyor |
Çözüm: temizlenmiş Türkçe regex
| Türkçe Metin | Düzeltilmiş Tokenizasyon | Sonuç |
|---|---|---|
| Ankara'dır | ["Ankara", "'", "dır"] | Ek tek parça kalıyor |
| İstanbul'da | ["İstanbul", "'", "da"] | Ek tek parça kalıyor |
| Ali'den | ["Ali", "'", "den"] | Ek tek parça kalıyor |
4. MİMARİ KARARLAR
| Bileşen | Seçim | Gerekçe |
|---|---|---|
| Algoritma | Byte-level BPE | Sektör standardı (GPT-4, Llama 3, Mistral) |
| Normalizasyon | NFC Unicode | ç, ş, ğ, ö, ü, İ için birleşik/ayrışık biçimleri birleştirir |
| Ön-tokenizasyon | Özel Türkçe regex + ByteLevel | İngilizce kısaltmalar çıkarılmış GPT-2 tarzı |
| Byte-level ayar | Dahili regex devre dışı | Sorunlu kalıpların yeniden uygulanmasını engeller |
| Özel tokenlar | Llama-3 tarzı (7 token) | İleride talimat ince ayarı uyumluluğu |
| Min frekans | 2 | Nadir biçimbirimleri kaybetmeden yazım/gürültü filtreler |
| Kütüphane | HuggingFace tokenizers (Rust) | Üretim kalitesi, hızlı eğitim |
Özel tokenlar
| Token | ID | Amaç |
|---|---|---|
<|begin_of_text|> | 0 | Belge/dizinin başı |
<|end_of_text|> | 1 | Belge/dizinin sonu |
<|pad|> | 2 | Toplu işleme için doldurma |
<|unk|> | 3 | Bilinmeyen (güvenlik yedeği, nadiren tetiklenir) |
<|start_header_id|> | 4 | Talimat ince ayarı: rol başlığı başı |
<|end_header_id|> | 5 | Talimat ince ayarı: rol başlığı sonu |
<|eot_id|> | 6 | Talimat ince ayarı: tur sonu |
5. EĞİTİM DERLEMİ: 3 YİNELEME
Tokenizer üç yinelemeli turda eğitildi; her turda yeni veri alanları eklendi. Bu süreç derlem çeşitliliği ile tokenizer kalitesi arasındaki ilişkiye dair önemli sonuçlar ortaya çıkardı.
v1: Temel (1,7 GB, 14 dosya)
| Alan | Kaynak | Boyut |
|---|---|---|
| Genel Bilgi | Wikipedia TR (520K madde) | 866 MB |
| Kod | Python derlemi | 569 MB |
| Mantık | Matematik problemleri, RAG, Zincir-düşünce | 221 MB |
| Edebi | TED konuşmaları, klasik edebiyat, şiir, şarkı, halk, deyimler | 46 MB |
| Kelime | TDK sözlük (tam + sadeleştirilmiş) | 15 MB |
v2: Kalite Artışı (10 GB, 16 dosya) — seçkin edebi ve akademik veri eklendi
| Alan (YENİ) | Kaynak | Boyut |
|---|---|---|
| Kültürel/Edebi Web | BellaTurca ÖzenliDerlem (1,4M seçilmiş belge) | 4,4 GB |
| Akademik/Tez | BellaTurca AkademikDerlem (668K makale) | 3,5 GB |
v3: Alan Kapsamı (22 GB, 27 dosya) — 7 yeni uzmanlık alanı
| Alan (YENİ) | Kaynak | Boyut |
|---|---|---|
| Haber/Gazetecilik | 1,8M haber + özetleme derlemi | 4,5 GB |
| Hukuk | 700K mahkeme kararı + Anayasa Mahkemesi | 3,7 GB |
| Talimatlar | 2,5M talimat-cevap çifti | 3,7 GB |
| Finans | KAP duyuruları, sermaye piyasası (256K belge) | 425 MB |
| Eğitim | Eğitim QA + MMLU sınav soruları (8 ders) | 91 MB |
| Tıbbi | Tıbbi mantık + hastane makaleleri | 108 MB |
6. VERİ VE KELİME HACMİ ÖLÇEKLEME DENEYLERİ
İki sistematik deney yapıldı: (1) sabit 48K kelime hacminde eğitim verisini 1,7GB'dan 22GB'a ölçekleme, (2) tam 22GB derlemde kelime hacmini 48K'dan 64K'ya ölçekleme. Birlikte veri hacmi ile kelime kapasitesi arasındaki etkileşime dair kritik bir içgörü ortaya çıktı.
Deney A: 48K kelime hacminde veri ölçekleme
| Cümle | 48k_v1 | 48k_v2 | 48k_v3 | Kumru |
|---|---|---|---|---|
| Merhaba dünya, nasılsın? | 6 | 6 | 6 | 8 |
| Evlerdekilere söyleyin, yarın geliyoruz. | 11 | 9 | 9 | 12 |
| Çekoslovakyalılaştıramadıklarımızdan mısınız? | 12 | 9 | 10 | 13 |
| Dün akşam arkadaşlarımla buluştuk... | 15 | 10 | 10 | 15 |
| Spinoza'nın töz ontolojisi... | 33 | 29 | 32 | 30 |
| Sanığın mahkumiyet kararına... (legal) | 12 | 11 | 8 | 12 |
| Anayasa Mahkemesi başvuruyu... (legal) | 10 | 9 | 7 | 11 |
| Hastanın ameliyat sonrası... (medical) | 10 | 8 | 7 | 8 |
| TOPLAM (21 cümle) | 261 | 235 | 233 | 267 |
Yukarıdaki toplamlar kısaltılmış cümle setinden alınmıştır. Bölüm 7'de aynı tokenizer'lar tam cümleler üzerinde raporlanıyor (192 / 199 / 224).
v1→v2 (1,7GB → 10GB): +%10,0 iyileşme. v2→v3 (10GB → 22GB): +%0,9 iyileşme — görünür azalan getiri.
Deney B: Kelime hacmi ölçekleme — dönüm noktası
48K'da v2→v3'te görülen neredeyse sıfır iyileşme başta veri doyumunu düşündürdü. Ancak aynı v3 derlemi üzerinde 64K tokenizer eğitmek temelden farklı bir sonuç verdi:
| Tokenizer | Veri | Toplam Token | Kumru'ya göre |
|---|---|---|---|
| 48k_v1 | 1.7 GB | 261 | +2.2% |
| 48k_v2 | 10 GB | 235 | +12.0% |
| 48k_v3 | 22 GB | 233 | +12.7% |
| 64k_v1 | 1.7 GB | 247 | +7.5% |
| 64k_v3 | 22 GB | 222 | +16.9% |
| Kumru (50k) | ~500 GB | 267 | taban (kısaltılmış set) |
48K'da gözlenen “azalan getiri” fazla veriden kaynaklanmıyordu — kelime hacminin dolmasından kaynaklanıyordu. 48.000 birleştirme yuvasında tokenizer'ın v3'te eklenen hukuk, tıp ve finans verisinden gelen yeni alan özgü kalıpları kodlayacak yeri kalmamıştı.
Aynı 22GB derlem 64K tokenizer eğitmek için kullanıldığında, ek 16.000 kelime yuvası 48K'nın yer veremediği alan sözcüklerini emdi ve 48K'da yalnızca %0,9 iyileşme getiren aynı veride %10,1 iyileşme (64k_v1→64k_v3) sağladı.
Sonuç: Kelime hacmi ile eğitim verisi birlikte ölçeklenmelidir. Kelime kapasitesi olmadan veri eklemek ya da veri çeşitliliği olmadan kelime eklemek azalan getiri üretir. En uygun tokenizer hem yeterli kelime yuvası hem de onları dolduracak yeterince çeşitli eğitim verisi gerektirir.
7. KARŞILAŞTIRMA: 64K v3 vs TÜRKÇE VE İNGİLİZCE TOKENİZERLAR
Günlük konuşma, resmi dil, sondan eklemeli yapı, kod ve altı uzmanlık alanını kapsayan 21 test cümlesi üzerinde tokenizer'lar karşılaştırıldı. Türkçe tokenizer'lar (bu çalışma, Kumru, TabiBERT, Hamza) aynı tam cümle setinde değerlendirildi; GPT-4/GPT-4o farklı tokenizer kullanır ve referans için dahil edildi.
| Test Cümlesi | 64k v3 | 48k v3 | Kumru | TabiBERT | Hamza | GPT-4o | GPT-4 |
|---|---|---|---|---|---|---|---|
| Merhaba dünya, nasılsın? | 6 | 6 | 7 | 7 | 14 | 9 | 11 |
| Türkiye Cumhuriyeti'nin başkenti Ankara'dır. | 9 | 9 | 8 | 8 | 21 | 12 | 17 |
| Evlerdekilere söyleyin, yarın geliyoruz. | 8 | 9 | 11 | 11 | 21 | 12 | 18 |
| Çekoslovakyalılaştıramadıklarımızdan mısınız? | 9 | 10 | 12 | 12 | 29 | 19 | 21 |
| Görüşebileceğimizi umuyorum. | 5 | 6 | 6 | 6 | 15 | 11 | 14 |
| Dün akşam arkadaşlarımla buluştuk. | 5 | 5 | 9 | 9 | 20 | 20 | 25 |
| Edebiyatımızın en önemli eserlerinden... | 15 | 16 | 16 | 16 | 42 | 27 | 40 |
| Osmanlı İmparatorluğu'nun son... | 12 | 12 | 11 | 11 | 47 | 28 | 43 |
| Spinoza'nın töz ontolojisi... | 17 | 17 | 16 | 16 | 33 | 37 | 53 |
| def __init__(self, value): | 8 | 8 | 11 | 11 | 9 | 8 | 8 |
| for i in range(len(dataset)): | 9 | 9 | 13 | 13 | 12 | 7 | 7 |
| Makine öğrenmesi algoritmalarının... | 10 | 10 | 11 | 11 | 36 | 20 | 33 |
| Büyükşehir belediyesi toplu taşıma... | 8 | 9 | 8 | 8 | 28 | 17 | 28 |
| İstanbul'dan Ankara'ya tren... | 11 | 11 | 11 | 11 | 19 | 14 | 16 |
| 2024 yılında Türkiye'nin nüfusu... | 11 | 11 | 15 | 15 | 32 | 15 | 26 |
| Sanığın mahkumiyet kararına... (legal) | 7 | 7 | 11 | 11 | 26 | 17 | 24 |
| Anayasa Mahkemesi başvuruyu... (legal) | 6 | 7 | 10 | 10 | 23 | 16 | 20 |
| Hastanın ameliyat sonrası... (medical) | 7 | 7 | 7 | 7 | 30 | 15 | 26 |
| Şirketin halka arz sürecinde... (finance) | 11 | 11 | 11 | 11 | 36 | 20 | 30 |
| Fotosentez sırasında... (science) | 11 | 11 | 12 | 12 | 36 | 29 | 38 |
| Cumhurbaşkanlığı Sözcüsü basın... | 7 | 8 | 8 | 8 | 39 | 18 | 29 |
| TOPLAM (21 cümle) | 192 | 199 | 224 | 224 | 568 | 371 | 527 |
Toplamlar benchmark_tokenizers.py ile 21 tam cümle üzerinden. Hamza GPT-2 tokenizer kullanır (50.257 kelime); Kumru ve TabiBERT ~50K BPE.
Gözlem: Kumru ve TabiBERT bu kıyaslamada her cümlede aynı token sayısını üretmektedir (aynı kelime hacmi 50.176; aynı toplam 224). 21 cümlenin tamamında birebir örtüşme, bağımsız eğitilmiş BPE tokenizer'ları için alışılmadıktır. Bulgu burada yorum eklenmeden raporlanmıştır.
Genişletilmiş kıyaslama: 104 cümle (21 çekirdek + 83 zor/kenar)
Aynı tokenizer'lar genişletilmiş sette de çalıştırıldı: yukarıdaki 21 çekirdek cümle artı 83 “zor” cümle
(uzun birleştirmeler, hukuk/tıp/finans ifadeleri, günlük dil/argo, sayı ve tarihler, kod parçaları,
noktalama ve kısaltmalar, alıntı sözcükler, büyük/küçük harf ve vurgu işareti kenar durumları). Tüm sayılar benchmark_tokenizers.py çıktısından.
| Tokenizer | Toplam token (104 cümle) | en iyiye göre |
|---|---|---|
| 64k v3 | 1.041 | temel (en iyi) |
| 48k v3 | 1.073 | +%3,1 |
| 32k v2 | 1.163 | +%11,7 |
| 16k v1 | 1.359 | +%30,5 |
| Kumru | 1.198 | +%15,1 |
| TabiBERT | 1.198 | +%15,1 |
| Hamza | 2.451 | +%135,4 |
64K genişletilmiş sette de en iyi kalır; Kumru ve TabiBERT yine birbiriyle aynı (1.198).
Zor set örneğin Muvaffakiyetsizleştiricileştiriveremeyebileceklerimizdenmişsinizcesine,
hukuk (HMK 353, tahkim), tıp (pankreatikoduodenektomi, kardiyovasküler), finans (BIST 100, SPK),
argo (N'olcak, bişey), kod (return {'key': value}) ve alıntı sözcükler (Startup'lar, API endpoint'i) içerir.
8. ALANA ÖZEL ANALİZ
Alana yönelik eğitim verisi, uzmanlık alanı sözcük dağarcığında ölçülebilir iyileşmeler sağlar. Aşağıda her alan için token düzeyinde karşılaştırmalar yer alıyor.
Hukuk Türkçesi
| Tokenizer | Token | "Anayasa Mahkemesi başvuruyu oybirliğiyle reddetti." |
|---|---|---|
| 64k v3 | 6 | Anayasa | Mahkemesi | başvuruyu | oybirliğiyle | reddetti | . |
| Kumru | 10 | Anayasa | Mahkemesi | başvur | uyu | oy | bir | liğiyle | reddet | ti | . |
| TabiBERT | 10 | (Kumru ile aynı) |
| Hamza | 23 | (GPT-2 tokenizer) |
| GPT-4 | 20 | (alt kelime parçalarına bölünmüş) |
başvuruyu (başvuru) ve oybirliğiyle (oybirliğiyle) 64K'da tek token. Kumru ve TabiBERT birincisini 2, ikincisini 3 parçaya böler. Sonuç: 6 vs 10 (Kumru/TabiBERT), 6 vs 23 (Hamza).
Tıbbi Türkçe
| Tokenizer | Token | "Hastanın ameliyat sonrası komplikasyon riski değerlendirilmelidir." |
|---|---|---|
| 64k v3 | 7 | Hastanın | ameliyat | sonrası | komplikasyon | riski | değerlendirilmelidir | . |
| Kumru | 7 | Hastanın | ameliyat | sonrası | komplikasyon | riski | değerlendirilmelidir | . |
| TabiBERT | 7 | (Kumru ile aynı) |
| Hamza | 30 | (GPT-2 tokenizer) |
| GPT-4 | 26 | (alt kelime parçalarına bölünmüş) |
Hastanın (hastanın) tek tokendir. değerlendirilmelidir (değerlendirilmelidir) — 6 biçimbirimlik ek zinciri — yine tek tokendir. Kumru/TabiBERT 7; Hamza 30; GPT-4 26.
Finans Türkçesi
| Tokenizer | Token | "Şirketin halka arz sürecinde sermaye piyasası kurulu onayı gerekmektedir." |
|---|---|---|
| 64k v3 | 11 | Şirket | in | halka | arz | sürecinde | sermaye | piyasası | kurulu | onayı | gerekmektedir | . |
| Kumru | 11 | Şirket | in | halka | arz | sürecinde | sermaye | piyasası | kurulu | onayı | gerekmektedir | . |
| TabiBERT | 11 | (Kumru ile aynı) |
| Hamza | 36 | (GPT-2 tokenizer) |
| GPT-4 | 30 | (alt kelime parçalarına bölünmüş) |
Haber/Gazetecilik Türkçesi
| Tokenizer | Token | "Cumhurbaşkanlığı Sözcüsü basın toplantısında açıklamalarda bulundu." |
|---|---|---|
| 64k v3 | 7 | Cumhurbaşkanlığı | Sözcüsü | basın | toplantısında | açıklamalarda | bulundu | . |
| Kumru | 8 | Cumhurbaşkanlığı | Sözc | üsü | basın | toplantısında | açıklamalarda | bulundu | . |
| TabiBERT | 8 | (Kumru ile aynı) |
| Hamza | 39 | (GPT-2 tokenizer) |
| GPT-4 | 29 | (alt kelime parçalarına bölünmüş) |
Cumhurbaşkanlığı (Cumhurbaşkanlığı) ve Sözcüsü (Sözcüsü) 64K'da tek token. Kumru ve TabiBERT Sözcüsü 2 parçaya böler; Hamza 39 token. Ek kelime kapasitesi 64K'nın bu yüksek frekanslı kurumsal terimleri atomik birimler olarak yakalamasını sağlar.
9. BİÇİMBİLİMSEL ANALİZ
Tokenizer Türkçe biçimbilimini salt istatistikten öğrendi — hiçbir dilbilimsel kural programlanmadı. BPE, 22GB metnin frekans analiziyle biçimbirim benzeri sınırları kendiliğinden keşfetti.
Fiil biçimbilimi (öğrenildi, kodlanmadı)
| Kelime | Token | Biçimbilimsel Yorum |
|---|---|---|
| geliyorum | gel | iyorum | gövde + şimdiki zaman 1. kişi |
| geldim | gel | dim | gövde + geçmiş zaman 1. kişi |
| gelecek | gelecek | tek token (çok yaygın kelime) |
| gelmiş | gelmiş | tek token (yaygın duyulan geçmiş) |
| geliyoruz | geliyoruz | tek token (yaygın 1. çoğul) |
İsim hal ekleri
| Kelime | Token | Sayı |
|---|---|---|
| ev (ev) | ev | 1 |
| evde (evde) | evde | 1 |
| evden (evden) | evden | 1 |
| eve (eve) | eve | 1 |
| evin (evin) | evin | 1 |
| evler (evler) | evler | 1 |
“Ev”in altı farklı dilbilgisel biçimi — hepsi tek token olarak kodlanır.
Ek zinciri işleme
| Kelime | Token | Sayı |
|---|---|---|
| değerlendirilmelidir | değerlendirilmelidir | 1 |
| larımızdan (bizim ...lerimizden) | larımızdan | 1 |
| gidebilirsiniz (gidebilirsiniz) | gidebilirsiniz | 1 |
| oybirliğiyle (oybirliğiyle) | oybirliğiyle | 1 |
10. DİYAKRİTİK DAYANIKLILIĞI
Türkçe kullanıcılar bazen vurgu işaretleri olmadan yazar (c yerine ç, s yerine ş, i yerine ı). Tokenizer her iki biçimi de işler; ancak doğru Türkçe, tasarım gereği belirgin biçimde daha az token tüketir.
| Doğru Türkçe | Token | Vurgusuz yazım | Token | Maliyet |
|---|---|---|---|---|
| şehir | 1 | sehir | 3 | +2 |
| büyükşehir | 2 | buyuksehir | 6 | +4 |
| Türkiye | 1 | Turkiye | 2 | +1 |
| öğrenci | 1 | ogrenci | 3 | +2 |
| günaydın | 2 | gunaydin | 3 | +1 |
11. BAĞLAM PENCERESİ: BİRİKEN AVANTAJ
Tokenizer verimliliği sabit bir tasarruf değildir — bağlam uzunluğu üzerinde bir çarpandır. Bağlam penceresi ne kadar uzunsa avantaj o kadar birikir. Bu hedef model için doğrudan mimari sonuçlar doğurur.
Etkin bağlam kapasitesi
Her bağlam uzunluğunda 64K tokenizer, rakiplerin aynı sayıda token yuvasına sığdırabileceğinden belirgin biçimde daha fazla Türkçe metin tutar:
| Bağlam Uzunluğu | Bu Çalışma (64K) | Kumru Eşdeğeri | GPT-4 Eşdeğeri | Ek Metin Kapasitesi |
|---|---|---|---|---|
| 2,048 tokens | 2,048 | ~2,387 | ~5,627 | +339 vs Kumru |
| 4,096 tokens | 4,096 | ~4,773 | ~11,253 | +677 vs Kumru |
| 32,768 tokens | 32,768 | ~38,187 | ~90,027 | +5,419 vs Kumru |
| 128,000 tokens | 128,000 | ~149,333 | ~351,667 | +21,333 vs Kumru |
“Kumru Eşdeğeri” = aynı miktarda Türkçe metni tutmak için kaç Kumru tokenı gerekir. Bölüm 7'de ölçülen verimlilik farklarından hesaplandı.
Mimari sonuç: küçük model, büyük bağlam
Verimlilik avantajı Türkçe için en uygun model mimarisini temelden değiştirir. İki strateji değerlendirildi:
| Strateji | Parametreler | Bağlam | Türkçe Metin Kapasitesi | Eğitilebilirlik |
|---|---|---|---|---|
| Büyük model, kısa bağlam | 7B | 4.096 | ~3–4 sayfa | 40–80 GB VRAM gerekir |
| Küçük model, uzun bağlam | 1–2B | 128K | ~tüm kitap | Tüketici donanımında eğitilebilir |
1B ölçeğinde 64K kelime hacminin gömme katmanı maliyeti toplam parametrelerin yaklaşık %3,3'üdür — işlenen her token için Kumru/TabiBERT'e karşı kalıcı ~%14 verimlilik avantajı için ihmal edilebilir bir maliyet.
12. PRATİK SONUÇLARI
İngilizce merkezli tokenizer'larda işlenen Türkçe metin, bağlam uzunluğu, hız, maliyet ve eğitim verimliliği açısından kabaca 2× token cezasına uğrar. Anadili Türkçe tokenizer bu vergiyi tamamen kaldırır.
Tokenizer 11 uzmanlık alanını kapsar (genel, akademik, hukuk, tıp, finans, eğitim, haber, kod, edebi, mantık, talimatlar); konu ne olursa olsun verimli tokenizasyon sağlanır.
13. PROJE DURUMU
| Aşama | Durum | Ana Sonuç |
|---|---|---|
| Aşama 1: Tokenizer | TAMAMLANDI | 64K kelime, Kumru/TabiBERT'ten ~%14 daha az token, GPT-4'e göre ~2,7×, 11 alan |
| Aşama 2: Mimari | SIRADA | 1–2B parametre, 128K bağlam hedefi |
| Aşama 3: Ön eğitim | SIRADA | Türkçe derlemden dil öğrenimi |
| Aşama 4: İnce ayar | SIRADA | Talimat takibi, sohbet yeteneği |
14. YENİDEN ÜRETİLEBİLİRLİK
Kod, veri kaynakları ve eğitilmiş tokenizer'lar mevcuttur.
- Eğitim betiği:
train_tokenizer.py - Kıyaslama betiği:
benchmark_tokenizers.py(104 cümle: 21 çekirdek + 83 zor/kenar) - Eğitim verisi: 27 dosyada 22 GB, 11 alan
- Seçilen tokenizer:
tokenizers/turkish_bpe_64k/tokenizer.json - Saklanan sürümler: 16K, 32K, 48K, 64K × v1/v2/v3
- Referanslar: Kumru-2B (50.176), TabiBERT (50.176), Hamza (50.257, GPT-2 tokenizer), GPT-4 (cl100k_base), GPT-4o (o200k_base)
Kumru AI’ya özel bir teşekkür borçluyuz: Türkçe LLM’lerinin mantık ve Türkçe biçimbiliminde iyi belgelenmiş sınırlılıkları, sıfırdan düzgün bir Türkçe dil modeli kurma motivasyonunu sağladı. Hamza (emrecanacikgoz) ve TabiBERT (boun-tabilab) tokenizer’ları da karşılaştırıldı; Bölüm 7 ve
benchmark_tokenizers.py'ye bakınız.
© 2026 • Bağımsız Araştırma