Araştırmaya Dön

TÜRKÇE BPE TOKENİZER

Anadili Türkçe Bir LLM'e Doğru: Aşama 1 — Tokenizasyon

Şubat 2026 • Bağımsız Araştırma • TAMAMLANDI

~%14

KUMRU/TABIBERT'TEN DAHA AZ TOKEN (50K)

~2,7×

GPT-4'TEN DAHA AZ TOKEN (21 CÜMLE)

64K

KELİME HACİMİ

22 GB

EĞİTİM DERLEMİ (27 DOSYA)

Özet. Yaygın kullanılan büyük dil modelleri İngilizce için tasarlanmış tokenizer'lara dayanır. Türkçe metin bu sistemlerde işlendiğinde kabaca 2× daha fazla token tüketir — on milyonlarca konuşuru etkileyen gizli bir “dil vergisi”. Bu rapor, Türkçe için özel BPE tokenizer'ın geliştirilmesini ve buna yol açan deneyleri belgeler. Geliştirme sırasında GPT-2 ön-tokenizasyon regex'inin (GPT-4, Llama ve Mistral tarafından kullanılan) Türkçe kesme işareti-ek kalıplarını bozduğu tespit edildi — daha önce belgelenmemiş bir etkileşim. Üç yinelemeli eğitim turu (11 alanda 1,7GB → 10GB → 22GB) ve sistematik kelime hacmi deneyleri (16K–64K) sonucunda bir bulgu ortaya çıktı: 48K'da görülen “azalan getiri” veri fazlalığından değil, kelime hacmi doyumundan kaynaklanıyordu; aynı derlemde 64K'ya geçiş %10,1 iyileşme sağladı. 21 cümlelik kıyaslamada kullanılan 64K tokenizer, Kumru ve TabiBERT'ten (ikisi de ~50K kelime) ~%14 daha az token kullanıyor ve GPT-4'ten kabaca 2,7× daha az. 128K bağlam uzunluğunda bu, ~149K Kumru tokenı veya ~352K GPT-4 tokenına eşdeğer Türkçe metin anlamına gelir.

İÇİNDEKİLER

1. Sorun: Dil Vergisi 2. İlgili Çalışmalar 3. Yeni Bulgu: GPT-2 Regex Türkçeyi Bozuyor 4. Mimari Kararlar 5. Eğitim Derlemi: 3 Yineleme 6. Veri ve Kelime Hacmi Ölçekleme 7. Karşılaştırma: 64K v3 vs Diğerleri 8. Alana Özel Analiz 9. Biçimbilimsel Analiz 10. Diyakritik Dayanıklılığı 11. Bağlam Penceresi: Biriken Avantaj 12. Pratik Sonuçları 13. Proje Durumu 14. Yeniden Üretilebilirlik

1. SORUN: DİL VERGİSİ

Türkçe metin büyük bir LLM'de işlendiğinde, İngilizce için tasarlanmış bir tokenizer'dan geçer. Türkçenin sondan eklemeli yapısı — anlamın eklerde yoğunlaştığı — bu tokenizer'lara yabancıdır.

Aynı cümle, farklı maliyet

Tokenizer	Kelime Hacmi	Token	Oran
Türkçe 64K v3 (bu çalışma)	64.000	9	1,0x
Kumru-2B	50.176	9	1,0x
GPT-4o (o200k)	200.019	12	1,3x
GPT-4 (cl100k)	100.277	17	1,9x

Test cümlesi: “Türkiye Cumhuriyeti'nin başkenti Ankara'dır.”

Yani her Türkçe API çağrısı kabaca 2× daha fazla token tüketebilir. Bağlam pencereleri orantılı olarak daha az Türkçe metin tutar; eğitim çalıştırmaları parti başına daha az cümle işler. Bu vergi metin uzadıkça katlanır.

2. İLGİLİ ÇALIŞMALAR

Birçok Türkçe dil modeli ve tokenizer mevcuttur. Hamza (Acıkgöz, “Bridging the Bosphorus”) 124M ile 1,3B parametre aralığında Türkçe LLM'ler sunar; GPT-2 ve Mistral'dan uyarlanmış modeller dahil. Hamza tokenizer'ının kelime hacmi 50.257'dir (GPT-2 ile aynı) ve Türkçe biçimbilimi için optimize edilmemiştir. TabiBERT (Boğaziçi Üniversitesi TabiLab) Türkçe NLP için 1T token üzerinde eğitilmiş ModernBERT tabanlı bir kodlayıcıdır; kelime hacmi 50.176. Kumru-2B, 50.176 kelimelik BPE tokenizer kullanır. LlamaTurk (ODTÜ NLP) Türkçe OSCAR üzerinde eğitilmiş 28K BPE tokenizer ile LLaMA'yı uyarlar.

Tutarlı bir örüntü, mevcut Türkçe çözücü LLM'lerin ~50K kelime hacminde buluşmasıdır: taban model GPT-2 olduğunda 50.257 (GPT-2 boyutu), diğerlerinde 50.176. Bu, Türkçe için sistematik kelime hacmi deneylerinden çok, İngilizce tabanlı tokenizer'ların uyarlanmasından kaynaklanıyor gibi görünür. Yazarın bildiği kadarıyla (1) GPT-2 ön-tokenizasyon regex'inin Türkçe kesme işareti eklerini bozduğunu, (2) tokenizer eğitiminde kelime doyumu ile veri doyumunu ya da (3) aynı derlemde 16K–64K kelime hacminin sistematik karşılaştırmasını raporlayan önceki bir çalışma yoktur.

3. YENİ BULGU: GPT-2 REGEX TÜRKÇEYİ BOZUYOR

Geliştirme sırasında GPT-2 ön-tokenizasyon regex'inin — GPT-4, GPT-4o, Llama 3 ve Mistral tarafından kullanılan aynı kalıbın — İngilizce kısaltma kalıplarını ('s|'t|'re|'ve|'m|'ll|'d) içerdiği ve bunun Türkçe tokenizasyonuna zarar verdiği tespit edildi.

HATA: 'd kalıbı (İngilizce “I'd” kısaltması) Türkçedeki -dA eklerinin başındaki “d”yi kendi içine alıyor — Türkçede en sık kullanılan ek ailelerinden biri (bulunma, çıkma). Aynı sorun 's (koşul eki), 't ve 'm için de geçerli.

GPT-4 Türkçe kesme işareti eklerini nasıl tokenize ediyor

Türkçe Metin	GPT-4 Tokenizasyonu	Sorun
Ankara'dır	`["Ankara", "'d", "ır"]`	'd kalıbı “dır”ın d'sini çalıyor
İstanbul'da	`["İstanbul", "'d", "a"]`	'd kalıbı “da”nın d'sini çalıyor
Ali'den	`["Ali", "'d", "en"]`	'd kalıbı “den”in d'sini çalıyor

Çözüm: temizlenmiş Türkçe regex

Türkçe Metin	Düzeltilmiş Tokenizasyon	Sonuç
Ankara'dır	`["Ankara", "'", "dır"]`	Ek tek parça kalıyor
İstanbul'da	`["İstanbul", "'", "da"]`	Ek tek parça kalıyor
Ali'den	`["Ali", "'", "den"]`	Ek tek parça kalıyor

Uygulama: Çözüm, İngilizce kısaltma kalıpları çıkarılmış özel bir ön-tokenizasyon regex'i ile dahili regex'ini kullanmayacak şekilde yapılandırılmış byte-level kodlayıcının zincirlenmesinden oluşur. Bu iki aşamalı yaklaşım Türkçe eklerin dilbilimsel olarak tek parça kalmasını sağlarken tam byte-level kapsamı korur. Asıl mesele şu: byte-level kodlayıcının varsayılan davranışı sorunlu GPT-2 regex'ini yeniden uyguluyor — açıkça devre dışı bırakılması gereken ince bir etkileşim. Yazarın bildiği kadarıyla GPT-2 regex'i ile Türkçe biçimbilimi arasındaki bu etkileşim daha önce belgelenmemiştir.

4. MİMARİ KARARLAR

Bileşen	Seçim	Gerekçe
Algoritma	Byte-level BPE	Sektör standardı (GPT-4, Llama 3, Mistral)
Normalizasyon	NFC Unicode	ç, ş, ğ, ö, ü, İ için birleşik/ayrışık biçimleri birleştirir
Ön-tokenizasyon	Özel Türkçe regex + ByteLevel	İngilizce kısaltmalar çıkarılmış GPT-2 tarzı
Byte-level ayar	Dahili regex devre dışı	Sorunlu kalıpların yeniden uygulanmasını engeller
Özel tokenlar	Llama-3 tarzı (7 token)	İleride talimat ince ayarı uyumluluğu
Min frekans	2	Nadir biçimbirimleri kaybetmeden yazım/gürültü filtreler
Kütüphane	HuggingFace tokenizers (Rust)	Üretim kalitesi, hızlı eğitim

Özel tokenlar

Token	ID	Amaç
`<\|begin_of_text\|>`	0	Belge/dizinin başı
`<\|end_of_text\|>`	1	Belge/dizinin sonu
`<\|pad\|>`	2	Toplu işleme için doldurma
`<\|unk\|>`	3	Bilinmeyen (güvenlik yedeği, nadiren tetiklenir)
`<\|start_header_id\|>`	4	Talimat ince ayarı: rol başlığı başı
`<\|end_header_id\|>`	5	Talimat ince ayarı: rol başlığı sonu
`<\|eot_id\|>`	6	Talimat ince ayarı: tur sonu

5. EĞİTİM DERLEMİ: 3 YİNELEME

Tokenizer üç yinelemeli turda eğitildi; her turda yeni veri alanları eklendi. Bu süreç derlem çeşitliliği ile tokenizer kalitesi arasındaki ilişkiye dair önemli sonuçlar ortaya çıkardı.

v1: Temel (1,7 GB, 14 dosya)

Alan	Kaynak	Boyut
Genel Bilgi	Wikipedia TR (520K madde)	866 MB
Kod	Python derlemi	569 MB
Mantık	Matematik problemleri, RAG, Zincir-düşünce	221 MB
Edebi	TED konuşmaları, klasik edebiyat, şiir, şarkı, halk, deyimler	46 MB
Kelime	TDK sözlük (tam + sadeleştirilmiş)	15 MB

v2: Kalite Artışı (10 GB, 16 dosya) — seçkin edebi ve akademik veri eklendi

Alan (YENİ)	Kaynak	Boyut
Kültürel/Edebi Web	BellaTurca ÖzenliDerlem (1,4M seçilmiş belge)	4,4 GB
Akademik/Tez	BellaTurca AkademikDerlem (668K makale)	3,5 GB

v3: Alan Kapsamı (22 GB, 27 dosya) — 7 yeni uzmanlık alanı

Alan (YENİ)	Kaynak	Boyut
Haber/Gazetecilik	1,8M haber + özetleme derlemi	4,5 GB
Hukuk	700K mahkeme kararı + Anayasa Mahkemesi	3,7 GB
Talimatlar	2,5M talimat-cevap çifti	3,7 GB
Finans	KAP duyuruları, sermaye piyasası (256K belge)	425 MB
Eğitim	Eğitim QA + MMLU sınav soruları (8 ders)	91 MB
Tıbbi	Tıbbi mantık + hastane makaleleri	108 MB

1,7 GB

v1: 14 DOSYA, 5 ALAN

10 GB

v2: 16 DOSYA, 7 ALAN

22 GB

v3: 27 DOSYA, 11 ALAN

6. VERİ VE KELİME HACMİ ÖLÇEKLEME DENEYLERİ

İki sistematik deney yapıldı: (1) sabit 48K kelime hacminde eğitim verisini 1,7GB'dan 22GB'a ölçekleme, (2) tam 22GB derlemde kelime hacmini 48K'dan 64K'ya ölçekleme. Birlikte veri hacmi ile kelime kapasitesi arasındaki etkileşime dair kritik bir içgörü ortaya çıktı.

Deney A: 48K kelime hacminde veri ölçekleme

Cümle	48k_v1	48k_v2	48k_v3	Kumru
Merhaba dünya, nasılsın?	6	6	6	8
Evlerdekilere söyleyin, yarın geliyoruz.	11	9	9	12
Çekoslovakyalılaştıramadıklarımızdan mısınız?	12	9	10	13
Dün akşam arkadaşlarımla buluştuk...	15	10	10	15
Spinoza'nın töz ontolojisi...	33	29	32	30
Sanığın mahkumiyet kararına... (legal)	12	11	8	12
Anayasa Mahkemesi başvuruyu... (legal)	10	9	7	11
Hastanın ameliyat sonrası... (medical)	10	8	7	8
TOPLAM (21 cümle)	261	235	233	267

Yukarıdaki toplamlar kısaltılmış cümle setinden alınmıştır. Bölüm 7'de aynı tokenizer'lar tam cümleler üzerinde raporlanıyor (192 / 199 / 224).

v1→v2 (1,7GB → 10GB): +%10,0 iyileşme. v2→v3 (10GB → 22GB): +%0,9 iyileşme — görünür azalan getiri.

Deney B: Kelime hacmi ölçekleme — dönüm noktası

48K'da v2→v3'te görülen neredeyse sıfır iyileşme başta veri doyumunu düşündürdü. Ancak aynı v3 derlemi üzerinde 64K tokenizer eğitmek temelden farklı bir sonuç verdi:

Tokenizer	Veri	Toplam Token	Kumru'ya göre
48k_v1	1.7 GB	261	+2.2%
48k_v2	10 GB	235	+12.0%
48k_v3	22 GB	233	+12.7%
64k_v1	1.7 GB	247	+7.5%
64k_v3	22 GB	222	+16.9%
Kumru (50k)	~500 GB	267	taban (kısaltılmış set)

+%0,9

48K: v2→v3 (DOYUM)

+%10,1

64K: v1→v3 (EMİLİM)

+%4,7

64K vs 48K (AYNI VERİ)

ANA BULGU: Kelime Doyumu, Veri Doyumu Değil.

48K'da gözlenen “azalan getiri” fazla veriden kaynaklanmıyordu — kelime hacminin dolmasından kaynaklanıyordu. 48.000 birleştirme yuvasında tokenizer'ın v3'te eklenen hukuk, tıp ve finans verisinden gelen yeni alan özgü kalıpları kodlayacak yeri kalmamıştı.

Aynı 22GB derlem 64K tokenizer eğitmek için kullanıldığında, ek 16.000 kelime yuvası 48K'nın yer veremediği alan sözcüklerini emdi ve 48K'da yalnızca %0,9 iyileşme getiren aynı veride %10,1 iyileşme (64k_v1→64k_v3) sağladı.

Sonuç: Kelime hacmi ile eğitim verisi birlikte ölçeklenmelidir. Kelime kapasitesi olmadan veri eklemek ya da veri çeşitliliği olmadan kelime eklemek azalan getiri üretir. En uygun tokenizer hem yeterli kelime yuvası hem de onları dolduracak yeterince çeşitli eğitim verisi gerektirir.

7. KARŞILAŞTIRMA: 64K v3 vs TÜRKÇE VE İNGİLİZCE TOKENİZERLAR

Günlük konuşma, resmi dil, sondan eklemeli yapı, kod ve altı uzmanlık alanını kapsayan 21 test cümlesi üzerinde tokenizer'lar karşılaştırıldı. Türkçe tokenizer'lar (bu çalışma, Kumru, TabiBERT, Hamza) aynı tam cümle setinde değerlendirildi; GPT-4/GPT-4o farklı tokenizer kullanır ve referans için dahil edildi.

Test Cümlesi	64k v3	48k v3	Kumru	TabiBERT	Hamza	GPT-4o	GPT-4
Merhaba dünya, nasılsın?	6	6	7	7	14	9	11
Türkiye Cumhuriyeti'nin başkenti Ankara'dır.	9	9	8	8	21	12	17
Evlerdekilere söyleyin, yarın geliyoruz.	8	9	11	11	21	12	18
Çekoslovakyalılaştıramadıklarımızdan mısınız?	9	10	12	12	29	19	21
Görüşebileceğimizi umuyorum.	5	6	6	6	15	11	14
Dün akşam arkadaşlarımla buluştuk.	5	5	9	9	20	20	25
Edebiyatımızın en önemli eserlerinden...	15	16	16	16	42	27	40
Osmanlı İmparatorluğu'nun son...	12	12	11	11	47	28	43
Spinoza'nın töz ontolojisi...	17	17	16	16	33	37	53
def __init__(self, value):	8	8	11	11	9	8	8
for i in range(len(dataset)):	9	9	13	13	12	7	7
Makine öğrenmesi algoritmalarının...	10	10	11	11	36	20	33
Büyükşehir belediyesi toplu taşıma...	8	9	8	8	28	17	28
İstanbul'dan Ankara'ya tren...	11	11	11	11	19	14	16
2024 yılında Türkiye'nin nüfusu...	11	11	15	15	32	15	26
Sanığın mahkumiyet kararına... (legal)	7	7	11	11	26	17	24
Anayasa Mahkemesi başvuruyu... (legal)	6	7	10	10	23	16	20
Hastanın ameliyat sonrası... (medical)	7	7	7	7	30	15	26
Şirketin halka arz sürecinde... (finance)	11	11	11	11	36	20	30
Fotosentez sırasında... (science)	11	11	12	12	36	29	38
Cumhurbaşkanlığı Sözcüsü basın...	7	8	8	8	39	18	29
TOPLAM (21 cümle)	192	199	224	224	568	371	527

Toplamlar benchmark_tokenizers.py ile 21 tam cümle üzerinden. Hamza GPT-2 tokenizer kullanır (50.257 kelime); Kumru ve TabiBERT ~50K BPE.

Gözlem: Kumru ve TabiBERT bu kıyaslamada her cümlede aynı token sayısını üretmektedir (aynı kelime hacmi 50.176; aynı toplam 224). 21 cümlenin tamamında birebir örtüşme, bağımsız eğitilmiş BPE tokenizer'ları için alışılmadıktır. Bulgu burada yorum eklenmeden raporlanmıştır.

Genişletilmiş kıyaslama: 104 cümle (21 çekirdek + 83 zor/kenar)

Aynı tokenizer'lar genişletilmiş sette de çalıştırıldı: yukarıdaki 21 çekirdek cümle artı 83 “zor” cümle (uzun birleştirmeler, hukuk/tıp/finans ifadeleri, günlük dil/argo, sayı ve tarihler, kod parçaları, noktalama ve kısaltmalar, alıntı sözcükler, büyük/küçük harf ve vurgu işareti kenar durumları). Tüm sayılar benchmark_tokenizers.py çıktısından.

Tokenizer	Toplam token (104 cümle)	en iyiye göre
64k v3	1.041	temel (en iyi)
48k v3	1.073	+%3,1
32k v2	1.163	+%11,7
16k v1	1.359	+%30,5
Kumru	1.198	+%15,1
TabiBERT	1.198	+%15,1
Hamza	2.451	+%135,4

64K genişletilmiş sette de en iyi kalır; Kumru ve TabiBERT yine birbiriyle aynı (1.198). Zor set örneğin Muvaffakiyetsizleştiricileştiriveremeyebileceklerimizdenmişsinizcesine, hukuk (HMK 353, tahkim), tıp (pankreatikoduodenektomi, kardiyovasküler), finans (BIST 100, SPK), argo (N'olcak, bişey), kod (return {'key': value}) ve alıntı sözcükler (Startup'lar, API endpoint'i) içerir.

192

BU ÇALIŞMA (64K v3)

224

KUMRU / TABIBERT (50K)

568

HAMZA (GPT-2 TOKENİZER)

527

GPT-4 (100K)

Sonuç: Aynı 21 cümlelik sette 64K tokenizer 192 token kullanır; Kumru ve TabiBERT 224 (~%16 daha fazla), Hamza 568 (~%289 daha fazla). Hamza tokenizer'ı 50.257 kelime hacmine sahiptir (GPT-2 ile aynı) ve Türkçe için optimize edilmemiştir. 64K tokenizer kodda GPT-4/GPT-4o ile aynı veya daha iyi performans gösterir; hukuk, tıp ve haber alanlarında belirgin kazanım sağlar. Kumru ve TabiBERT birebir aynı performansı gösterir; ikisi de ~50K BPE kullanır.(biri diğerinin tokenizerını kullanıyor.)

8. ALANA ÖZEL ANALİZ

Alana yönelik eğitim verisi, uzmanlık alanı sözcük dağarcığında ölçülebilir iyileşmeler sağlar. Aşağıda her alan için token düzeyinde karşılaştırmalar yer alıyor.

Hukuk Türkçesi

Tokenizer	Token	"Anayasa Mahkemesi başvuruyu oybirliğiyle reddetti."
64k v3	6	`Anayasa \| Mahkemesi \| başvuruyu \| oybirliğiyle \| reddetti \| .`
Kumru	10	`Anayasa \| Mahkemesi \| başvur \| uyu \| oy \| bir \| liğiyle \| reddet \| ti \| .`
TabiBERT	10	(Kumru ile aynı)
Hamza	23	(GPT-2 tokenizer)
GPT-4	20	(alt kelime parçalarına bölünmüş)

başvuruyu (başvuru) ve oybirliğiyle (oybirliğiyle) 64K'da tek token. Kumru ve TabiBERT birincisini 2, ikincisini 3 parçaya böler. Sonuç: 6 vs 10 (Kumru/TabiBERT), 6 vs 23 (Hamza).

Tıbbi Türkçe

Tokenizer	Token	"Hastanın ameliyat sonrası komplikasyon riski değerlendirilmelidir."
64k v3	7	`Hastanın \| ameliyat \| sonrası \| komplikasyon \| riski \| değerlendirilmelidir \| .`
Kumru	7	`Hastanın \| ameliyat \| sonrası \| komplikasyon \| riski \| değerlendirilmelidir \| .`
TabiBERT	7	(Kumru ile aynı)
Hamza	30	(GPT-2 tokenizer)
GPT-4	26	(alt kelime parçalarına bölünmüş)

Hastanın (hastanın) tek tokendir. değerlendirilmelidir (değerlendirilmelidir) — 6 biçimbirimlik ek zinciri — yine tek tokendir. Kumru/TabiBERT 7; Hamza 30; GPT-4 26.

Finans Türkçesi

Tokenizer	Token	"Şirketin halka arz sürecinde sermaye piyasası kurulu onayı gerekmektedir."
64k v3	11	`Şirket \| in \| halka \| arz \| sürecinde \| sermaye \| piyasası \| kurulu \| onayı \| gerekmektedir \| .`
Kumru	11	`Şirket \| in \| halka \| arz \| sürecinde \| sermaye \| piyasası \| kurulu \| onayı \| gerekmektedir \| .`
TabiBERT	11	(Kumru ile aynı)
Hamza	36	(GPT-2 tokenizer)
GPT-4	30	(alt kelime parçalarına bölünmüş)

Haber/Gazetecilik Türkçesi

Tokenizer	Token	"Cumhurbaşkanlığı Sözcüsü basın toplantısında açıklamalarda bulundu."
64k v3	7	`Cumhurbaşkanlığı \| Sözcüsü \| basın \| toplantısında \| açıklamalarda \| bulundu \| .`
Kumru	8	`Cumhurbaşkanlığı \| Sözc \| üsü \| basın \| toplantısında \| açıklamalarda \| bulundu \| .`
TabiBERT	8	(Kumru ile aynı)
Hamza	39	(GPT-2 tokenizer)
GPT-4	29	(alt kelime parçalarına bölünmüş)

Cumhurbaşkanlığı (Cumhurbaşkanlığı) ve Sözcüsü (Sözcüsü) 64K'da tek token. Kumru ve TabiBERT Sözcüsü 2 parçaya böler; Hamza 39 token. Ek kelime kapasitesi 64K'nın bu yüksek frekanslı kurumsal terimleri atomik birimler olarak yakalamasını sağlar.

9. BİÇİMBİLİMSEL ANALİZ

Tokenizer Türkçe biçimbilimini salt istatistikten öğrendi — hiçbir dilbilimsel kural programlanmadı. BPE, 22GB metnin frekans analiziyle biçimbirim benzeri sınırları kendiliğinden keşfetti.

Fiil biçimbilimi (öğrenildi, kodlanmadı)

Kelime	Token	Biçimbilimsel Yorum
geliyorum	`gel \| iyorum`	gövde + şimdiki zaman 1. kişi
geldim	`gel \| dim`	gövde + geçmiş zaman 1. kişi
gelecek	`gelecek`	tek token (çok yaygın kelime)
gelmiş	`gelmiş`	tek token (yaygın duyulan geçmiş)
geliyoruz	`geliyoruz`	tek token (yaygın 1. çoğul)

İsim hal ekleri

Kelime	Token	Sayı
ev (ev)	`ev`	1
evde (evde)	`evde`	1
evden (evden)	`evden`	1
eve (eve)	`eve`	1
evin (evin)	`evin`	1
evler (evler)	`evler`	1

“Ev”in altı farklı dilbilgisel biçimi — hepsi tek token olarak kodlanır.

Ek zinciri işleme

Kelime	Token	Sayı
değerlendirilmelidir	`değerlendirilmelidir`	1
larımızdan (bizim ...lerimizden)	`larımızdan`	1
gidebilirsiniz (gidebilirsiniz)	`gidebilirsiniz`	1
oybirliğiyle (oybirliğiyle)	`oybirliğiyle`	1

10. DİYAKRİTİK DAYANIKLILIĞI

Türkçe kullanıcılar bazen vurgu işaretleri olmadan yazar (c yerine ç, s yerine ş, i yerine ı). Tokenizer her iki biçimi de işler; ancak doğru Türkçe, tasarım gereği belirgin biçimde daha az token tüketir.

Doğru Türkçe	Token	Vurgusuz yazım	Token	Maliyet
şehir	1	sehir	3	+2
büyükşehir	2	buyuksehir	6	+4
Türkiye	1	Turkiye	2	+1
öğrenci	1	ogrenci	3	+2
günaydın	2	gunaydin	3	+1

Tasarım tercihi: Vurgu işaretleri olmadan yazılmış Türkçe eğitim derlemine bilinçli olarak alınmadı. Böylece özensiz giriş yine de işlenebilir (hiçbir şey bozulmaz — byte-level BPE her şeyi temsil edebilir) ancak daha fazla token tüketir. Bu tokenizer ile eğitilen model özensiz girişi kabul ederken çıktıda her zaman doğru Türkçe üretir — çünkü eğitildiği tek biçim doğru Türkçedir.

11. BAĞLAM PENCERESİ: BİRİKEN AVANTAJ

Tokenizer verimliliği sabit bir tasarruf değildir — bağlam uzunluğu üzerinde bir çarpandır. Bağlam penceresi ne kadar uzunsa avantaj o kadar birikir. Bu hedef model için doğrudan mimari sonuçlar doğurur.

Etkin bağlam kapasitesi

Her bağlam uzunluğunda 64K tokenizer, rakiplerin aynı sayıda token yuvasına sığdırabileceğinden belirgin biçimde daha fazla Türkçe metin tutar:

Bağlam Uzunluğu	Bu Çalışma (64K)	Kumru Eşdeğeri	GPT-4 Eşdeğeri	Ek Metin Kapasitesi
2,048 tokens	2,048	~2,387	~5,627	+339 vs Kumru
4,096 tokens	4,096	~4,773	~11,253	+677 vs Kumru
32,768 tokens	32,768	~38,187	~90,027	+5,419 vs Kumru
128,000 tokens	128,000	~149,333	~351,667	+21,333 vs Kumru

“Kumru Eşdeğeri” = aynı miktarda Türkçe metni tutmak için kaç Kumru tokenı gerekir. Bölüm 7'de ölçülen verimlilik farklarından hesaplandı.

Mimari sonuç: küçük model, büyük bağlam

Verimlilik avantajı Türkçe için en uygun model mimarisini temelden değiştirir. İki strateji değerlendirildi:

Strateji	Parametreler	Bağlam	Türkçe Metin Kapasitesi	Eğitilebilirlik
Büyük model, kısa bağlam	7B	4.096	~3–4 sayfa	40–80 GB VRAM gerekir
Küçük model, uzun bağlam	1–2B	128K	~tüm kitap	Tüketici donanımında eğitilebilir

Stratejik karar: 128K bağlam uzunluğuna sahip 1–2B parametreli model hedef mimari olarak seçildi. 64K tokenizer ile bu yapılandırma, Kumru ile tokenize edilmiş bir modelin ~150K tokenla veya GPT-4'ün ~303K tokenla tutacağı Türkçe metni tutar. Mevcut Türkçe dil modellerinin çoğu 4K–8K token bağlam sunar. 128K bağlama sahip anadili Türkçe tokenizer'lı bir model, dava dosyalarını, akademik tezleri veya edebi eserleri tek seferde işleyebilir.

1B ölçeğinde 64K kelime hacminin gömme katmanı maliyeti toplam parametrelerin yaklaşık %3,3'üdür — işlenen her token için Kumru/TabiBERT'e karşı kalıcı ~%14 verimlilik avantajı için ihmal edilebilir bir maliyet.

12. PRATİK SONUÇLARI

~2,7×

DAHA AZ TOKEN (GPT-4'e göre, 21 CÜMLE)

~%14

KUMRU/TABIBERT'TEN DAHA AZ TOKEN

%66

HAMZA'DAN DAHA AZ TOKEN (GPT-2)

KAPSANAN ALAN

İngilizce merkezli tokenizer'larda işlenen Türkçe metin, bağlam uzunluğu, hız, maliyet ve eğitim verimliliği açısından kabaca 2× token cezasına uğrar. Anadili Türkçe tokenizer bu vergiyi tamamen kaldırır.

Tokenizer 11 uzmanlık alanını kapsar (genel, akademik, hukuk, tıp, finans, eğitim, haber, kod, edebi, mantık, talimatlar); konu ne olursa olsun verimli tokenizasyon sağlanır.

13. PROJE DURUMU

Aşama	Durum	Ana Sonuç
Aşama 1: Tokenizer	TAMAMLANDI	64K kelime, Kumru/TabiBERT'ten ~%14 daha az token, GPT-4'e göre ~2,7×, 11 alan
Aşama 2: Mimari	SIRADA	1–2B parametre, 128K bağlam hedefi
Aşama 3: Ön eğitim	SIRADA	Türkçe derlemden dil öğrenimi
Aşama 4: İnce ayar	SIRADA	Talimat takibi, sohbet yeteneği

14. YENİDEN ÜRETİLEBİLİRLİK

Kod, veri kaynakları ve eğitilmiş tokenizer'lar mevcuttur.

Eğitim betiği: train_tokenizer.py
Kıyaslama betiği: benchmark_tokenizers.py (104 cümle: 21 çekirdek + 83 zor/kenar)
Eğitim verisi: 27 dosyada 22 GB, 11 alan
Seçilen tokenizer: tokenizers/turkish_bpe_64k/tokenizer.json
Saklanan sürümler: 16K, 32K, 48K, 64K × v1/v2/v3
Referanslar: Kumru-2B (50.176), TabiBERT (50.176), Hamza (50.257, GPT-2 tokenizer), GPT-4 (cl100k_base), GPT-4o (o200k_base)

Sonuç. Türkçe için özel tokenizer, verimli Türkçe dil modellemesi için ön koşuldur. İngilizce merkezli tokenizer'ların getirdiği verimlilik cezası ölçülebilir ve giderilebilir. Üç bulgu vurgulanır: (1) GPT-2 ön-tokenizasyon regex'i Türkçe kesme işareti-ek kalıplarını bozar — daha önce belgelenmemiş bir etkileşim; (2) 48K'da görülen azalan getiriyi veri fazlalığı değil kelime doyumu açıklar — sondan eklemeli diller için önem taşır; (3) tokenizer verimliliği bağlam uzunluğuyla birikir ve küçük, uzun bağlamlı mimarileri destekler. Bu rapor sıfırdan anadili Türkçe bir LLM kurma çabasının Aşama 1'ini belgeler.

Kumru AI’ya özel bir teşekkür borçluyuz: Türkçe LLM’lerinin mantık ve Türkçe biçimbiliminde iyi belgelenmiş sınırlılıkları, sıfırdan düzgün bir Türkçe dil modeli kurma motivasyonunu sağladı. Hamza (emrecanacikgoz) ve TabiBERT (boun-tabilab) tokenizer’ları da karşılaştırıldı; Bölüm 7 ve benchmark_tokenizers.py'ye bakınız.