Araştırmaya Dön

ML MODEL EĞİTİMİ

Bölüm 4: Başarısız LLM'lerden Gradient Boosting Başarısına

Omega Arena • Şubat 2026 • TAMAMLANDI

VARLIK

YIL

197K

SATIR

0.566

XGBOOST AUC

Özet. Bölüm 3'te Omega Sistemi—171 elle hazırlanmış metrik—belgelendi. Burada makine öğrenmesinin aynı verilerde desenler bulup bulamayacağı araştırılıyor. LLM'ler ve pekiştirmeli öğrenme ile başarısız denemelerden sonra, gradient boosting modelleri (XGBoost, CatBoost, LightGBM) 0.50'nin üzerinde AUC skorları elde etti—rastgele şanstan daha iyi. Bu, verilerde öğrenilebilir desenlerin var olduğunu gösteriyor.

İÇİNDEKİLER

1. Soru 2. Veri Seti 3. Başarısız: Büyük Dil Modelleri 4. Başarısız: Pekiştirmeli Öğrenme 5. İşe Yarayan: Gradient Boosting 6. Sonuçları Anlamak 7. TFT: Sinir Ağı Denemesi 8. Teknik Zorluklar 9. Final Durum 10. Sırada: Rejim Tespiti 11. Ön Sonuç

1. SORU

Bölüm 3'ün Omega Sistemi elle kodlanmış sinyal agregasyon kuralları kullandı. Sonuçlar etkileyiciydi: 2021 backtestlerinde %9,868 getiri. Ancak bu kurallar piyasalar hakkında insan varsayımlarını kodluyor.

Ya makine öğrenmesinin desenleri bulmasına izin verilirse?

Hedef: aynı 171 özellik üzerinde (feature engineering ile ~16,000'e genişletilmiş) modeller eğitmek ve fiyat yönünü tahmin edip edemeyeceklerini görmek. Elle kodlanmış kural yok. Sadece veri.

2. VERİ SETİ

Parametre	Değer
Varlıklar	94 kripto para
Zaman Aralığı	2015 - 2025 (10 yıl)
Satır	~197,000
Temel Özellikler	171 (Omega Sisteminden)
Mühendislik Özellikleri	~16,000
Hedef Değişken	Fiyat yönü (binary: yukarı/aşağı)
Train/Test Bölümü	90/10 zaman-tabanlı (lookahead yok)

Feature engineering, 171 temel metriği rolling window'lar, lag'ler, etkileşimler ve çapraz varlık ilişkileri aracılığıyla ~16,000'e genişletti. Eğitim verimliliği için, varyansa göre en iyi 500-1000 özellik seçildi.

3. BAŞARISIZ DENEY: BÜYÜK DİL MODELLERİ

İlk yaklaşım iddialıydı: fiyatları tahmin etmek için bir Large Language Model (Qwen 3 4B) eğitmek.

Mantık sağlam görünüyordu—LLM'ler desen tanımada olağanüstü yetenekler gösterdi ve finansal veriler sonuçta sıralı bilgilerdir.

SONUÇ: TERK EDİLDİ

LLM'ler temelde dil için tasarlandı—semantik anlama sahip ayrık token'lar. Finansal zaman serileri sürekli sayısal verilerdir. Bunlar farklı mimariler gerektiren farklı alanlardır.

LLM'ler Neden Başarısız Oldu

Problem	Açıklama
Tokenizasyon uyumsuzluğu	Sayılar tutarsız şekilde tokenize ediliyor ("123.45" → birden fazla token)
Sayısal akıl yürütme yok	LLM'ler 50.1 > 49.9'un anlamlı bir şekilde olduğunu anlamıyor
Eğitim verimliliği	Dil anlayışı gerektirmeyen bir görev için milyarlarca parametre
Hallucination riski	LLM'ler makul görünen ama yanlış tahminler üretebilir

Not: LLM'ler Bölüm 6'da hâlâ kullanılacak—tahmin için değil, karar sentezi için. Claude Opus 4.5 model çıktılarını yorumlayacak ve final trading kararlarını verecek. LLM'lerin iyi olduğu şey bu.

4. BAŞARISIZ DENEY: PEKİŞTİRMELİ ÖĞRENME (PPO)

İkinci yaklaşım: trading yapmak için bir Proximal Policy Optimization (PPO) ajanı eğitmek.

Supervised learning'den (yukarı/aşağı tahmin et) farklı olarak, RL ajanları etkileşim yoluyla öğrenir. Ajan aksiyonlar alır (AL/SAT/TUT), ödüller alır (kâr/zarar) ve bir policy öğrenir.

SONUÇ: TERK EDİLDİ

40,000+ timestep eğitimden sonra, ajan tek bir aksiyona çöktü: TUT. Hiçbir şey yapmamanın kayıplardan kaçınmanın en güvenli yolu olduğunu öğrendi.

Çöküşten Önceki Eğitim Metrikleri

Metrik	Değer	Yorumlama
entropy_loss	-0.106 → -0.155	Tek aksiyona çöküyor
explained_variance	0.874 → 0.272	Tahmin gücünü kaybediyor
mean_reward	-0.01	Hafif negatif (ücretler kârı yiyor)
episode_length	39,434	Pozisyonları asla kapatmıyor

PPO Neden Başarısız Oldu

Seyrek ödüller: Trading ödülleri episode sonunda geliyor, kredi atamasını zorlaştırıyor
Uzun episode'lar: Herhangi bir geri bildirim sinyalinden önce 39,000+ adım
Yerel minimum: TUT kayıplardan kaçınır, bu yüzden ajan orada takılır
Keşif çöküşü: Entropy düştü, yani ajan alternatifleri keşfetmeyi bıraktı

5. İŞE YARAYAN: GRADIENT BOOSTING

LLM ve RL başarısızlıklarından sonra, odak tabular veriler için kanıtlanmış yaklaşımlara kaydı: Gradient Boosting Decision Trees (GBDT).

Üç model seçildi: XGBoost, CatBoost ve LightGBM. Her biri biraz farklı algoritmalara sahip, ensemble çeşitliliği sağlıyor.

Model Durumu

Model	Durum	HPO Denemeleri	En İyi AUC	Notlar
XGBoost	TAMAMLANDI	500/500	0.566	En iyi performans
CatBoost	TAMAMLANDI	500/500	0.530	GPU-hızlandırılmış
LightGBM	TAMAMLANDI	500/500	0.520	Bellek-optimize
TFT	TAMAMLANDI	—	N/A	Classification için zayıf uyum

Hiperparametre Optimizasyonu

Her model TPESampler ile Optuna kullanarak 500 deneme Bayesian optimizasyonundan geçti. Bu rastgele arama değil—optimizer umut vaat eden parametre bölgelerini keşfetmek için önceki denemelerden öğrenir.

Parametre	Arama Aralığı
n_estimators	500 - 3000
max_depth	4 - 15
learning_rate	0.001 - 0.1 (log ölçek)
subsample	0.5 - 1.0
colsample_bytree	0.5 - 1.0
reg_alpha	1e-8 - 10 (log ölçek)
reg_lambda	1e-8 - 10 (log ölçek)

XGBoost En İyi Konfigürasyon

Parametre	Değer
n_estimators	2,520
max_depth	14
learning_rate	0.084
min_child_weight	10
subsample	0.633
colsample_bytree	0.857
gamma	1.22
En İyi AUC	0.566

6. SONUÇLARI ANLAMAK

AUC 0.566 Ne Anlama Geliyor?

AUC (Area Under ROC Curve) bir modelin sınıfları ne kadar iyi ayırt ettiğini ölçer:

AUC Değeri	Yorumlama
0.50	Rastgele şans (yazı-tura)
0.50 - 0.60	Zayıf, ama rastgeleden iyi
0.60 - 0.70	Orta düzey tahmin gücü
0.70 - 0.80	İyi
0.80+	Mükemmel (finansal veri için şüpheli)

AUC 0.566 mütevazı ama anlamlı. Model yazı-turadan daha sık doğru demek. Finansal piyasalarda, küçük avantajlar bile binlerce işlem üzerinden bileşir.

HPO vs Final Test AUC

Önemli uyarı: HPO AUC skorları validation verisinden. Gerçekten görülmemiş veriler üzerindeki final test skorları genellikle daha düşük:

Model	HPO En İyi AUC	Final Test AUC	Düşüş
CatBoost	0.530	~0.51	-0.02
LightGBM	0.520	~0.50	-0.02
XGBoost	0.566	BELİRLENECEK	—

7. TFT: SİNİR AĞI DENEMESİ

Temporal Fusion Transformer (TFT) zaman serisi tahmini için tasarlanmış bir sinir ağı mimarisidir.

SONUÇ: TAMAMLANDI AMA ZAYIF UYUM

TFT başarıyla eğitildi, ancak regression (sürekli değerleri tahmin etme) için tasarlandı, classification (yukarı/aşağı tahmin) için değil. Fiyat büyüklüğü tahmini için tekrar ziyaret edilebilir.

8. TEKNİK ZORLUKLAR

197K satır × 16K özellik üzerinde eğitim mühendislik zorlukları sundu:

Bellek Yönetimi

Orijinal veri seti 128GB+ RAM gerektirdi
Varyansa göre en iyi 500 özelliği seçen düşük bellekli versiyon oluşturuldu
Tüm özellikler float32'ye cast edildi (float64'ün yarısı bellek)
İşlemler arasında açık garbage collection

Veri Tipi Sorunları

Karışık object/numeric sütunlar eğitim başarısızlıklarına neden oldu
pd.to_numeric(errors='coerce') ön işleme eklendi
Sonsuzluk değerleri replace([np.inf, -np.inf], 0) ile ele alındı

Model Kaydetme

Kaydetmeden önce çökmeler nedeniyle birden fazla eğitim çalışması kaybedildi
Eğitimden sonra, değerlendirmeden önce anında kaydetme uygulandı
Üzerine yazmaları önlemek için zaman damgalı yedeklemeler eklendi

9. FİNAL DURUM

Model	Durum	Sonuç
XGBoost	TAMAMLANDI	AUC 0.566 — En iyi performans
CatBoost	TAMAMLANDI	AUC 0.530
LightGBM	TAMAMLANDI	AUC 0.520
TFT	TAMAMLANDI	Classification için zayıf uyum
PPO	TERK EDİLDİ	TUT aksiyonuna çöktü
Qwen LLM	TERK EDİLDİ	Sayısal veri için yanlış mimari

10. SIRADA: REJİM TESPİTİ (BÖLÜM 5)

Fiyat tahmin modelleri tamamlanmış olarak, sonraki aşama rejim tespiti—piyasa koşullarını Boğa, Ayı veya Yatay olarak sınıflandırmak için özel modeller.

Bu modeller fiyatları tahmin etmiyor. Bağlam sağlıyorlar. Ensemble "ayı piyasasındayız" bildiğinde, sinyalleri ağırlıklandırabilir ve risk parametrelerini ayarlayabilir.

BÖLÜM 5 İÇİN GELİŞTİRİLİYOR:

• Hidden Markov Model (HMM) — 219 özellik ile denetimsiz rejim keşfi
• Random Forest Classifier — 235 özellik ile denetimli sınıflandırma, hiperparametre-optimize
• Bidirectional LSTM + Attention — 90 günlük diziler, çok görevli öğrenme (günlük/haftalık/aylık)
• Ensemble Voting — Sağlam rejim sinyalleri için üçünü birleştir

Veri Seti: 233,507 satır × 203 özellik × 97 varlık (2014-2026)
Etiketler: %100 hindsight-doğru (YUKARI/AŞAĞI/AYNI, BOĞA/AYI/YATAY)

11. ÖN SONUÇ

LLM'lerden gradient boosting'e yolculuk, makine öğrenmesinde temel bir gerçeği yansıtır: mimariyi probleme eşleştir.

LLM'ler dilde mükemmel, sayılarda değil
Pekiştirmeli öğrenme dikkatli ödül tasarımı gerektirir
Gradient boosting tabular veriler için altın standart olmaya devam ediyor
Hiperparametre optimizasyonu önemli—Deneme 244 vs Deneme 3, 0.49 vs 0.57 AUC

Modeller out-of-sample verilerde tutarlı >%50 doğruluk gösteriyor. Bu trading kârlarının garantisi değil, ancak öğrenilebilir desenlerin var olduğunun kanıtı. Bu desenlerin canlı piyasalarda devam edip etmeyeceği nihai testtir.

Bölüm 4 Durumu: TAMAMLANDI
Tüm gradient boosting modelleri eğitildi. XGBoost en iyi AUC'yi (0.566) elde etti. Rejim tespit modelleri (Bölüm 5) şu anda geliştiriliyor.