ML MODEL EĞİTİMİ
Bölüm 4: Başarısız LLM'lerden Gradient Boosting Başarısına
İÇİNDEKİLER
1. SORU
Bölüm 3'ün Omega Sistemi elle kodlanmış sinyal agregasyon kuralları kullandı. Sonuçlar etkileyiciydi: 2021 backtestlerinde %9,868 getiri. Ancak bu kurallar piyasalar hakkında insan varsayımlarını kodluyor.
Ya makine öğrenmesinin desenleri bulmasına izin verilirse?
Hedef: aynı 171 özellik üzerinde (feature engineering ile ~16,000'e genişletilmiş) modeller eğitmek ve fiyat yönünü tahmin edip edemeyeceklerini görmek. Elle kodlanmış kural yok. Sadece veri.
2. VERİ SETİ
| Parametre | Değer |
|---|---|
| Varlıklar | 94 kripto para |
| Zaman Aralığı | 2015 - 2025 (10 yıl) |
| Satır | ~197,000 |
| Temel Özellikler | 171 (Omega Sisteminden) |
| Mühendislik Özellikleri | ~16,000 |
| Hedef Değişken | Fiyat yönü (binary: yukarı/aşağı) |
| Train/Test Bölümü | 90/10 zaman-tabanlı (lookahead yok) |
Feature engineering, 171 temel metriği rolling window'lar, lag'ler, etkileşimler ve çapraz varlık ilişkileri aracılığıyla ~16,000'e genişletti. Eğitim verimliliği için, varyansa göre en iyi 500-1000 özellik seçildi.
3. BAŞARISIZ DENEY: BÜYÜK DİL MODELLERİ
İlk yaklaşım iddialıydı: fiyatları tahmin etmek için bir Large Language Model (Qwen 3 4B) eğitmek.
Mantık sağlam görünüyordu—LLM'ler desen tanımada olağanüstü yetenekler gösterdi ve finansal veriler sonuçta sıralı bilgilerdir.
LLM'ler temelde dil için tasarlandı—semantik anlama sahip ayrık token'lar. Finansal zaman serileri sürekli sayısal verilerdir. Bunlar farklı mimariler gerektiren farklı alanlardır.
LLM'ler Neden Başarısız Oldu
| Problem | Açıklama |
|---|---|
| Tokenizasyon uyumsuzluğu | Sayılar tutarsız şekilde tokenize ediliyor ("123.45" → birden fazla token) |
| Sayısal akıl yürütme yok | LLM'ler 50.1 > 49.9'un anlamlı bir şekilde olduğunu anlamıyor |
| Eğitim verimliliği | Dil anlayışı gerektirmeyen bir görev için milyarlarca parametre |
| Hallucination riski | LLM'ler makul görünen ama yanlış tahminler üretebilir |
4. BAŞARISIZ DENEY: PEKİŞTİRMELİ ÖĞRENME (PPO)
İkinci yaklaşım: trading yapmak için bir Proximal Policy Optimization (PPO) ajanı eğitmek.
Supervised learning'den (yukarı/aşağı tahmin et) farklı olarak, RL ajanları etkileşim yoluyla öğrenir. Ajan aksiyonlar alır (AL/SAT/TUT), ödüller alır (kâr/zarar) ve bir policy öğrenir.
40,000+ timestep eğitimden sonra, ajan tek bir aksiyona çöktü: TUT. Hiçbir şey yapmamanın kayıplardan kaçınmanın en güvenli yolu olduğunu öğrendi.
Çöküşten Önceki Eğitim Metrikleri
| Metrik | Değer | Yorumlama |
|---|---|---|
| entropy_loss | -0.106 → -0.155 | Tek aksiyona çöküyor |
| explained_variance | 0.874 → 0.272 | Tahmin gücünü kaybediyor |
| mean_reward | -0.01 | Hafif negatif (ücretler kârı yiyor) |
| episode_length | 39,434 | Pozisyonları asla kapatmıyor |
PPO Neden Başarısız Oldu
- Seyrek ödüller: Trading ödülleri episode sonunda geliyor, kredi atamasını zorlaştırıyor
- Uzun episode'lar: Herhangi bir geri bildirim sinyalinden önce 39,000+ adım
- Yerel minimum: TUT kayıplardan kaçınır, bu yüzden ajan orada takılır
- Keşif çöküşü: Entropy düştü, yani ajan alternatifleri keşfetmeyi bıraktı
5. İŞE YARAYAN: GRADIENT BOOSTING
LLM ve RL başarısızlıklarından sonra, odak tabular veriler için kanıtlanmış yaklaşımlara kaydı: Gradient Boosting Decision Trees (GBDT).
Üç model seçildi: XGBoost, CatBoost ve LightGBM. Her biri biraz farklı algoritmalara sahip, ensemble çeşitliliği sağlıyor.
Model Durumu
| Model | Durum | HPO Denemeleri | En İyi AUC | Notlar |
|---|---|---|---|---|
| XGBoost | TAMAMLANDI | 500/500 | 0.566 | En iyi performans |
| CatBoost | TAMAMLANDI | 500/500 | 0.530 | GPU-hızlandırılmış |
| LightGBM | TAMAMLANDI | 500/500 | 0.520 | Bellek-optimize |
| TFT | TAMAMLANDI | — | N/A | Classification için zayıf uyum |
Hiperparametre Optimizasyonu
Her model TPESampler ile Optuna kullanarak 500 deneme Bayesian optimizasyonundan geçti. Bu rastgele arama değil—optimizer umut vaat eden parametre bölgelerini keşfetmek için önceki denemelerden öğrenir.
| Parametre | Arama Aralığı |
|---|---|
| n_estimators | 500 - 3000 |
| max_depth | 4 - 15 |
| learning_rate | 0.001 - 0.1 (log ölçek) |
| subsample | 0.5 - 1.0 |
| colsample_bytree | 0.5 - 1.0 |
| reg_alpha | 1e-8 - 10 (log ölçek) |
| reg_lambda | 1e-8 - 10 (log ölçek) |
XGBoost En İyi Konfigürasyon
| Parametre | Değer |
|---|---|
| n_estimators | 2,520 |
| max_depth | 14 |
| learning_rate | 0.084 |
| min_child_weight | 10 |
| subsample | 0.633 |
| colsample_bytree | 0.857 |
| gamma | 1.22 |
| En İyi AUC | 0.566 |
6. SONUÇLARI ANLAMAK
AUC 0.566 Ne Anlama Geliyor?
AUC (Area Under ROC Curve) bir modelin sınıfları ne kadar iyi ayırt ettiğini ölçer:
| AUC Değeri | Yorumlama |
|---|---|
| 0.50 | Rastgele şans (yazı-tura) |
| 0.50 - 0.60 | Zayıf, ama rastgeleden iyi |
| 0.60 - 0.70 | Orta düzey tahmin gücü |
| 0.70 - 0.80 | İyi |
| 0.80+ | Mükemmel (finansal veri için şüpheli) |
HPO vs Final Test AUC
Önemli uyarı: HPO AUC skorları validation verisinden. Gerçekten görülmemiş veriler üzerindeki final test skorları genellikle daha düşük:
| Model | HPO En İyi AUC | Final Test AUC | Düşüş |
|---|---|---|---|
| CatBoost | 0.530 | ~0.51 | -0.02 |
| LightGBM | 0.520 | ~0.50 | -0.02 |
| XGBoost | 0.566 | BELİRLENECEK | — |
7. TFT: SİNİR AĞI DENEMESİ
Temporal Fusion Transformer (TFT) zaman serisi tahmini için tasarlanmış bir sinir ağı mimarisidir.
TFT başarıyla eğitildi, ancak regression (sürekli değerleri tahmin etme) için tasarlandı, classification (yukarı/aşağı tahmin) için değil. Fiyat büyüklüğü tahmini için tekrar ziyaret edilebilir.
8. TEKNİK ZORLUKLAR
197K satır × 16K özellik üzerinde eğitim mühendislik zorlukları sundu:
Bellek Yönetimi
- Orijinal veri seti 128GB+ RAM gerektirdi
- Varyansa göre en iyi 500 özelliği seçen düşük bellekli versiyon oluşturuldu
- Tüm özellikler float32'ye cast edildi (float64'ün yarısı bellek)
- İşlemler arasında açık garbage collection
Veri Tipi Sorunları
- Karışık object/numeric sütunlar eğitim başarısızlıklarına neden oldu
pd.to_numeric(errors='coerce')ön işleme eklendi- Sonsuzluk değerleri
replace([np.inf, -np.inf], 0)ile ele alındı
Model Kaydetme
- Kaydetmeden önce çökmeler nedeniyle birden fazla eğitim çalışması kaybedildi
- Eğitimden sonra, değerlendirmeden önce anında kaydetme uygulandı
- Üzerine yazmaları önlemek için zaman damgalı yedeklemeler eklendi
9. FİNAL DURUM
| Model | Durum | Sonuç |
|---|---|---|
| XGBoost | TAMAMLANDI | AUC 0.566 — En iyi performans |
| CatBoost | TAMAMLANDI | AUC 0.530 |
| LightGBM | TAMAMLANDI | AUC 0.520 |
| TFT | TAMAMLANDI | Classification için zayıf uyum |
| PPO | TERK EDİLDİ | TUT aksiyonuna çöktü |
| Qwen LLM | TERK EDİLDİ | Sayısal veri için yanlış mimari |
10. SIRADA: REJİM TESPİTİ (BÖLÜM 5)
Fiyat tahmin modelleri tamamlanmış olarak, sonraki aşama rejim tespiti—piyasa koşullarını Boğa, Ayı veya Yatay olarak sınıflandırmak için özel modeller.
Bu modeller fiyatları tahmin etmiyor. Bağlam sağlıyorlar. Ensemble "ayı piyasasındayız" bildiğinde, sinyalleri ağırlıklandırabilir ve risk parametrelerini ayarlayabilir.
• Hidden Markov Model (HMM) — 219 özellik ile denetimsiz rejim keşfi
• Random Forest Classifier — 235 özellik ile denetimli sınıflandırma, hiperparametre-optimize
• Bidirectional LSTM + Attention — 90 günlük diziler, çok görevli öğrenme (günlük/haftalık/aylık)
• Ensemble Voting — Sağlam rejim sinyalleri için üçünü birleştir
Veri Seti: 233,507 satır × 203 özellik × 97 varlık (2014-2026)
Etiketler: %100 hindsight-doğru (YUKARI/AŞAĞI/AYNI, BOĞA/AYI/YATAY)
11. ÖN SONUÇ
LLM'lerden gradient boosting'e yolculuk, makine öğrenmesinde temel bir gerçeği yansıtır: mimariyi probleme eşleştir.
- LLM'ler dilde mükemmel, sayılarda değil
- Pekiştirmeli öğrenme dikkatli ödül tasarımı gerektirir
- Gradient boosting tabular veriler için altın standart olmaya devam ediyor
- Hiperparametre optimizasyonu önemli—Deneme 244 vs Deneme 3, 0.49 vs 0.57 AUC
Modeller out-of-sample verilerde tutarlı >%50 doğruluk gösteriyor. Bu trading kârlarının garantisi değil, ancak öğrenilebilir desenlerin var olduğunun kanıtı. Bu desenlerin canlı piyasalarda devam edip etmeyeceği nihai testtir.
Tüm gradient boosting modelleri eğitildi. XGBoost en iyi AUC'yi (0.566) elde etti. Rejim tespit modelleri (Bölüm 5) şu anda geliştiriliyor.
© 2026 Omega Arena