Traditionele statistiek vs Machine Learning: Wat werkt beter?
Je zit voor je scherm en vraagt je af of je die ouderwetse wiskunde moet gebruiken of die gloednieuwe AI voor je trading bot.
Dat is een eerlijke vraag. De meeste traders beginnen met een simpel script in Python, kijken naar een backtest en denken: “Waarom werkt dit niet altijd?” Dan begint de zoektocht naar betere methoden.
Traditionele statistiek en machine learning zijn twee werelden die soms botsen, maar vaak ook overlappen. Laten we eens kijken wat er echt gebeurt achter de schermen van je broker-API en je risicomanagement.
Wat is traditionele statistiek in trading?
Stel je voor dat je een eenvoudig model bouwt met lineaire regressie op historische prijzen. Je pakt een Python-pakket zoals statsmodels of scikit-learn, trekt een paar lijnen door je data en kijkt naar p-waarden en betrouwbaarheidsintervallen.
Je probeert patronen te vinden die statistisch significant zijn, zoals een mean-reversion effect op een aandeel dat te ver is gezakt.
Dit voelt veilig en transparant: je weet precies welke variabele je model binnenkomt en welke impact die heeft. Traditionele statistiek werkt goed met kleine datasets. Je kunt een backtest draaien op 3 jaar data van een broker zoals Interactive Brokers of DeGiro en snel zien of een strategie robuust is.
Je gebruikt geen complexe hyperparameters, dus de kans op overfitting is kleiner. Je kunt ook eenvoudig risicomanagement toevoegen, zoals een stop-loss van 2% of een positiegrootte gebaseerd op een vaste Kelly-formule.
De transparantie helpt bij het uitleggen van beslissingen aan jezelf of een eventuele investeerder. Maar er zijn beperkingen. Traditionele statistiek gaat uit van lineaire relaties en stabiele verdelingen. In de praktijk zijn markten vaak chaotisch, met plotselinge schokken en structurele breuken.
Een model dat werkt op de S&P 500 van 2018 faalt misschien in 2020 tijdens de coronacrash.
Je moet regelmatig opnieuw testen en je parameters bijstellen, wat tijd kost en fouten kan introduceren.
Wat is machine learning in trading?
Machine learning (ML) pakt data anders aan. In plaats van vooraf te kiezen welke variabelen belangrijk zijn, laat je een algoritme patronen ontdekken.
Je kunt een eenvoudig model bouwen met scikit-learn, of iets complexers met TensorFlow of PyTorch. Voor trading bots betekent dit dat je bijvoorbeeld een random forest of gradient boosting model traint op features zoals volume, volatiliteit en technische indicatoren.
De ML-aanpak is vaak beter in het vangen van niet-lineaire relaties. Een typisch ML-pipeline ziet er zo uit: data ophalen via een broker-API (bijvoorbeeld Interactive Brokers via ib_insync of Alpaca), feature engineering in Python, trainen op een backtest-set, en valideren op out-of-sample data. Wil je machine learning voor trading leren? Je kunt ook reinforcement learning proberen, waarbij een agent leert handelen door beloningen en straffen. Dat klinkt cool, maar het is complexer en vereist zorgvuldige risicomanagement-regels om te voorkomen dat de bot extreme risico’s neemt.
ML kan krachtig zijn, maar heeft valkuilen. Je hebt meer data nodig, vaak 5–10 jaar of meer voor stabiele resultaten. Check of jouw dataset klaar is voor machine learning voordat je begint met trainen.
Modellen kunnen overfitten, vooral als je te veel features gebruikt of te vaak tuned. En je moet je afvragen: begrijp je nog waarom de bot een trade plaatst? Bij een eenvoudig lineair model weet je het, bij een diep neuraal netwerk is dat lastiger. Transparantie is een reëel issue, net als het proces om je getrainde model veilig in productie te brengen.
Vergelijking op concrete criteria
Om eerlijk te vergelijken, kijken we naar vijf criteria die voor traders tellen: kosten, capaciteit, gebruiksgemak, onderhoud op termijn en risicomanagement.
- Prijs: Traditionele statistiek is goedkoop. Je kunt een backtest draaien met open-source bibliotheken (pandas, statsmodels) en een broker zoals Interactive Brokers zonder extra kosten voor ML-infra. Machine learning kan duurder zijn: een krachtige GPU voor training kost €400–€1500, en cloud training op AWS/GCP loopt snel op tot €50–€200 per maand, afhankelijk van gebruik.
- Capaciteit: Statistiek werkt goed met middelgrote datasets (10k–100k observaties). ML schaalt beter naar grote datasets en complexe patronen, zoals orderboekdata of alternatieve data. Voor high-frequency trading op Binance of BitMEX kan ML sneller patronen vinden, maar je hebt flinke rekenkracht nodig.
- Gebruiksgemak: Statistiek is makkelijker te leren. Een lineair regressiemodel bouw je in 30 minuten in Python. ML vereist meer kennis: feature engineering, hyperparameter tuning, cross-validatie. Tools zoals Optuna helpen, maar het voelt vaak als een extra lagen complexiteit.
- Kosten op termijn: Statistische modellen zijn licht en draaien op een standaard laptop. Onderhoud beperkt zich tot periodieke herfitting. ML-modellen vergen meer monitoring, data-opslag en rekenkracht. Op termijn kunnen cloudkosten en energieverbruik van een GPU oplopen, zeker als je 24/7 bots draait.
- Risicomanagement: Bij statistiek bouw je risico’s in met heldere regels: max 2% risico per trade, portfolio diversificatie, stop-loss. Bij ML kun je risico’s ook integreren, bijvoorbeeld via risk-aware loss functions of reinforcement learning met constraints, maar het is lastiger om te controleren. Transparantie blijft een aandachtspunt.
We pakken concrete voorbeelden uit de Python-trading-wereld, met prijzen en tools die je nu kunt gebruiken. Qua prestaties hangt het af van de markt. Voor trendvolgende strategieën op aandelen werkt een eenvoudig statistisch model vaak verrassend goed.
Voor crypto, met sterke niet-lineaire patronen en snelle bewegingen, kan ML een voorsprong geven. Maar geen enkele aanpak is een garantie. Backtests zijn geen toekomstvoorspellingen, en elke bot heeft een drawdown nodig om te leren.
Keuzehulp: welke kies je?
Kies traditionele statistiek als je net begint, een beperkte dataset hebt, en een transparante bot wilt die je snel kunt begrijpen en bijstellen. Dit is slim voor een eerste backtest op een broker zoals DeGiro of IBKR, met Python-scripts die draaien op een standaard laptop.
Je houdt kosten laag en bouwt een stabiele basis voor risicomanagement. Kies machine learning als je meer data hebt, complexe patronen wilt vangen, en bereid bent te investeren in rekenkracht en kennis. Dit is logisch voor crypto of high-frequency strategieën op Binance, waar orderboekdata en alternatieve signalen belangrijk zijn.
Zorg dat je transparantie bewaakt, bijvoorbeeld door interpreteerbare modellen te gebruiken en regelmatig out-of-sample te testen.
Een middenweg is hybrid modellen: combineer een statistisch fundament met ML voor specifieke signals. Gebruik een lineair model voor je basisstrategie en voeg een ML-laag toe voor timing of risicoaanpassing. Of probeer Bayesian statistiek, waarbij je onzekerheid meeneemt in je beslissingen. Tools zoals PyMC3 helpen hierbij, en je houdt de kosten beperkt terwijl je toch meer flexibiliteit krijgt.
Praktische stappen om te starten
Begin met een simpele backtest in Python. Pak historische data via je broker-API, bijvoorbeeld Interactive Brokers of Alpaca, en sla het op in parquet-bestanden voor snelheid.
Bouw een baseline strategie met een statistisch model: een mean-reversion setup op een aandeel, met een stop-loss van 1,5% en een positiegrootte van 1% van je capital.
Test op minimaal 3 jaar data en kijk naar drawdown en winstpercentage. Voeg daarna ML toe. Gebruik een random forest voor feature-importance en tune met Optuna.
Zorg voor risicomanagement: implementeer een Kelly-criterium voor positiebepaling en een maximum dagelijks verlies van 3%. Monitor je bot met een dashboard in Streamlit of Grafana, en log elke trade in een database voor analyse.
Houd kosten in de gaten: een GPU is leuk, maar een cloud-instantie van €50/maand is vaak genoeg voor beginnende modellen. Test altijd op out-of-sample data en gebruik walk-forward validatie voor time-series. Vermijd overfitting door eenvoud te bewaren: hoe minder hyperparameters, hoe robuuster. En onthoud: geen model is perfect.
De markt verandert, en je bot moet meeveranderen. Regelmatig onderhoud is de sleutel tot succes.
Eindgedachte: combineer wat werkt
Traditionele statistiek en machine learning zijn geen vijanden. Ze zijn gereedschappen in dezelfde toolbox.
Voor de meeste traders begint het met een helder statistisch model, en voeg je ML toe waar het echt waarde toevoegt.
Kies wat bij je past, houd kosten laag, en bouw risicomanagement in vanaf dag één. Zo blijf je leren, zonder dat je bot je bankrekening leegtrekt.
