(01.11.2019, 17:52)Lancelot schrieb: 1) wie bestimmst du "bestmöglich". Aus der Perspektive: zum Zeitpunkt heute (jetzt) wäre es gut gewesen, wenn ich die Aktie damals (Wann? Zu welchem Zeitpunkt?) gekauft hätte? Was ist dann mit all den Aktien die mal eine Erfolgsgeschichte gewesen sind, es jetzt aber nicht mehr sind? Aus der Sicht 2007 wäre es eine tolle Idee gewesen 1995 British Petroil(BP) Aktien zu kaufen. Aus Sicht 2019 nicht so wirklich. Sowas meine ich z.B. mit zeitlicher Komponente.
2) graveyard!!!! Damit das sample nicht einen survivor ship bias hast brauchst du auch alle Aktien, die inzwischen Bankrott sind. Du brauchst auch einen Weg Merger und Aquisitions zu behandeln. Um deinem Algo wirkliches diskriminieren beizubringen brauchst du auch Verlierer.
3) Dein Test Set muss wirklich zufällig sein. Auch bezüglich der zeitlichen Komponente (wie lange gibt es die Aktie schon). . Und es muss sicher sein, das du keinen forward looking bias über die verwendeten features (variablen zur Auswahl) einbaust.
4) Ein simpler train/test split sagt nicht immer das aus was man denkt. Ein Cross Validation (auf jeden Fall machen!!) auf dem train set kann zwarhelfen eine Überoptimierung zu vermeiden und dich für das Verhalten des Modells auf dem Test Set (out of sample) vorzubereiten. Aber das reicht IMO noch nicht. Ich rate dringend sich mit Bayesianischen Ansätzen auseinanderzusetzen und das Lernverfahren auf die Robustheit zu prüfen (wenn du train/test neu splittest, verhält sich das Modell noch immer so?). Ich bin bisher mit einer Mischung aus Randomisierung von Test und Train, Monte Carlo Simulationen und Bayesian Zeugs gut zurecht gekommen.
5) Bist du sicher, dass die Auswahlkriterien (features) stationär sind, sich also über die Zeit nicht verändern?
Danke Lancelot. Einige der genannten Stichpunkte habe ich sogar berücksichtigt...
Ein survivorship bias vermeide ich durch Einbeziehung delisteter Aktien. Bei Fusionen ändert sich oft das Symbol der Aktie, dann ist sie nicht mehr handelbar und wird im Backtest zum letzten gültigen Kurs verkauft.
Der forward looking bias ist ein großes Problem. Bei Wirtschaftsdaten oder Fundamentaldaten, die nur monats- oder quartalsweise veröffentlicht werden, ist manchmal unklar, welches Datum verwendet werden soll oder ob die Daten nach der Erstveröffentlichung noch revidiert wurden.
Bei den verwendeten Regressionsverfahren verwende ich zwar eine Kreuzvalidierung, mir fehlen aber tiefere Kenntnisse zu den eingesetzten Methoden. Ich werde mich mal zu den von Dir genannten Tests informieren, werde es aber vermutlich nicht verstehen.