El Problema de la Inducción en Backtesting: Por Qué el Pasado Miente
⏱️ Tiempo de lectura: 14 minutos
Resumen Ejecutivo
El backtesting es la herramienta fundamental del inversor cuantitativo, pero esconde una trampa filosófica profunda: el problema de la inducción de David Hume. Este dilema epistemológico cuestiona nuestra capacidad de predecir el futuro basándonos en observaciones pasadas, un supuesto que está en el corazón de todo análisis histórico de estrategias de inversión.
Los sesgos estadísticos y metodológicos del backtesting son más graves de lo que la mayoría de inversores reconoce. Data snooping, overfitting, survivorship bias y el problema de múltiples comparaciones pueden transformar estrategias inútiles en aparentes máquinas de hacer dinero. Una práctica común en evaluación de backtests es descontar los ratios de Sharpe reportados en un 50% como medida de prudencia.
El verdadero problema no es técnico, sino conceptual: asumimos que los mercados son sistemas estables cuyas "leyes" nunca cambian, cuando la realidad es que la estructura del mercado evoluciona constantemente. Las estrategias fallan cuando los regímenes de mercado cambian, y el backtesting tradicional no puede anticipar estas transiciones.
La solución no es abandonar el backtesting, sino complementarlo con metodologías robustas: out-of-sample testing, walk-forward analysis, simulaciones Monte Carlo y una comprensión profunda de sus limitaciones fundamentales.
Índice
- El Problema Filosófico: Hume y la Inducción
- Los Siete Pecados Capitales del Backtesting
- Data Snooping y P-Hacking: La Epidemia Silenciosa
- Survivorship Bias: Los Muertos No Hablan
- El Problema de Múltiples Comparaciones
- Cambios de Régimen: Cuando las Reglas Cambian
- Metodologías Robustas: Out-of-Sample y Walk-Forward
- Monte Carlo y Bootstrap: Probando la Robustez
- Microestructura de Mercado: El Contexto que Cambia
- Implementación Práctica de Backtesting Robusto
El Problema Filosófico: Hume y la Inducción
La Raíz del Problema
David Hume identificó en 1748 un problema fundamental con el razonamiento inductivo: no existe justificación lógica para asumir que el futuro se parecerá al pasado. Este problema, conocido como el problema de la inducción, cuestiona toda la base epistemológica del backtesting financiero.
El argumento de Hume es devastadoramente simple:
- Todas las predicciones sobre el futuro se basan en la uniformidad de la naturaleza
- Esta uniformidad no puede demostrarse lógicamente
- Cualquier intento de justificarla es circular (usa la inducción para justificar la inducción)
- Por tanto, no tenemos base racional para las predicciones inductivas
Aplicación a los Mercados Financieros
En el contexto financiero, el problema de la inducción se manifiesta cuando:
- Asumimos que las correlaciones históricas persistirán
- Proyectamos volatilidades pasadas hacia el futuro
- Extrapolamos rendimientos de estrategias basados en datos históricos
- Confiamos en que los regímenes de mercado se mantendrán estables
Como observa un trader en Reddit: "Cuando nuestros modelos usan performance pasada como indicador de performance futura, pueden ocurrir cosas malas. Mientras más datos tenemos, más confianza desarrollamos en nuestras predicciones, pero esta confianza puede ser completamente injustificada."
La Paradoja de la Confirmación
Cada día que una estrategia funciona parece "confirmar" su validez, pero esto es ilusorio. El famoso ejemplo del pavo inductivista ilustra el problema: cada día que el granjero lo alimenta, el pavo tiene más "evidencia" de que será alimentado mañana. Hasta el día del Día de Acción de Gracias.
En los mercados financieros, esta paradoja se manifiesta cuando:
- Estrategias momentum funcionan durante años hasta que el mercado cambia de régimen
- Arbitrajes aparentemente "sin riesgo" colapsan (LTCM 1998)
- Correlaciones históricas se rompen durante crisis (2008, 2020)
Los Siete Pecados Capitales del Backtesting
1. Survivorship Bias
El sesgo de supervivencia distorsiona los resultados al excluir activos que han sido retirados del mercado, ya sea por bancarrota, fusiones o bajo rendimiento. Esto infla artificialmente los retornos esperados al considerar solo las "historias de éxito".
Impacto cuantitativo: Los estudios muestran que el survivorship bias puede inflar los retornos anualizados entre 1-3% dependiendo del período y universo de activos.
Ejemplos concretos:
- Estrategias de small caps que ignoran empresas quebradas
- Análisis sectoriales que excluyen industrias extintas
- Estudios de momentum que no consideran acciones deslistadas
2. Overfitting y Optimización Excesiva
El overfitting ocurre cuando una estrategia se ajusta excesivamente a los datos históricos, capturando ruido en lugar de señales genuinas. El modelo memoriza el pasado pero no puede generalizar al futuro.
Síntomas de overfitting:
- Demasiados parámetros relativos a observaciones
- Performance excelente in-sample pero pobre out-of-sample
- Curvas de equity extremadamente suaves en backtesting
- Estrategias que funcionan solo en períodos específicos
3. Data Snooping y Mining
Data snooping es la práctica de probar múltiples estrategias hasta encontrar una que funcione en los datos históricos. Con suficientes intentos, encontrarás patrones que parecen significativos pero son puramente aleatorios.
El problema se agrava porque:
- Cada test aumenta la probabilidad de encontrar falsos positivos
- Los resultados "exitosos" se publican mientras los fallos se ignoran
- La industria financiera incentiva la presentación de backtests atractivos
4. Look-Ahead Bias
Usar información que no estaba disponible en el momento de la decisión de inversión. Es sorprendentemente común y puede hacer que estrategias inútiles parezcan brillantes.
Formas sutiles de look-ahead bias:
- Usar datos revisados en lugar de datos en tiempo real
- Incorporar earnings que se reportaron después del cierre
- Usar precios de cierre para decisiones "intraday"
5. Backfill Bias
Cuando se añaden datos históricos a un índice o base de datos después de que los activos han sido seleccionados, típicamente porque han tenido buen performance. Esto crea un sesgo hacia estrategias que parecen haber funcionado mejor de lo que realmente lo hicieron.
6. Time Period Bias
Los resultados del backtesting pueden ser extremadamente sensibles al período seleccionado. Una estrategia puede parecer brillante en bull markets pero desastrosa en bear markets.
Problemas comunes:
- Cherry-picking períodos favorables
- No probar en diferentes ciclos de mercado
- Períodos muy cortos que no capturan variabilidad
7. Psychological Biases
Confirmation bias lleva a los analistas a buscar evidencia que confirme sus creencias pre-existentes mientras ignoran evidencia contradictoria. Esto sesga tanto el diseño como la interpretación de backtests.
Data Snooping y P-Hacking: La Epidemia Silenciosa
Anatomía del P-Hacking
P-hacking es la práctica de realizar múltiples análisis estadísticos hasta obtener resultados "significativos" (típicamente p-valores < 0.05). En finanzas, esto se traduce en probar innumerables variaciones de estrategias hasta encontrar una que "funcione".
Técnicas comunes de p-hacking en finanzas:
- Probar múltiples períodos de lookback
- Variar umbrales de señales hasta encontrar resultados significativos
- Cambiar frecuencias de rebalanceo para optimizar resultados
- Seleccionar universos de activos favorable
El Estudio de Alpha Architect
Un estudio revelador de Alpha Architect analizó 2 millones de estrategias fundamentales cuantitativas. Los resultados fueron alarmantes: la vasta mayoría de estrategias que parecían exitosas en backtesting fallaron out-of-sample.
Key findings:
- Solo 1-2% de estrategias mantenían significancia estadística out-of-sample
- Las estrategias más "exitosas" in-sample eran las más propensas a fallar
- El data snooping explicaba la mayoría de la aparente alpha
Medidas Correctivas
Para combatir el p-hacking:
- Bonferroni correction: Ajustar el nivel de significancia por el número de tests
- False Discovery Rate (FDR): Controlar la proporción de falsos positivos
- Hold-out samples: Reservar datos para validación final
- Preregistration: Definir hipótesis antes de ver los datos
Survivorship Bias: Los Muertos No Hablan
La Magnitud del Problema
El survivorship bias puede ser masivo en ciertos contextos. En estudios de mutual funds, por ejemplo, puede representar 1-3% de diferencia anual en retornos reportados, ya que los fondos con bajo rendimiento tienden a cerrarse.
En mercados de acciones:
- Aproximadamente 3-5% de empresas se delistan anualmente
- Las empresas que sobreviven tienden a tener mejor performance
- Estrategias de value pueden estar especialmente sesgadas
Tipos de Survivorship Bias
Survivorship bias directo: Excluir empresas que han quebrado o sido deslistadas
Survivorship bias indirecto: Usar índices que cambian su composición eliminando poor performers
Reverse survivorship bias: Incluir solo empresas que existían al final del período, excluyendo nuevas empresas exitosas
Mitigación
Para evitar survivorship bias:
- Usar bases de datos que incluyan empresas deslistadas
- Considerar fechas de listing y delisting en el análisis
- Ser transparente sobre el universo de selección
- Analizar sensibilidad a diferentes definiciones del universo
El Problema de Múltiples Comparaciones
La Estadística Detrás del Problema
Cuando realizas múltiples tests estadísticos, la probabilidad de encontrar al menos un falso positivo se dispara. Si realizas 20 tests independientes con α = 0.05, la probabilidad de al menos un falso positivo es aproximadamente 64%.
Fórmula: P(al menos un falso positivo) = 1 - (1-α)^n
Donde n = número de tests y α = nivel de significancia individual.
En el Contexto del Trading Cuantitativo
Un trader típico puede estar probando:
- 50 diferentes indicadores técnicos
- 20 períodos de lookback diferentes
- 10 umbrales de señal diferentes
- 5 métodos de gestión de riesgo
Total: 50 × 20 × 10 × 5 = 50,000 combinaciones posibles
Con 50,000 tests, virtualmente garantizas encontrar estrategias que parezcan estadísticamente significativas por pura casualidad.
El Efecto Tournament
En el mundo real, el problema se agrava porque:
- Solo las estrategias "exitosas" se publican o implementan
- Hay incentivos para encontrar patrones significativos
- El sesgo de publicación favorece resultados positivos
Soluciones
Correcciones estadísticas:
- Bonferroni: Divide α por el número de tests
- Benjamini-Hochberg: Controla el False Discovery Rate
- Holm-Bonferroni: Menos conservativo que Bonferroni simple
Enfoques metodológicos:
- Hierarchical testing: Estructura los tests en niveles de importancia
- Cross-validation: Usa diferentes subconjuntos de datos para validación
- Bayesian approaches: Incorpora prior beliefs sobre la probabilidad de éxito
Cambios de Régimen: Cuando las Reglas Cambian
La Naturaleza Evolutiva de los Mercados
Los mercados financieros no son sistemas físicos con leyes inmutables. Son sistemas sociales complejos que evolucionan constantemente debido a:
- Cambios en regulación y estructura de mercado
- Innovación tecnológica
- Evolución en el comportamiento de los participantes
- Shifts in monetary and fiscal policy
Ejemplos Históricos de Cambios de Régimen
Decimalización (2001): El cambio de fracciones a decimales redujo los spreads y cambió la microestructura del mercado, invalidando muchas estrategias de market making.
Rise of Algorithmic Trading: La proliferación del trading algorítmico ha cambiado fundamentalmente:
- Velocidad de ejecución
- Patrones de correlación intradía
- Efectividad de estrategias de momentum a corto plazo
- Dynamics de market impact
Quantitative Easing Era (2008-2022): Las políticas monetarias no convencionales crearon regímenes de mercado sin precedentes históricos.
COVID-19 (2020): Cambio abrupto en correlaciones, volatilidad y efectividad de estrategias tradicionales.
Detección de Cambios de Régimen
Métodos estadísticos:
- Markov Switching Models: Detectan cambios probabilísticos entre regímenes
- Structural Break Tests: Identifican puntos de cambio específicos
- Rolling Window Analysis: Monitorea estabilidad de parámetros
Indicadores prácticos:
- Cambios abruptos en correlaciones
- Shifts in volatility patterns
- Deterioro súbito de estrategias previamente exitosas
- Cambios en market microstructure metrics
Metodologías Robustas: Out-of-Sample y Walk-Forward
Out-of-Sample Testing
El out-of-sample testing divide los datos en dos períodos: uno para desarrollo de la estrategia (in-sample) y otro para validación (out-of-sample). Es la línea de defensa más importante contra el overfitting.
Best practices para out-of-sample:
- Ratio temporal: 70% in-sample, 30% out-of-sample como regla general
- No contamination: Nunca usar información del período out-of-sample durante el desarrollo
- Temporal ordering: El período out-of-sample debe ser posterior cronológicamente
- Múltiples tests: Usar diferentes divisiones temporales
Walk-Forward Analysis
Walk-forward analysis es una técnica más sofisticada que simula el trading en tiempo real. Optimiza parámetros usando datos históricos, opera por un período, luego re-optimiza con datos actualizados.
Proceso de walk-forward:
- Usar primeros N meses para optimización
- Operar siguiente mes con parámetros optimizados
- Añadir el mes transcurrido al dataset
- Re-optimizar y repetir
Ventajas:
- Simula el process real de gestión de estrategias
- Detecta degradación de performance a lo largo del tiempo
- Evalúa estabilidad de parámetros óptimos
Métricas clave:
- Efficiency ratio: Performance out-of-sample / performance in-sample
- Parameter stability: Variabilidad de parámetros óptimos a lo largo del tiempo
Anchored vs. Rolling Window
Anchored walk-forward: Mantiene fecha de inicio fija, expandiendo la ventana de datos
Rolling walk-forward: Mantiene ventana de tamaño fijo, "rodando" hacia adelante
Cuándo usar cada uno:
- Anchored: Cuando hay cambios estructurales y datos recientes son más relevantes
- Rolling: Cuando el mercado es relativamente estable pero hay drift temporal
Monte Carlo y Bootstrap: Probando la Robustez
Simulaciones Monte Carlo
Las simulaciones Monte Carlo permiten evaluar la robustez estadística de una estrategia mediante la generación de múltiples escenarios alternativos. En lugar de asumir que el futuro será idéntico al pasado, explora un rango de posibles futuros.
Tipos de simulaciones Monte Carlo en backtesting:
Block Bootstrap: Preserva la estructura de correlación temporal mientras remuestra bloques de retornos
Parametric Bootstrap: Ajusta un modelo estadístico a los retornos y genera simulaciones basadas en ese modelo
Residual Bootstrap: Separa tendencias de ruido y remuestra los residuos
Ejemplo Práctico
Consideremos una estrategia de momentum con Sharpe ratio de 1.5 en backtesting:
- Resample los retornos usando block bootstrap
- Ejecutar la estrategia en 1,000 series simuladas
- Calcular la distribución de Sharpe ratios resultantes
- Evaluar qué porcentaje de simulaciones mantiene Sharpe > 1.0
Interpretación: Si solo 30% de simulaciones mantienen Sharpe > 1.0, la estrategia puede ser menos robusta de lo que parece.
Bootstrap de Trades
Alternative approach: bootstrap individual trades en lugar de series temporales:
- Extraer todos los trades de la estrategia
- Resample trades con reemplazo
- Reconstruir curva de equity alternativa
- Repetir 1,000+ veces para generar distribución de métricas
Ventajas:
- Preserva características de trades individuales
- No requiere assumptions sobre distribución de retornos
- Captura fat tails y asimetría real de P&L
Interpretación de Resultados
Métricas de robustez:
- Percentile ranking: ¿En qué percentil está el performance observado?
- Probability of outperformance: ¿Qué probabilidad hay de superar buy-and-hold?
- Worst-case scenarios: ¿Cuál es el downside en los peores escenarios?
Microestructura de Mercado: El Contexto que Cambia
Evolución Tecnológica
Los cambios en la microestructura del mercado pueden invalidar estrategias de manera súbita e impredecible:
High-Frequency Trading: El trading de alta frecuencia ha cambiado:
- Efficiency: Los mercados se han vuelto más eficientes a microsegundos
- Momentum: Estrategias de momentum de corto plazo son menos efectivas
- Mean reversion: Aumentó la velocidad de mean reversion en escalas de tiempo muy cortas
Market Fragmentation: La proliferación de múltiples exchanges ha creado:
- Complex routing: Algoritmos de execution más sofisticados
- Hidden liquidity: Pools privados que afectan price discovery
- Latency arbitrage: Nuevas formas de arbitraje basadas en velocidad
Cambios Regulatorios
Los cambios regulatorios pueden transformar la dinámica del mercado:
MiFID II (2018): En Europa, incrementó transparencia pero también fragmentó liquidez
Volcker Rule: Limitó proprietary trading de bancos, cambiando provision de liquidez
Circuit Breakers: Modificaron patrones de volatilidad durante eventos extremos
Implicaciones para Backtesting
Problemas conceptuales:
- Los datos históricos reflejan microestructuras obsoletas
- Transaction costs históricos pueden no ser representativos
- Capacity constraints cambian con la estructura del mercado
Enfoques de mitigación:
- Stress testing: Simular diferentes regímenes de costos y liquidez
- Regime-aware backtesting: Segmentar análisis por períodos estructurales
- Forward-looking assumptions: Incorporar trends en microestructura
Implementación Práctica de Backtesting Robusto
Framework de Validación en Múltiples Capas
Layer 1: Basic Statistical Validation
- Significancia estadística ajustada por múltiples comparaciones
- Test de normalidad de retornos
- Análisis de auto-correlación en retornos y residuos
Layer 2: Out-of-Sample Validation
- Múltiples períodos out-of-sample
- Walk-forward analysis con diferentes ventanas
- Cross-validation temporal
Layer 3: Robustness Testing
- Monte Carlo simulations
- Sensitivity analysis de parámetros
- Stress testing bajo diferentes regímenes
Layer 4: Implementation Reality Check
- Transaction costs realistas
- Market impact modeling
- Capacity constraints analysis
Métricas Avanzadas de Evaluación
Más allá del Sharpe Ratio:
Calmar Ratio: Retorno anualizado / Maximum Drawdown
- Penaliza más severamente drawdowns grandes
- Más relevante para inversores con aversión a pérdidas
Sortino Ratio: Similar a Sharpe pero considera solo downside volatility
- Más apropiado cuando upside volatility no es "riesgo"
Burke Ratio: Incorpora tanto magnitud como duración de drawdowns
Tail Risk Metrics:
- Value at Risk (VaR): Pérdida máxima esperada en percentil específico
- Conditional VaR: Pérdida promedio cuando se excede VaR
- Maximum Drawdown Duration: Tiempo para recovery completo
Herramientas de Diagnóstico
Equity Curve Analysis:
- Smoothness: Curvas demasiado suaves sugieren overfitting
- Consistency: Periods of underperformance vs. drawdowns
- Regime dependence: Performance en diferentes market conditions
Returns Distribution Analysis:
- Skewness: Asimetría en distribución de retornos
- Kurtosis: Fat tails que indican tail risk
- Jarque-Bera test: Test formal de normalidad
Temporal Stability:
- Rolling Sharpe ratios: Estabilidad de performance a lo largo del tiempo
- Correlation breakdown: Períodos donde strategy correlation cambia
- Parameter sensitivity: Robustez a cambios en parámetros
Red Flags en Backtesting
Warning signs que sugieren problemas metodológicos:
Performance demasiado bueno:
- Sharpe ratios > 3 sin justificación económica clara
- Win rates > 80% consistentemente
- Maximum drawdowns < 5% en períodos largos
Patterns sospechosos:
- Performance que mejora monotónicamente con más parámetros
- Estrategias que funcionan solo en períodos específicos
- Sensitivity extrema a pequeños cambios paramétricos
Red flags estadísticos:
- P-values exactamente 0.05 después de "optimization"
- Performance concentrado en pocas observaciones
- Autocorrelación significativa en residuos
Checklist de Backtesting Robusto
Pre-Analysis:
- ¿Está clara la hipótesis económica detrás de la estrategia?
- ¿Son realistas los assumptions sobre costos y slippage?
- ¿Incluye el dataset empresas deslistadas?
- ¿Está libre de look-ahead bias?
During Analysis:
- ¿Se están probando múltiples variaciones? ¿Cómo se ajusta la significancia?
- ¿Es el período out-of-sample suficientemente largo?
- ¿Se está optimizando demasiados parámetros?
- ¿Es estable la performance across diferentes subperíodos?
Post-Analysis:
- ¿Son razonables los assumptions de capacity?
- ¿Cómo se compara con benchmarks apropiados?
- ¿Se ha probado robustez con Monte Carlo?
- ¿Existe justificación económica para la persistencia esperada?
Preguntas Frecuentes
1. ¿Cuántos datos necesito para un backtesting válido? Depende de la frecuencia de trading y el número de parámetros. Como regla general, necesitas al menos 30-50 observaciones independientes por parámetro optimizado. Para estrategias diarias, esto significa varios años de datos.
2. ¿Qué porcentaje de datos debo reservar para out-of-sample testing? La regla común es 70-80% in-sample y 20-30% out-of-sample, pero esto depende del total de datos disponibles. Nunca menos de 1 año out-of-sample para estrategias diarias.
3. ¿Cómo sé si mi estrategia está overfitted? Signals incluyen: performance in-sample mucho mejor que out-of-sample, muchos parámetros optimizados, sensitivity extrema a pequeños cambios, y curvas de equity "demasiado suaves".
4. ¿Es suficiente el walk-forward analysis para validar una estrategia? Es mejor que backtesting simple, pero no es suficiente por sí solo. Debe combinarse con out-of-sample testing, Monte Carlo simulations, y análisis de robustez.
5. ¿Cómo manejo el survivorship bias si no tengo datos de empresas deslistadas? Reconoce la limitación, sé conservador en estimaciones, enfócate en large caps donde el bias es menor, y considera servicios de datos que incluyan empresas deslistadas.
6. ¿Qué nivel de significancia estadística debo usar? Con múltiples tests, usa correcciones como Bonferroni. En lugar de α=0.05, considera α=0.01 o 0.001 dependiendo del número de estrategias probadas.
7. ¿Cómo incorporo transaction costs realistas? Usa models de market impact, considera bid-ask spreads variables, incluye commissions, y modela partial fills. Sé conservador y error hacia costos más altos.
8. ¿Cuántas simulaciones Monte Carlo son necesarias? Típicamente 1,000-10,000 simulaciones proporcionan estimaciones estables. Más simulaciones no necesariamente mejoran insights si el modelo subyacente es incorrecto.
9. ¿Cómo detecto cambios de régimen en tiempo real? Usa rolling window statistics, monitorea cambios en correlaciones, implementa structural break tests, y está atento a cambios en market microstructure.
10. ¿Qué hago si mi estrategia falla out-of-sample? No optimices basándote en el período out-of-sample. Considera si el failure se debe a overfitting, cambio de régimen, o assumptions incorrectos. Puede ser señal de que la estrategia no es robusta.
11. ¿Es mejor backtesting largo o múltiples períodos cortos? Idealmente ambos. Períodos largos capturan diferentes ciclos de mercado, mientras que múltiples períodos cortos evalúan consistency a través del tiempo.
12. ¿Cómo valido estrategias en mercados con pocos datos históricos? Usa cross-sectional validation, aplica estrategias a mercados similares, considera synthetic data generation, y sé especialmente escéptico de los resultados.
13. ¿Qué papel juega la intuición económica en backtesting? Es crucial. Estrategias sin fundamento económico sólido son más propensas a ser artifacts estadísticos. La intuición económica ayuda a distinguir señales reales de ruido.
14. ¿Cómo evito confirmation bias en mi análisis? Establece criterios de éxito antes del análisis, prueba activamente hipótesis contrarias, busca evidencia que contradiga tus expectativas, y considera peer review.
15. ¿Cuándo debo abandonar una estrategia en live trading? Establece criterios objetivos antes de implementar: máximo drawdown aceptable, número de períodos de underperformance consecutivos, o cambios estructurales en el mercado objetivo.
Conclusión
El problema de la inducción no tiene solución definitiva, pero reconocerlo es el primer paso hacia un backtesting más robusto. No podemos eliminar la incertidumbre sobre si el futuro se parecerá al pasado, pero podemos construir frameworks metodológicos que sean más resistentes a esta incertidumbre fundamental.
El backtesting no es inútil—es una herramienta poderosa cuando se usa correctamente. Su valor radica no en proporcionar predicciones precisas del futuro, sino en ayudarnos a entender el comportamiento pasado de las estrategias y sus vulnerabilidades potenciales.
La clave está en la humildad intelectual: reconocer que el backtesting es una aproximación imperfecta a la realidad, no una máquina del tiempo. Los mejores cuantitatives combinan rigor metodológico con escepticismo sano y una comprensión profunda de las limitaciones de sus herramientas.
En última instancia, el objetivo no es eliminar todos los sesgos—es imposible—sino estar consciente de ellos y construir procesos de validación que sean robustos ante sus efectos. El mercado puede cambiar las reglas del juego, pero los principios de prudencia metodológica son atemporales.
Glosario
Anchored Walk-Forward: Análisis walk-forward que mantiene la fecha de inicio fija mientras expande la ventana de datos hacia adelante.
Backfill Bias: Sesgo que ocurre cuando se añaden datos históricos después de que un activo ha sido seleccionado por su performance.
Block Bootstrap: Técnica de remuestreo que preserva la estructura de correlación temporal mediante el remuestreo de bloques de observaciones consecutivas.
Bonferroni Correction: Ajuste estadístico que divide el nivel de significancia por el número total de tests realizados.
Data Snooping: Práctica de probar múltiples estrategias o parámetros hasta encontrar resultados aparentemente significativos.
False Discovery Rate (FDR): Proporción esperada de falsos positivos entre todos los tests declarados significativos.
Look-Ahead Bias: Error metodológico que involucra el uso de información que no estaba disponible en el momento histórico de la decisión de inversión.
Monte Carlo Simulation: Técnica computacional que usa muestreo aleatorio repetido para modelar la probabilidad de diferentes resultados.
Overfitting: Fenómeno donde un modelo se ajusta excesivamente a los datos históricos, capturando ruido en lugar de patrones genuinos.
P-Hacking: Manipulación de análisis estadísticos hasta obtener p-valores estadísticamente significativos, típicamente mediante múltiples tests o modificaciones de datos.
Regime Change: Cambio estructural en las características fundamentales del mercado que puede invalidar estrategias basadas en datos históricos.
Rolling Walk-Forward: Análisis walk-forward que mantiene una ventana de datos de tamaño fijo que se mueve hacia adelante en el tiempo.
Survivorship Bias: Sesgo que resulta de analizar solo entidades que "sobrevivieron" hasta el final del período de estudio, excluyendo las que fallaron.
Walk-Forward Analysis: Metodología que simula el trading en tiempo real mediante optimización periódica de parámetros usando datos disponibles hasta ese momento.