Big Data: aprendizaje estadístico

Big Data: aprendizaje estadístico

ESTADÍSTICA Y BIG DATA

 

En los últimos años se ha producido una gran burbuja alrededor del Big Data y la Ciencia de Datos. En particular, se habla por doquier de conceptos como el “Machine Learning”, el “Deep Learning” o el “Aprendizaje Estadístico”.

 

Sin embargo, no existe una comprensión clara, incluso entre personas dedicadas al campo de la tecnología, sobre en qué consisten exactamente. Aunque, por otro lado, productos resultantes de estas técnicas están muy presentes en nuestra vida cotidiana: reconocimiento facial, detección de correo basura, reconocimiento del habla o recomendación de música y series.  

 

Seguramente habrás oído hablar de algoritmos de “Redes Neuronales”, “RandomForests” o  “XGBoost” que se usan para crear modelos predictivos. Es posible, incluso, que hayas intentado usar alguno de estos modelos para resolver un problema concreto y en ese caso es probable que hayas obtenido resultados decepcionantes. Y es que una red neuronal profunda puede ser modelo excepcional para el reconocimiento de imágenes y sin embargo no ser el más apropiado para predecir las ventas de la próxima semana en un supermercado. Es muy probable, que un modelo más sencillo como una regresión lineal o una modelización de series temporales sea más eficaz para resolver este problema.

 

En realidad, casi cualquier problema de aprendizaje estadístico puede resumirse en intentar predecir una variable objetivo, asociada a un individuo o a una observación, que llamaremos Y a partir de la observación de p características diferentes X que llamaremos predictores. La variable Y puede ser de tipo cuantitativo y entonces estaremos hablando de un problema de regresión o de tipo cualitativo y estaremos hablando de un problema de clasificación.

 

En todo caso, el objetivo es encontrar una relación matemática, es decir una función f(X), que relacione a los predictores X con la respuesta Y, de forma que las predicciones para nuevas observaciones X, cuando desconocemos la respuesta Y, sean lo más precisas posibles.

 

Las diferentes métodos o algoritmos para encontrar esa relación es lo que conocemos como modelos de aprendizaje estadístico o de machine learning. Y ahí es donde tenemos para elegir desde las clásicas regresiones lineales o logísticas, pasando por los árboles de regresión o de clasificación, a modelos más sofisticados como las redes neuronales profundas o los XGBoost.

 

La precisión del modelo como predictor depende de dos componentes: el error reducible y el error irreducible. El error reducible tiene que ver con la precisión de las predicciones que puede mejorarse implementando los mejores algoritmos para estimar f(X). Pero, aunque fuera posible obtener la mejor estimación posible de f(X), seguirá existiendo un cierto nivel de incertidumbre debido a que siempre existen dependencias de la variable objetivo con otras variables que no estamos considerando en nuestro estudio o simplemente por procesos debidos al puro azar.  Esto es lo que llamamos error irreducible.

 

Entonces, ¿cómo sabemos qué tipo de modelo debo utilizar para un problema concreto? La respuesta, como en casi todo, es depende. No existen recetas mágicas y en general ningún método domina al resto en todos los casos posibles. Y entonces, ¿de qué depende? 

 

Un modelo cuanto más flexible es, es capaz de ajustar con mayor precisión los datos disponibles hasta ahora, en lo que llamamos conjunto de entrenamiento. Pero corremos el riesgo de sobrentrenar el modelo, es decir que aprenda detalles superfluos en el conjunto de entrenamiento y falle al realizar predicciones sobre nuevos conjuntos de datos. Por tanto, la clave está en encontrar el grado de flexibilidad óptimo para el problema que queremos resolver y por tanto elegir el tipo de modelo y su configuración más apropiada para cada caso particular. 

 

Esto es lo que técnicamente se denomina alcanzar un compromiso entre sesgo y varianza de un modelo estadístico y se trata de una ciencia con unos procedimientos bien definidos para su determinación, pero muchas veces se trata más bien de un arte que se adquiere con la práctica y la experiencia.

 

En esta clase en directo, vamos a tratar todos estos aspectos y muchos más que te van a ayudar a tener claro cuáles son los problemas concretos que podemos resolver con modelos de aprendizaje estadístico y los conceptos fundamentales para entender todas las fases del proceso implementación y validación de resultados.

FUNDAMENTOS DEL APRENDIZAJE ESTADÍSTICO

 
 

4 respuestas a Big Data: aprendizaje estadístico

02 de agosto del 2019

Perfecto para todos

RESPONDER
02 de agosto del 2019

Cada vez es más transversal la aplicación del Big Data, por ello para los perfiles Industriales es importante tener nociones de esta disciplina. Las empresas necesitan expertor en Big Data tanto en la oficina (Informático) como en la planta industrial (Técnico), ambos son muy necesarios para una correcta implantación.

RESPONDER
02 de agosto del 2019

Super interesante

RESPONDER
02 de agosto del 2019

Encantada con la formacion

RESPONDER
Nuevo Comentario