Aprendizaje automático

 

Aprendizaje automático

Tres cosas que es necesario saber

El aprendizaje automático es una técnica de análisis de datos que enseña a los ordenadores a hacer lo que resulta natural para las personas y los animales: aprender de la experiencia. Los algoritmos de aprendizaje automático emplean métodos de cálculo para “aprender” información directamente de los datos sin depender de una ecuación predeterminada como modelo. Los algoritmos mejoran su rendimiento de forma adaptativa a medida que aumenta el número de muestras disponibles para el aprendizaje.

Por qué es importante el aprendizaje automático

Con el aumento de la cantidad de big data, el aprendizaje automático se ha convertido en una técnica clave para resolver problemas en áreas tales como:

Primeros pasos con el aprendizaje automático. Se familiarizará con el aprendizaje automático, desde los conceptos básicos a los algoritmos avanzados. Descargue el libro electrónico para obtener más información.

Más datos, más preguntas, mejores respuestas

Los algoritmos de aprendizaje automático encuentran patrones naturales en los datos que generan conocimiento y contribuyen a tomar mejores decisiones y a realizar mejores predicciones. Se utilizan a diario para tomar decisiones cruciales en diagnósticos médicos, trading de acciones, previsión de la carga energética, etc. Por ejemplo, los sitios multimedia confían en el aprendizaje automático para cribar millones de opciones con objeto de ofrecerle recomendaciones sobre canciones o películas. Los minoristas lo utilizan para obtener información sobre el comportamiento de compra de sus clientes.

¿Cuándo se debe usar el aprendizaje automático?

Considere el uso del aprendizaje automático cuando tenga una tarea o un problema complejos que impliquen una gran cantidad de datos y muchas variables, pero no disponga de ninguna fórmula o ecuación. Por ejemplo, el aprendizaje automático es una buena opción si necesita gestionar situaciones como las siguientes.

Las reglas y ecuaciones escritas a mano son demasiado complejas, como en el reconocimiento facial y de voz.

Las reglas de una tarea cambian constantemente, como en el caso de la detección de fraudes en los registros de transacciones.

La naturaleza de los datos cambia sin cesar y el programa debe adaptarse, como en el trading automático, la predicción de la demanda energética y la previsión de las tendencias de compra.

Cómo funciona el aprendizaje automático

El aprendizaje automático emplea dos tipos de técnicas: el aprendizaje supervisado, que entrena un modelo con datos de entrada y salida conocidos para que pueda predecir salidas futuras, y el aprendizaje no supervisado, que encuentra patrones ocultos o estructuras intrínsecas en los datos de entrada.

Figura 1: Entre las técnicas de aprendizaje automático se incluyen el aprendizaje supervisado y el aprendizaje no supervisado.

Aprendizaje supervisado

El aprendizaje automático supervisado crea un modelo que realiza predicciones en función de las pruebas en presencia de una incertidumbre. Un algoritmo de aprendizaje supervisado toma un conjunto conocido de datos de entrada y respuestas conocidas para estos datos (salidas) y entrena un modelo con objeto de generar predicciones razonables como respuesta a datos nuevos. Utilice el aprendizaje supervisado si tiene datos conocidos para la salida que está intentando predecir.

El aprendizaje supervisado emplea técnicas de clasificación y regresión para desarrollar modelos predictivos.

Las técnicas de clasificación predicen respuestas discretas; por ejemplo, si un correo electrónico es legítimo o es spam, o bien si un tumor es cancerígeno o benigno. Los modelos de clasificación organizan los datos de entrada en categorías. Las aplicaciones más habituales son las imágenes médicas, el reconocimiento de voz y la calificación crediticia.

Utilice la clasificación si sus datos se pueden etiquetar, categorizar o dividir en grupos o clases concretos. Por ejemplo, las aplicaciones para el reconocimiento de la escritura emplean la clasificación para reconocer letras y números. En el procesamiento de imágenes y la visión artificial, se emplean técnicas de reconocimiento de patrones sin supervisión para la detección de objetos y la segmentación de imágenes.

Algunos algoritmos habituales para realizar la clasificación son: máquina de vectores de soporte (SVM)árboles de decisión boosted y baggedk-vecino más cercanoclasificadores bayesianos (Naïve Bayes)análisis discriminanteregresión logísticaredes neuronales.

Las técnicas de regresión predicen respuestas continuas; por ejemplo, cambios de temperatura o fluctuaciones en la demanda energética. Las aplicaciones más habituales son la predicción de la carga eléctrica y el trading algorítmico.

Utilice técnicas de regresión si trabaja con un intervalo de datos o si la naturaleza de la respuesta es un número real, como la temperatura o el tiempo que tardará una pieza de equipamiento en fallar.

Algunos algoritmos habituales de regresión son: modelo linealmodelo no linealregularizaciónregresión por pasosárboles de decisión boosted y baggedredes neuronalesaprendizaje neurodifuso adaptativo.

Uso del aprendizaje supervisado para predecir ataques al corazón

Supongamos que los médicos quieren predecir si alguien va a tener un ataque al corazón en el plazo de un año. Disponen de datos sobre pacientes anteriores, incluidos la edad, el peso, la altura y la tensión. Saben si los pacientes anteriores tuvieron ataques al corazón en el plazo de un año. Por tanto, el problema es combinar los datos existentes en un modelo que pueda predecir si otra persona tendrá un ataque al corazón en el plazo de un año.

Aprendizaje no supervisado

El aprendizaje no supervisado halla patrones ocultos o estructuras intrínsecas en los datos. Se emplea para inferir información a partir de conjuntos de datos que constan de datos de entrada sin respuestas etiquetadas.

El clustering es la técnica de aprendizaje no supervisado más común. Se emplea para el análisis de datos exploratorio, con objeto de encontrar patrones o agrupaciones ocultos en los datos. Entre las aplicaciones del análisis de clusters están el análisis de secuencias genéticas, la investigación de mercados y el reconocimiento de objetos.

Por ejemplo, si una empresa de telefonía móvil quiere optimizar las ubicaciones donde construir antenas, puede recurrir al aprendizaje automático para calcular el número de clusters de personas que utilizan sus antenas. Un teléfono solo puede comunicarse con una antena en cada ocasión, de modo que el equipo emplea algoritmos de clustering para diseñar la mejor ubicación de antenas a fin de optimizar la recepción de la señal para grupos (o clusters) de clientes.

Algunos algoritmos habituales para realizar el clustering son: k-means y k-medoidsclustering jerárquicomodelos de mezclas gaussianasmodelos de Markov ocultosmapas autoorganizados, clustering difuso de c-meansclustering sustractivo.

Figura 2: El clustering detecta patrones ocultos en sus datos.

¿Cómo se decide qué algoritmo de aprendizaje automático utilizar?

La elección del algoritmo adecuado puede parecer abrumadora; existen docenas de algoritmos de aprendizaje automático supervisados y no supervisados, y cada uno ofrece un enfoque distinto del aprendizaje.

No hay ningún método mejor que otro ni ninguno que se pueda aplicar de forma universal. Para encontrar el algoritmo perfecto se utiliza en parte la técnica de ensayo y error; ni siquiera los científicos de datos con mucha experiencia pueden saber si un algoritmo funcionará sin probarlo. Pero la elección del algoritmo también depende del tamaño y el tipo de los datos con los que se trabaja, la información que se desea obtener de los datos y cómo se empleará dicha información.

Figura 3: Técnicas de aprendizaje automático. 

A continuación se ofrecen algunas directrices para elegir entre el aprendizaje automático supervisado y no supervisado:

  • Elija el aprendizaje supervisado si necesita entrenar un modelo para realizar una predicción; por ejemplo, el valor futuro de una variable continua (como la temperatura o el precio de una acción) o una clasificación (por ejemplo, identificar marcas de coches a partir de vídeo de una webcam).
  • Elija el aprendizaje no supervisado si necesita explorar sus datos y desea entrenar un modelo para localizar una buena representación interna, como la división de datos en clusters.

Aprendizaje automático con MATLAB

¿Cómo se puede emplear la potencia del aprendizaje automático para utilizar los datos con objeto de tomar mejores decisiones? MATLAB hace que el aprendizaje automático resulte sencillo. Con herramientas y funciones para gestionar big data, así como apps para que el aprendizaje automático resulte accesible, MATLAB es un entorno ideal para aplicar el aprendizaje automático a los análisis de datos.

Con MATLAB, los ingenieros y los analistas de datos tienen acceso inmediato a funciones prediseñadas, toolboxes exhaustivas y apps especializadas para la clasificación, la regresión y el clustering.

MATLAB permite hacer lo siguiente:

  • Comparar enfoques tales como la regresión logística, los árboles de clasificación, las máquinas de vectores de soporte, los métodos combinados y el aprendizaje profundo.
  • Utilizar técnicas de reducción y perfeccionamiento de modelos para crear un modelo preciso que capture mejor el poder predictivo de sus datos.
  • Integrar modelos de aprendizaje automático en sistemas, clusters y nubes empresariales, así como dirigir los modelos a hardware embebido en tiempo real.
  • Generar código automáticamente para el análisis de sensores embebidos.
  • Emplear flujos de trabajo integrados desde el análisis de los datos hasta el despliegue.
La app Classification Learner le permite entrenar modelos para clasificar los datos mediante el aprendizaje automático supervisado.

Aplicaciones interesantes del aprendizaje automático

Creación de algoritmos que puedan analizar obras de arte

Los investigadores del Laboratorio de Arte e Inteligencia Artificial de la Universidad de Rutgers querían ver si un algoritmo informático podía clasificar cuadros por estilo, género y artista con la misma facilidad que una persona. Empezaron por identificar las características visuales para clasificar el estilo de un cuadro. Los algoritmos que desarrollaron clasificaron los estilos de los cuadros de la base de datos con un 60% de precisión, lo cual supera a las personas normales no expertas.

Los investigadores propusieron la hipótesis de que las características visuales útiles para la clasificación por estilos (un problema de aprendizaje supervisado) podrían usarse también para determinar las influencias artísticas (un problema no supervisado).

Utilizaron algoritmos de clasificación entrenados con imágenes de Google para identificar objetos concretos. Probaron los algoritmos con más de 1700 cuadros de 66 artistas distintos dentro de un intervalo de 550 años. El algoritmo identificó de inmediato obras conectadas, incluida la influencia del “Retrato del Papa Inocencio X” de Diego Velázquez en el “Estudio del Retrato del Papa Inocencio X de Velázquez” de Francis Bacon.

Optimización del uso de energía de climatización en grandes edificios

Los sistemas de calefacción, ventilación y aire acondicionado (HVAC) de edificios de oficinas, hospitales y otros edificios comerciales de gran tamaño son ineficientes a menudo porque no tienen en cuenta los patrones de clima variables, los costes variables de la energía o las propiedades térmicas de los edificios.

La plataforma de software basada en la nube de BuildingIQ hace frente a este problema. Esta plataforma emplea algoritmos avanzados y métodos de aprendizaje automático para procesar continuamente gigabytes de información procedente de medidores de potencia, termómetros y sensores de presión HVAC, así como el clima y el coste de la energía. En particular, el aprendizaje automático se emplea para segmentar los datos y determinar las contribuciones relativas del gas, la electricidad, el vapor y la energía solar en los procesos de calefacción y refrigeración. La plataforma de BuildingIQ reduce el consumo de energía de climatización en edificios comerciales de gran tamaño en un 10%–25% durante el funcionamiento normal.

Detección de colisiones de tráfico a baja velocidad

Con más de ocho millones de miembros, el RAC es una de las organizaciones automovilísticas más extensas del Reino Unido y proporciona asistencia en carretera, seguros y otros servicios a conductores privados y comerciales.

Con objeto de permitir una respuesta rápida cuando se producen incidentes en carretera, reducir las colisiones y mitigar el coste de los seguros, el RAC desarrolló un sistema a bordo de detección de colisiones que emplea algoritmos de aprendizaje automático avanzados para detectar colisiones a baja velocidad y distinguir estos eventos de otros eventos de conducción más comunes, tales como conducir sobre badenes o baches. Las pruebas independientes mostraron que el sistema del RAC tiene una precisión del 92% en la detección de colisiones de prueba.

Cómo obtener más información sobre el aprendizaje automático

¿Está preparado para profundizar? Explore estos recursos sobre el aprendizaje automático que le ayudarán a ponerse en marcha.

En este webinar aprenderá cómo empezar a utilizar las herramientas de aprendizaje automático para detectar patrones y crear modelos predictivos a partir de los conjuntos de datos.
Averigüe cómo aplicar, evaluar, ajustar y desplegar técnicas de aprendizaje automático con MATLAB.
Primeros pasos con el aprendizaje automático. Se familiarizará con el aprendizaje automático, desde los conceptos básicos a los algoritmos avanzados. Descargue el eBook para obtener más información.