13 años de liderazgo enseñando MBA y Maestrías Online.
Contamos con más de 150.000 alumnos de 35 países.
Ofrecemos Becas del 65% de descuento, Solicítala aquí.

NoticiasData Science¿De qué se trata el MapReduce en la Data Science?

¿De qué se trata el MapReduce en la Data Science?

MapReduce fue un modelo de programación o framework creado por Google. Debido a la necesidad de optimizar los resultados en los motores de búsqueda.

¿De qué se trata el MapReduce en la Data Science? Inicialmente, MapReduce fue un modelo de programación o framework creado por Google. Debido a la necesidad de optimizar los resultados en el popular motor de búsqueda. Para ello, fue necesario idear un mecanismo en el que se procesa el creciente gran volumen de datos que se requería para hacer posible el page Rank. El resultado fue el procesamiento de datos distribuido.

MapReduce fue la respuesta al problema del procesamiento de grandes cantidades de datos algunas décadas atrás. Cuando el enfoque general que existía en cuanto al procesamiento de datos exigía el uso de un único ordenador de mucha más capacidad para realizar la tarea. 

Esto último implicaba costes fuera del alcance de muchas compañías, es por eso que con la invención de paradigmas de programación como MapReduce en el procesamiento de Big Data cambió radicalmente. Lo anterior se debe a que el procesamiento de datos en paralelo y de forma distribuida representa una opción más accesible y mucho más eficiente. 

MapReduce en Data Science

Los usos que actualmente tiene el paradigma MapReduce se derivan de su propósito inicial, ya que al funcionar como un modelo de programación revolucionario en su momento. Cambió la manera en que se concebía el procesamiento de datos masivos. En otras palabras, la forma en que comenzó a utilizarse la computación distribuida. Que plantea el modelo MapReduce influyó enormemente para modificar el concepto actual de Big data.

Por consiguiente, la creación del algoritmo del MapReduce, es decir el procesamiento de datos masivos a partir de un ordenador maestro que distribuye las tareas a otros servidores esclavos, es un hito en el big data. Así pues, MapReduce ha influido directamente en el desarrollo de lo que hoy conocemos como data Science. Gracias a ello el procesamiento de datos en constante crecimiento encontró una solución práctica a un menor coste.

MapReduce es un framework que, lógicamente, también presenta ciertas limitaciones. En respuesta a dichas limitaciones, con el tiempo han sido creadas iniciativas como por ejemplo Apache Hadoop. Al igual que muchas otras que en la actualidad están llevando el procesamiento de Big data a otro nivel. Como software precursor, puede considerarse una de las soluciones más importantes para la ciencia de datos.

¿Cómo funciona MapReduce?

MapReduce es un modelo de programación que debe su nombre a las funciones que este lleva a cabo. Mientras realiza computación paralela distribuida, es decir la función Map y la función Reduce. Tradicionalmente, toda clase de software se ha programado para seguir patrones secuenciales. 

Lo anterior quiere decir que para la resolución de problemas, los algoritmos que se utilizan se escriben como una serie de instrucciones. Bajo este paradigma, surgen limitaciones como que las instrucciones deben ser ejecutadas una a la vez, siguiendo la secuencia específica del algoritmo. Es por eso que MapReduce se consideró como un cambio radical para las tareas de computación, ya que con él se dio paso a la computación distribuida.

Por tanto, obedece a un paradigma “maestro- esclavo”. Esto se refiere a que un ordenador principal o “maestro” distribuye tareas en servidores “esclavos”. De esta forma, MapReduce es un framework que se usa para el procesamiento en paralelo de forma distribuida de grandes volúmenes de datos. 

Está diseñado para la resolución de problemas que pueden tratarse en paralelo, sin embargo, tiene sus limitaciones y por ello no cuenta con capacidad de resolver toda clase de problemas. Al estar diseñado para la resolución de problemas relacionados con sistemas de datos de gran tamaño, MapReduce emplea sistemas de archivos distribuidos HDFS.

Función Map

Por una parte, en la etapa de input la función Map se lleva a cabo mediante la recepción de parámetros por pares del tipo clave/valor. Para luego regresar una nueva lista de pares del mismo tipo. La función está encargada del mapeo, a la vez que tiene influencia en cada unidad de la entrada de datos. Cada llamada a la función Map producirá una lista de pares clave/valor. Lo siguiente será la organización de todos los pares con la misma clave de todas las listas.

No necesariamente todas las claves deben ser únicas y no necesariamente la información de entrada debe coincidir con la información de salida. 

Función Reduce

La función Reduce se lleva a cabo de forma paralela en cada uno de los grupos creados durante la función Map. Esta función se invoca por cada clave única de la salida de la función Map a la vez. A partir de cada clave se acude a una lista de todos los valores relacionados con dicha clave. De manera que pueda realizarse una combinación que genere un conjunto más reducido de los valores.

Algunas limitaciones más sobresalientes de MapReduce

MapReduce se aplica en la resolución básica de problemas en conjuntos de datos masivos ejecutando computación en paralelo. Al ser un framework básico también tiene una serie de limitaciones resultantes, a las cuales las nuevas tecnologías han dado respuesta mediante la aparición de nuevas iniciativas.

Una de las limitaciones más notables tiene que ver con el hecho de que la fase Reduce no puede iniciarse sino hasta el momento en que la fase Map finaliza el procesamiento de datos. Además, el orden del proceso en el cual se lleva a cabo MapReduce no puede controlarse.

MapReduce revolucionó la forma de analizar y procesar los datos. Desde el momento en que se creó ya se observaba la necesidad del procesamiento de datos masivos, pues la proyección de crecimiento era desde ya abrumadora. El data Science se ha configurado basándose en lo que ahora puede hacerse con los datos, y cada vez se requiere más preparación, como la preparación a la que puedes acceder apuntándote en nuestra Maestría en Data Science.  

Máster en Tecnología

Diplomados en Tecnología

Dejar respuesta

Please enter your comment!
Please enter your name here