Obtener el máximo beneficio en Big Data
Los macrodatos no son suficientes solo para recopilar, deben usarse de alguna manera, por ejemplo, para hacer pronósticos del desarrollo comercial o para probar hipótesis de marketing. Y para utilizar los datos, es necesario estructurarlos y analizarlos. Te diremos qué métodos y tecnologías de big data existen y cómo ayudan a procesar big data.
Crowdsourcing
Qué es. Por lo general, las computadoras están involucradas en el análisis de Big Data, pero a veces también se confía a las personas. Para estos fines, existe el crowdsourcing: atraer a un gran grupo de personas a la solución de cualquier problema.
Cómo funciona. Digamos que tiene muchos datos sin procesar. Por ejemplo, registros de ventas en tiendas, donde los productos a menudo se registran con errores y abreviaturas. Por ejemplo, un taladro Dexter con una batería de 10 mAh se registra como “Dexter Drill 10 mAh”, “Dexter 10 Drill”, “Dexter Acc 10 Drill” y una docena de otras formas. Encuentra un grupo de personas que están dispuestas a buscar dinero manualmente en las tablas y llevar esos nombres a un formulario.
Por qué y dónde se utilizan. El crowdsourcing es bueno si la tarea es única y no tiene sentido desarrollar un complejo sistema de inteligencia artificial para resolverla. Si necesita analizar big data de forma regular, es probable que un sistema basado en Data Mining o aprendizaje automático sea más económico que el crowdsourcing. Además, las máquinas son más capaces de manejar análisis complejos basados en métodos matemáticos, como estadísticas o simulación.
Mezclar e integrar datos
Qué es. Trabajar con big data a menudo implica recopilar datos heterogéneos de diferentes fuentes. Para trabajar con estos datos, debe juntarlos. No puede simplemente cargarlos en una base de datos: diferentes fuentes pueden proporcionar datos en diferentes formatos y con diferentes parámetros. Aquí es donde la mezcla e integración de datos ayudará: el proceso de traer información heterogénea a una sola forma.
Cómo funciona. Para utilizar datos de diferentes fuentes, se utilizan los siguientes métodos:
- Traen los datos a un solo formato: reconocen texto de fotos, convierten documentos, convierten texto en números.
- Complementa los datos. Si hay dos fuentes de datos sobre un objeto, la información de la primera fuente se complementa con los datos de la segunda para obtener una imagen más completa.
- Filtran datos redundantes: si alguna fuente recopila información innecesaria que no está disponible para el análisis, se elimina.
Por qué y dónde se utilizan. Es necesario mezclar e integrar datos si hay varias fuentes de datos diferentes, y necesita analizar estos datos en un complejo.
Por ejemplo, su tienda vende fuera de línea, a través de mercados y simplemente a través de Internet. Para obtener información completa sobre las ventas y la demanda, debe recopilar una gran cantidad de datos: recibos de efectivo, saldos de inventario, pedidos en línea, pedidos a través del mercado, etc. Todos estos datos provienen de diferentes lugares y generalmente tienen un formato diferente. Para trabajar con ellos, es necesario llevarlos a un solo formulario.
Los métodos tradicionales de integración de datos se basan principalmente en Proceso ETL : extracción, transformación y carga. Los datos se obtienen de fuentes, se limpian y se almacenan. Herramientas del ecosistema de Big Data dedicadas deLas bases de datos de Hadoop antes de NoSQL también tienen su propio enfoque para recuperar, transformar y cargar datos.
Después de la integración, los macrodatos se someten a más manipulaciones: análisis, etc.
Aprendizaje automático y redes neuronales
Qué es. Las computadoras convencionales son buenas para calcular, pero son pobres en algunas tareas que son fáciles para los humanos. Por ejemplo, recuerde el ejemplo anterior: es difícil para una máquina entender que “Drill Dexter 10 mAh”, “Drill Dexter 10”, “Drill Dexter acc 10” son el mismo dispositivo.
Para que una máquina piense como un humano, es necesario construir una estructura en ella, similar al cerebro humano. Estas estructuras son redes neuronales. Consisten en muchas neuronas artificiales que, cuando se entrenan, forman conexiones y luego pueden analizar información.
Cómo funciona. Las redes neuronales funcionan de acuerdo con un solo algoritmo: reciben datos en la entrada, los “ejecutan” a través de la red de sus neuronas y producen un resultado en la salida, por ejemplo, asignan los datos de entrada a un determinado grupo.
Para que una red neuronal funcione, primero se debe entrenar, un proceso llamado aprendizaje automático.
Pongamos un ejemplo. Imagina que necesitas enseñar a una red neuronal a distinguir entre hombres y mujeres a partir de una foto. Para ello necesitará:
- Construya una red neuronal: programe neuronas artificiales para percibir los datos de entrada y crear conexiones.
- Envíe una muestra limpia a la red neuronal, una base de datos de personas marcadas inequívocamente como mujeres o hombres. Así la red neuronal entenderá con qué criterio distinguir caras, es decir, aprenderá a hacerlo.
- Pruebe la red neuronal: pásele una nueva muestra limpia, pero no diga qué caras son masculinas y cuáles femeninas. Esto le ayudará a comprender la frecuencia con la que la red neuronal comete errores y si este nivel de errores es aceptable para usted.
Después del entrenamiento y las pruebas, puede utilizar la red neuronal para procesar macrodatos.
Así es como se ve la red neuronal más simple: la información se alimenta a la capa de entrada, se procesa internamente y el resultado se emite a través de la capa de salida.
Por qué y dónde se utilizan. Las redes neuronales se utilizan generalmente si necesita ordenar datos, clasificarlos y tomar algunas decisiones basadas en la información de entrada. Por lo general, las redes neuronales se utilizan para aquellas tareas a las que se enfrenta una persona: reconocer un rostro, clasificar fotografías, identificar una operación bancaria fraudulenta para una serie de señales. En tales tareas, una red neuronal reemplaza a decenas de personas y permite una toma de decisiones más rápida.
Mail.Ru Cloud Solutions tiene un servicio para desarrollar aplicaciones basadas en el aprendizaje automático . Con él, sus desarrolladores pueden crear rápidamente redes neuronales sin el soporte de su propia infraestructura costosa.
Análisis predictivo y big data
Qué es. A menudo es necesario no solo analizar y clasificar datos antiguos, sino también hacer predicciones sobre el futuro basándose en ellos. Por ejemplo, según las ventas de los últimos 10 años, adivina cuáles serán el próximo año.
El análisis predictivo de big data ayuda en tales pronósticos. La palabra “predictivo” se deriva del inglés “predecir” – “predecir, predecir”, por lo que tales análisis a veces se denominan predictivos.
Cómo funciona. La tarea del análisis predictivo es resaltar varios parámetros que afectan los datos. Por ejemplo, queremos saber si un gran cliente seguirá trabajando con la empresa.
Para hacer esto, estudiamos la base de clientes anteriores y vemos qué “parámetros” de los clientes influyeron en su comportamiento. Este puede ser el volumen de compras, la fecha de la última transacción o incluso factores no obvios como la duración de la comunicación con los gerentes. Después de eso, utilizando funciones matemáticas o redes neuronales, construimos un modelo que puede determinar la probabilidad de falla para cada cliente y advertir sobre ello con anticipación.
Por qué y dónde se utilizan. Se necesitan análisis predictivos donde sea que necesite hacer pronósticos. Los comerciantes fueron de los primeros en utilizarlo para predecir las fluctuaciones del tipo de cambio. Ahora, estos análisis se utilizan en varios campos para predecir:
- comportamiento de ventas y marketing de los clientes;
- tiempo de entrega de mercancías en logística;
- fraude bancario y de seguros;
- crecimiento de la empresa y desempeño financiero en cualquier área.
Las plataformas industriales de IoT se están introduciendo en empresas y fábricas: los sensores recopilan conjuntos de datos sobre el funcionamiento de los equipos y luego los sistemas de análisis, incluidos los basados en el aprendizaje automático, los procesan y predicen averías y tiempos de mantenimiento. TalLas plataformas de IoT se pueden implementar en la nube : esto reduce el costo de desarrollar, administrar y operar servicios y soluciones de IoT.
Modelado de simulación
Qué es. A veces surge una situación en la que es necesario ver cómo se comportan algunos indicadores cuando otros cambian. Por ejemplo, cómo cambiarán las ventas si se incrementa el precio. Es inconveniente realizar tales experimentos en el mundo real: es costoso y puede provocar pérdidas graves. Por lo tanto, para no experimentar con negocios reales, puede construir un modelo de simulación.
Cómo funciona. Digamos que queremos ver cómo los diferentes factores influyen en las ventas en la tienda. Para ello, tomamos datos: ventas, precios, número de clientes y todo lo demás relacionado con la tienda. Basándonos en estos datos, construimos un modelo de tienda.
Luego le hacemos cambios: subimos y bajamos los precios, cambiamos el número de vendedores y aumentamos el flujo de visitantes. Todos estos cambios afectan a otros indicadores: podemos elegir las innovaciones más exitosas e implementarlas en la tienda real.
La simulación es un poco como el análisis predictivo. Solo que predecimos el futuro no según datos reales, sino según datos hipotéticos.
Se puede construir un modelo de simulación sin big data. Pero cuantos más datos, más preciso es el modelo, ya que tiene en cuenta más factores.
Por qué y dónde se utilizan. Donde sea que necesite probar algunas hipótesis, pero probarlas en negocios reales será demasiado costoso. Por ejemplo, un cambio de precio a gran escala durante un largo período de tiempo puede derribar una empresa, por lo que es mejor probar un modelo antes de dar este paso.
Es importante recordar que incluso en el modelo a escala, a menudo no se tienen en cuenta todos los factores. Por tanto, el modelado puede dar un resultado incorrecto, es necesario trasladar el modelo a la realidad teniendo en cuenta todos los riesgos.
Análisis estadístico
Qué es. La esencia de las estadísticas es recopilar datos, calcularlos de acuerdo con ciertos criterios y, en la salida, obtener un resultado específico, generalmente como un porcentaje.
Uno de los problemas de las estadísticas son los resultados poco fiables en muestras pequeñas. Por ejemplo, de 20.000 personas, 15.000 están insatisfechas con el servicio, pero la empresa solo encuestó a 100, y la muestra incluyó a 80 clientes leales. Resulta que el 80% de los encuestados están satisfechos con el servicio, que no coincide con la realidad.
Los macrodatos ayudan a que las estadísticas sean más fiables. Cuanta más información recopile, más preciso será el resultado. Si, en lugar de 100 clientes, entrevistamos a 10.000, los resultados de la encuesta ya pueden considerarse fiables.
Cómo funciona. Se utilizan varios métodos para obtener resultados estadísticos precisos. Éstos son algunos de ellos:
- Cálculo de porcentaje simple.
- Calcule promedios de datos, a veces agrupados en grupos.
- Análisis de correlación, que ayuda a identificar relaciones y comprender cómo el cambio de algunos datos afectará a otros.
- Un método de series de tiempo que estima la intensidad y frecuencia de los cambios en los datos a lo largo del tiempo.
Por qué y dónde se utilizan. Donde sea necesario calcular los datos para su análisis. El análisis estadístico se utiliza a menudo como parte de otras tecnologías; por ejemplo, es necesario para la simulación o el análisis predictivo.
Procesamiento de datos
Qué es. Big data es una gran variedad de datos heterogéneos. Para que sean útiles, debe encontrar algunos patrones útiles en ellos: similitudes, diferencias, categorías generales, etc. El proceso de búsqueda de dichos patrones se denomina minería de datos: minería de datos o análisis profundo de datos.
¿Cómo funciona ? Tomamos big data y “extraemos” nuevos datos útiles de ellos utilizando varias tecnologías: varios métodos de clasificación, modelado y pronóstico, basados en la aplicaciónárboles de decisión , redes neuronales, algoritmos genéticos y otras técnicas. Los métodos estadísticos a menudo se denominan métodos de minería de datos.
La minería de datos resuelve varias tareas principales:
- La clasificación es la distribución de datos en clases predefinidas.
- La agrupación es la distribución de datos en grupos según el grado de similitud entre sí. Por ejemplo, recopilar diferentes retratos de clientes en función de su comportamiento en la tienda.
- Asociación: busque patrones de datos duplicados. Por ejemplo, conjuntos idénticos de productos en los recibos de los clientes.
- Análisis de regresión: encontrar factores importantes que afectan cualquier parámetro dado.
- Análisis de desviación: identificación de datos atípicos que son muy diferentes de los habituales.
Por qué y dónde se utilizan . En cualquier lugar, donde necesite extraer algunas tendencias y patrones de big data. La solución para la mayoría de las tareas relacionadas con los datos de la empresa se reduce a una u otra tarea de minería de datos o una combinación de ellas. Por ejemplo, puede evaluar los riesgos mediante el análisis de regresión, segmentar a los clientes mediante la agrupación en clústeres, predecir la demanda mediante la identificación de asociaciones en los datos, etc.
Visualización de datos analíticos
Qué es. Para facilitar la evaluación y el uso de los resultados de la analítica, la visualización de datos se utiliza para trabajar con big data. Es decir, se representan en forma de gráficos, cuadros, histogramas, modelos 3D, mapas y pictogramas.
Cómo funciona. Por lo general, la visualización es la etapa final, la demostración de los resultados del análisis realizado de otras formas. Por ejemplo, construyó un modelo de simulación y muestra el resultado de su trabajo en forma de un gráfico que muestra las fluctuaciones en las ventas según los cambios de precio. O compararon las ventas en diferentes regiones y visualizaron estos datos en un mapa coloreando las regiones en diferentes colores.
Por lo general, las herramientas de análisis también pueden visualizar datos, ya que es difícil mostrar los resultados del trabajo sin visualización. Existen muchas herramientas para la visualización de datos, por ejemplo: Tableau, Qlik, Orange.
Por qué y dónde se utilizan. Donde sea que la gente necesite trabajar con datos. Por ejemplo, si necesita evaluar los resultados del procesamiento o mostrárselos a un gerente o supervisor.
Tecnologías para análisis de big data
- El crowdsourcing es un análisis manual realizado por un gran número de personas.
- Mezcla e integración de datos: trae datos de diferentes fuentes en la misma forma, aclarando y complementando los datos.
- Aprendizaje automático y redes neuronales: creación de programas que pueden analizar y tomar decisiones mediante la construcción de conexiones lógicas.
- Análisis predictivo: predecir el futuro en función de los datos recopilados.
- Modelado de simulación: modelos de construcción basados en big data que ayudan a realizar un experimento en la realidad informática, sin afectar el estado real de las cosas.
- Análisis estadístico: cálculo de datos mediante fórmulas e identificación de tendencias, similitudes y patrones en ellos.
- La minería de datos es una tecnología para extraer nueva información significativa de una gran cantidad de datos.
- La visualización es la presentación de grandes datos y los resultados de su análisis en forma de gráficos y diagramas convenientes que son comprensibles para los humanos.