Los lagos de datos son una parte importante de un entorno moderno de análisis de datos. En lugar de importar todas sus diferentes fuentes de datos a un almacén de datos, con la compleja tarea de crear canalizaciones de importación para datos relacionales, no relacionales y de otro tipo, e intentar normalizar todos esos datos contra su elección de claves, encapsula todos sus datos en un único entorno de almacenamiento. Además de este grupo de almacenamiento, puede comenzar a usar una nueva generación de herramientas de consulta para explorar y analizar estos datos, trabajando con lo que podrían ser petabytes de datos en tiempo real.

VER: Trucos para el menú de inicio de Windows 10 (Premium de TechRepublic)

El uso de datos de esta manera facilita el trabajo con datos que cambian rápidamente, obtiene información rápidamente y crea entornos de informes que pueden señalar problemas a medida que surgen. Al consolidar los datos en un solo entorno, puede aprovechar los mecanismos comunes de control de acceso, haciendo cumplir la autenticación y autorización basadas en roles, asegurando que la persona adecuada tenga acceso a los datos correctos, sin filtrarlos al mundo exterior.

Índice

Trabaje a escala con Azure Data Lake

Al usar herramientas como Azure Active Directory y Azure Data Lake, puede reducir significativamente el riesgo de una infracción al aprovechar Microsoft Security Graph, identificando rápidamente los patrones de ataque comunes.

Una vez que sus datos estén en una tienda de Auzre Data Lake, puede comenzar a ejecutar las herramientas de análisis que elija, utilizando herramientas como Azure Databricks, HDInsight de código abierto o Synapse Analytics de Azure. Trabajar en la nube tiene sentido aquí, ya que puede aprovechar las instancias de VM de Azure a gran escala para crear modelos en memoria, así como aprovechar el almacenamiento de escalamiento horizontal para crear grupos de almacenamiento elásticos para el contenido de su lago de datos.

Microsoft lanzó recientemente una segunda generación de Data Lake Almacenamiento, basada en Azure Blobs para agregar recuperación ante desastres y almacenamiento en niveles para ayudarlo a administrar y optimizar sus costos de almacenamiento. Azure Data Lake Almacenamiento está diseñado para funcionar con gigabits de rendimiento de datos. Un espacio de nombres jerárquico facilita el trabajo con datos, utilizando directorios para administrar sus datos. Y dado que todavía usa un lago de datos con muchos tipos de datos diferentes, aún no necesita transformaciones ETL costosas y lentas.

Análisis de datos en Azure Synapse

Normalmente, necesita herramientas de análisis separadas para diferentes tipos de datos. Si está creando herramientas para trabajar con su propio lago de datos, a menudo combina aplicaciones de almacenamiento de datos con herramientas de big data, lo que da como resultado canalizaciones de consulta complejas y a menudo enrevesadas que pueden ser difíciles de documentar y administrar. Cualquier cambio en el modelo de datos subyacente puede ser catastrófico, gracias a los frágiles entornos de análisis personalizados.

Azure ahora ofrece un entorno de análisis híbrido alternativo en la forma de Azure Synapse Analytics, que reúne herramientas de big data y consultas relacionales en un solo entorno al combinar SQL con Apache Spark y proporcionar conexiones directas a los servicios de datos de Azure y a Power Platform. Es una combinación que le permite trabajar globalmente mientras admite visualizaciones e informes de usuarios finales, al tiempo que proporciona una plataforma que admite técnicas de aprendizaje automático para agregar el control a cargo del análisis predictivo.

En esencia, Synapse elimina las barreras habituales entre las consultas SQL estándar y las plataformas de big data, utilizando metadatos comunes para trabajar con su propio dialecto SQL y Apache Spark en los mismos conjuntos de datos, ya sea tablas relacionales u otros almacenes, incluidos CSV y JSON. Tiene sus propias herramientas de importación que importarán datos dentro y fuera de los lagos de datos, con un entorno de desarrollo basado en la web para construir y explorar modelos analíticos que van directamente de los datos a las visualizaciones.

Synapse crea un lago de datos como parte de su configuración y, de forma predeterminada, utiliza una instancia basada en BLOB de segunda generación. Esto aloja sus contenedores de datos, en un sistema de archivos virtual jerárquico. Una vez que el lago de datos y el área de trabajo de Synapse asociado estén en su lugar, puede usar Azure Portal para abrir el entorno de desarrollo web de Synapse Studio.

Creación de consultas analíticas en Synapse Studio

Synapse Studio es el corazón de Azure Synapse Analytics, donde los ingenieros de datos pueden crear y probar modelos antes de implementarlos en producción. Los grupos de SQL administran las conexiones a sus datos mediante conexiones dedicadas o sin servidor. Al desarrollar modelos, es mejor utilizar el grupo sin servidor incorporado; una vez que esté listo para comenzar, puede aprovisionar un grupo dedicado de recursos de SQL que se puede ampliar o reducir según sea necesario. Sin embargo, es importante recordar que usted está pagando por estos recursos, incluso si no se utilizan. También puede configurar grupos sin servidor para Apache Spark, lo que ayuda a mantener al mínimo los costos de las consultas híbridas. Hay una sobrecarga cuando se lanzan instancias sin servidor, pero para informar como un proceso por lotes, esto no debería ser un problema.

Azure Synapse es rápido: crear una tabla de dos millones de filas solo lleva unos segundos. Puede trabajar rápidamente con datos tabulares utilizando consultas SQL familiares, usando la interfaz de usuario de Studio para mostrar los resultados como gráficos cuando sea necesario. Estos mismos datos se pueden cargar desde su almacén de SQL en Spark, sin escribir ningún código ETL para la conversión de datos. Todo lo que tiene que hacer es crear un nuevo cuaderno Spark, luego crear la base de datos e importarla desde su grupo de SQL. Los datos de Spark se pueden devolver al grupo de SQL; lo que le permite usar Spark para manipular conjuntos de datos para su posterior análisis. Puede usar consultas SQL directamente en conjuntos de datos de Spark, lo que simplifica lo que de otro modo serían tareas de programación complejas al unificar los resultados de diferentes plataformas.

VER: Lista de verificación: Protección de sistemas Windows 10 (Premium de TechRepublic)

Una característica útil de Azure Data Lakes con almacenamiento Gen 2 es la capacidad de vincularse a otras cuentas de almacenamiento, lo que le permite trabajar rápidamente con otras fuentes de datos sin tener que importarlas a su almacén de almacenamiento. Con Azure Synapse Studio, sus consultas se almacenan en cuadernos. Estos cuadernos se pueden agregar a las canalizaciones para automatizar el análisis. Puede configurar activadores para ejecutar análisis a intervalos establecidos, impulsando paneles e informes basados ​​en Power BI.

Hay mucho que explorar con Synapse Studio y, para aprovecharlo al máximo, necesita mucha experiencia en ingeniería de datos. Esta no es una herramienta para principiantes o usuarios finales: debe tener experiencia tanto en técnicas de almacenamiento de datos basadas en SQL como en herramientas como Apache Spark. Sin embargo, es la combinación de estas herramientas y la capacidad de publicar los resultados en herramientas analíticas de escritorio como Power BI lo que lo hace más útil.

El costo de analizar el lago de datos a escala siempre hará que sea imposible que esté disponible para todos. Pero el uso de un solo entorno para crear y compartir análisis debería contribuir en gran medida a desbloquear la utilidad de los datos empresariales.