Traditionnellement, un entrepôt de données collecte toutes les données structurées de votre entreprise afin que vous puissiez les intégrer dans un modèle de données unique, exécuter des analyses et obtenir des renseignements commerciaux, que ce soit pour développer de nouveaux produits ou commercialiser des services existants auprès clientes. Solía ​​​​llamarse "big data", pero todas las empresas ahora tienen grandes cantidades de datos de fuentes como sitios de comercio electrónico, dispositivos y sensores de IoT, por lo que un almacén de datos moderno debe administrar datos estructurados, no estructurados y de transmisión y ofrecer real- análisis de tiempo, así como BI e informes.

Julia White, vicepresidenta corporativa de Azure en Microsoft.
Imagen: Microsoft

Las empresas están haciendo esto cada vez más en la nube para obtener una mayor velocidad y un menor costo. Es posible que cada vez más de estos datos ya estén en la nube, junto con los servicios con los que desea utilizar estos datos, señala Julia White, vicepresidenta de Azure. “Cada vez más, a medida que los datos se almacenan y migran a la nube, ya sean aplicaciones SaaS o aplicaciones que simplemente se trasladan a la nube; los datos operativos están ahí y los clientes preguntan "¿por qué debo tomar mis datos operativos y descargarlos de la nube a las instalaciones solo para hacer mis análisis?" Simplemente no tiene sentido. (Todavía hay una gran cantidad de datos en las instalaciones y habrá más a medida que crezca la computación perimetral, pero muchos clientes mueven parte o la totalidad de esos datos a la nube de todos modos, dice White, según los problemas de cumplimiento).

VER: Microsoft Power BI: Comience con la visualización de datos (PDF gratuito) (TechRepublic)

Todas las empresas están mirando a la IA, "y se dan cuenta muy rápidamente de que el análisis es la base", señala White. "Empiezan a preguntar '¿cuál es el estado de mi almacén de análisis y datos?', y eso a menudo no es suficiente".

La popularidad de Power BI también está empujando a más clientes de Microsoft hacia el análisis en la nube. "Cuando tienen estas poderosas visualizaciones de datos, comienzan a cuestionar sus habilidades analíticas: "Quiero saber qué sucede detrás de mi visualización de datos: me encanta Power BI y me gustaría que mis análisis fueran más interesantes", dice White.

Los clientes más sofisticados buscan analizar sus propios datos de Office Graph (que puede copiar a Azure Data Lake usando Azure Data Factory) o aprovechar la Iniciativa de datos abiertos (ODI) entre Microsoft, Adobe y SAP (que se basa en Azure Data Lake y eventualmente integrará datos de muchos otros proveedores de software). "Azure Data Lake está estrechamente relacionado con Azure Data Warehouse, y los clientes usan Azure Data Warehouse para obtener más información y crear un almacén de datos moderno encima", dijo White.

Índice

¿Qué servicio de datos?

Microsoft ofrece una gama de servicios en la nube que se parecen un poco a un almacén de datos, el más obvio es Azure SQL Data Warehouse o 'DW', como suele llamarlo Microsoft), pero también hay Azure Data Factory, Azure Data Lake, Azure Databricks , Power BI y Azure Machine Learning, además de otros servicios empaquetados como herramientas de ventas de IA en Dynamics 365.

La forma de entenderlos es observar no solo las herramientas que ofrecen, sino también los usuarios a los que sirven y cómo trabajan juntos. Esto se debe a que los datos que tiene una empresa a menudo están fragmentados en múltiples almacenes de datos y el primer paso para crear un almacén de datos moderno es integrar todos estos silos. Cuantos más almacenes de datos diferentes haya en Azure, más fáciles serán las conexiones; esta es una de las razones por las que Microsoft ofrece tantos servicios de datos diferentes. La otra, dice White, es que los clientes no están buscando una sola herramienta que pueda hacerlo todo: "Hay un conjunto de opciones matizadas, y realmente vas a elegir y optimizar lo que usas para tus propios escenarios".

Azure DW es para ingenieros de datos que trabajan con datos seleccionados. Podrían ser datos de una base de datos de SQL Server, pero también podrían ser datos de una canalización creada por esos ingenieros de datos que usan Databricks o Spark y .NET para preparar datos de una fuente como Azure HDInsight.

Azure Data Factory es otro servicio para ingenieros de datos que realizan la incorporación, transformación y orquestación de datos. Piense en ello como una herramienta ETL a escala de la nube que puede usar a través de una interfaz de arrastrar y soltar (debajo de las cubiertas, en realidad es Logic Apps) o con Python, Java o .NET SDK si prefiere escribir código para hacer transformación de datos y administre las diferentes etapas de la canalización de datos a través de Databricks o HDInsight, en Azure Data Lake o en Power BI.

Power BI también puede realizar la transformación de datos mediante flujos de datos (también sin código), pero está destinado a ser una característica de autoservicio para los analistas de negocios. Los ingenieros de datos de tiempo completo o los analistas de BI pueden crear los modelos semánticos con los que trabajan estos usuarios comerciales, y Microsoft está agregando más integración con Azure DW a Power BI.

Los usuarios de Power BI pueden agregar IA a sus visualizaciones e informes. Algunos de ellos pueden usar los servicios cognitivos preconstruidos de Microsoft para cosas como el reconocimiento de imágenes y el análisis de sentimientos. Pero también pueden usar modelos de IA personalizados que los ingenieros de datos han creado para ellos en el servicio Azure Machine Learning, usando todos esos datos corporativos.

Un almacén cerca del lago.

La complejidad de estos escenarios es la razón por la cual la línea entre los almacenes de datos y los lagos de datos comienza a verse un poco borrosa en la nube. Un entrepôt de données traditionnel vous permet de prendre des données provenant de plusieurs sources et d'utiliser la transformation ETL pour placer ces données dans un seul schéma et un seul modèle de données dans un logiciel conçu pour répondre aux questions que vous prévoyez de poser encore y todavia.

Estas fuentes no tienen que ser datos estructurados y relacionales: la compatibilidad con PolyBase y JSON en SQL Server y Azure DW significa que puede conectar datos de almacenes no relacionales como HDFS, Cosmos DB, MySQL y MongoDB, así como Oracle, Teradata y PostgreSQL. Esto significa que un almacén de datos (o incluso un servidor SQL) puede parecerse más a un lago de datos.

Los lagos de datos le permiten tomar múltiples almacenes de datos, tanto estructurados como no estructurados, ingerirlos y almacenarlos en su formato nativo o algo parecido a ese formato, de modo que tenga múltiples modelos de datos y múltiples esquemas de datos y la capacidad de hacer nuevas preguntas a partir de los mismos datos. (La variante de SQL que se usa para las consultas de Azure Data Lake se llama U-SQL, no solo porque es la próxima versión después de T-SQL, sino también porque es posible que necesite un submarino para descender a su lago de datos y descubrir qué se esconde allí. (las turbias profundidades.)

VER: Microsoft Power BI: el análisis de datos se generaliza (Tech Pro Research)

Cuando tenga una pregunta que va a hacer repetidamente (como analizar ventas o monitorear tiempos de entrega para un tablero), puede crear un almacén de datos a partir de las partes de datos relevantes. Pero si la pregunta cambia con el tiempo o necesita hacer nuevas preguntas, puede volver al lago de datos donde guarda los datos originales y crear otro almacén de datos para responder esas preguntas.

La combinación de los dos es lo que Microsoft quiere decir con una infraestructura de almacenamiento de datos moderna. Puede tomar todo tipo de datos de diferentes lugares, usarlos en el lago de datos para cosas como análisis en tiempo real o usar el aprendizaje automático para descubrir patrones que le indiquen qué información puede obtener de los datos y combinarlos con datos familiares. herramientas de almacén para responder eficazmente a estas preguntas.

Sin embargo, Microsoft no tiene un solo servicio. Puede hacer diferentes partes con los diferentes servicios de Azure, lo que significa que puede elegir qué partes necesita. Pero también significa que necesitará experiencia en datos para crear su propio sistema específico.

Más información sobre Power BI y Microsoft

  • Power BI y Azure como el futuro de la analítica empresarial (TechRepublic)
  • Power BI Premium de Microsoft ofrece características de nivel empresarial y descuentos en paquetes (ZDNet)
  • La adquisición de Datazen podría llevar Microsoft Power BI a iOS y Android (TechRepublic)
  • Cree un banco que pueda sorprender y deleitar con Power BI (Biblioteca de recursos de TechRepublic)
  • Cree visualizaciones y análisis de datos con Google Fusion Tables (TechRepublic)
  • Microsoft Office 365: la guía de la persona inteligente (TechRepublic)