Imagen: GettyImages/PhonlamaiPhoto

Vivimos en un mundo de grandes datos, con bases de datos del tamaño de un terabyte y almacenes de datos con miles de millones de filas de registros. Es un mundo con muchas posibilidades de análisis y, al mismo tiempo, un nuevo conjunto de problemas. La escala tiene sus ventajas innegables, pero dificulta el movimiento de datos a través de nuestros centros de datos y nubes, especialmente cuando queremos compartirlos con otros equipos de la empresa.

VER: Política de eliminación de datos electrónicos (Premium de TechRepublic)

Tradicionalmente, simplemente copiábamos los datos y los pasábamos a los desarrolladores y analistas de negocios según fuera necesario. En cambio, lo que se necesita es una forma de compartir datos de origen de forma rápida y segura, al tiempo que permite a los usuarios realizar cambios y tener acceso total a los datos.

Índice

¿Por qué usar Azure Data Share?

Azure Data Share es la plataforma de intercambio de datos administrados de Microsoft, que funciona con Azure Almacenamiento para proporcionar instantáneas de datos o usar el uso compartido en el lugar para brindarle lo mejor de ambos mundos. Junto con las herramientas de administración de datos, hay una capa de control que le permite ver quién tiene acceso y controlar cómo y cuándo reciben actualizaciones.

Configurar un entorno de intercambio de datos es difícil; necesita encontrar formas eficientes de particionar los datos y proporcionar capacidades de descarga. Esto significa tener una infraestructura y un ancho de banda dedicados, especialmente si tiene muchos socios o si comercializa los datos que tiene y los vende a los clientes.

Estos requisitos son una barrera importante para construir una economía de datos efectiva, que requiere una inversión significativa de ambos lados de una asociación para trabajar con datos compartidos. Trabajar en Azure con Azure Data Share significa que tiene un entorno de datos escalable que se adapta a la demanda, mientras que los sistemas sin servidor alojados en la nube pueden manejar el proceso de extracción, compresión y entrega de datos por usted. No hay necesidad de crear o mantener software o infraestructura, todo se administra automáticamente para usted.

Azure Data Share ofrece diferentes modelos de uso compartido para diferentes tipos de almacenamiento de datos en Azure. La mayoría requiere compartir instantáneas de sus datos, actualizándolas a medida que se publican nuevas instantáneas. Esto significa que cualquiera que consuma sus datos necesitará conectividad y almacenamiento, aunque las cosas son considerablemente más fáciles si ambos están en la misma región de Azure. Algunas opciones, como Azure Data Lake, ofrecen compatibilidad con instantáneas incrementales y envían cambios en lugar de tablas o bases de datos completas.

Cómo comenzar con Azure Data Share

Trabajar con Azure Data Share es bastante simple; todo lo que necesita es almacenamiento en Azure y una cuenta de Azure con los permisos adecuados para su cuenta de almacenamiento. Hay diferentes formas de trabajar con diferentes fuentes, así que asegúrese de estar familiarizado con las técnicas necesarias para compartir. Deberá comenzar dando acceso a Azure a su fuente de datos, utilizando las herramientas de firewall de Azure.

VER: Plataforma Snowflake Data Warehouse: Hoja de referencia (PDF gratuito) (República Tecnológica)

Con los requisitos previos apropiados en su lugar, está listo para comenzar a compartir datos. Seleccione los datos que desea compartir y configure un cronograma de publicación. Los usuarios reciben una invitación por correo electrónico y, una vez aceptados, reciben su primera instantánea de datos en su cuenta de Azure Almacenamiento. No es necesario compartir todos sus datos, puede seleccionar un conjunto de registros para compartir, brindando acceso a una porción de almacenamiento.

Cuando los datos se actualizan regularmente, puede establecer un cronograma de instantáneas para nuevas versiones o para actualizaciones incrementales. Esto puede ser por hora o por día, y los usuarios pueden suscribirse a los lanzamientos cuando sea necesario. Un aspecto importante del proceso de uso compartido es que los usuarios pueden elegir dónde se entregan los datos, por lo que si comparte, por ejemplo, valores clave de un Azure Blob, el usuario puede elegir que se entreguen directamente a un Azure Data Lake. listo para el análisis. .

VER: ¿Qué tan precisos deben ser sus análisis? Depende de su caso de uso (República Tecnológica)

Si usa Azure Data Explorer, puede configurar el uso compartido local como alternativa a las instantáneas. Esto proporciona un enlace directo a su tienda, para que los usuarios puedan leer y consultar los datos directamente mientras los tratan como si estuvieran en su propia suscripción. Cualquier cambio que realice estará disponible al instante. No todos necesitarán este nivel de acceso, aunque es extremadamente útil para los equipos de desarrollo internos que necesitan acceso a datos en vivo para probar aplicaciones.

Aunque la mayoría de las herramientas de Azure Data Share están disponibles a través de Azure Portal, también hay REST API, lo que le permite crear software en torno a sus datos compartidos. Las API le permiten agregar un portal de intercambio de datos a un sitio o ayudarlo a crear y administrar un consorcio donde diferentes organizaciones aportan datos y el agregado resultante se comparte con todos los miembros del consorcio.

¿Qué tan seguro es Azure Data Share y cuánto cuesta?

En el corazón de Azure Data Share se encuentran las herramientas de seguridad de Azure, específicamente la compatibilidad con Azure Active Directory para identidades administradas. Esto permite el acceso controlado a las tiendas, sin que ninguna de las partes de la conexión tenga acceso a las credenciales de la otra. Hay tres tipos de usuarios, propietarios, colaboradores y lectores. Los propietarios y colaboradores pueden administrar su uso compartido directamente, mientras que los lectores solo pueden ver los datos compartidos. Siempre controlas los datos que compartes con herramientas para administrar y monitorear Lectores. Es importante tener en cuenta que los datos nunca se conservan en el servicio Azure Data Share, es solo una forma de conectar dos cuentas de almacenamiento de Azure. Se conservan algunos metadatos sobre los datos ofrecidos, pero eso es todo.

VER: Por qué la narración de datos empresariales es más importante que nunca (República Tecnológica)

Este nivel de control es quizás el aspecto más importante de la plataforma Azure Data Share. Esto significa que, como proveedor, puede controlar quién tiene acceso y con qué frecuencia puede obtener actualizaciones de datos compartidos. Los usuarios obtienen cierto control, administran las invitaciones a los datos compartidos y eligen cómo usan esos datos.

El precio es razonable, 5 centavos para mover una instantánea del origen al destino y 50 centavos por hora de núcleo virtual para crear las instantáneas (se cobra por minuto y se redondea). Esto se compara bien con los costos asociados con la construcción y operación de su propia infraestructura, y podría hacer que compartir datos híbridos sea una opción si tiene una conexión directa o una conexión VPN de alta velocidad entre los datos de su centro y Azure. Los datos se pueden transferir entre regiones de Azure: una fuente en el oeste de los Estados Unidos se puede usar en el este de Asia, con todas las transferencias dentro de la propia red de Azure.

Si es un consumidor de datos, el uso de Azure Data Share le brinda más datos para usar en sus aplicaciones. Los conjuntos de datos se pueden combinar con sus propios datos, o se pueden usar con sus propios algoritmos de análisis, o como parte de sus propios datos de entrenamiento de aprendizaje automático. Realmente no hay límite para lo que puede hacer con él, ya sea una instantánea o un intercambio en el lugar, son datos.