El servicio de base de datos SQL en Azure y el producto SQL Server se basaron originalmente en un código diferente. Hace unos años, Microsoft unificó la base de código para que las aplicaciones fueran compatibles entre sí. Lo que el equipo de SQL se dio cuenta fue que, en lugar de simplemente querer mover sus aplicaciones de base de datos a la nube, los clientes querían que fuera más fácil administrar la complejidad de tener varias bases de datos.

VER: 10 problemas y soluciones comunes de SQL Server (PDF gratuito)

“Lo que vimos fue que, incluso en la era de la nube, había tanto interés en SQL Server que existía la oportunidad de expandir la propuesta de valor de lo que es SQL Server”, dijo el director ejecutivo de Azure Data y AI John 'JG' Chirapurath. República Tecnológica. Esto condujo a la tecnología Polybase en SQL Server 2016 ("Polybase le permite hablar en T-SQL, el lingua franca SQL Server y consultar un montón de fuentes de datos diferentes") y SQL Server 2017 para Linux, que Chirapurath llama "uno de los mejores lanzamientos que hemos tenido de SQL Server y posiblemente el lanzamiento más exitoso que hemos tenido". 18 meses, se ha descargado más de 20 millones de veces, y parte de eso se debe a la facilidad de implementación del soporte de contenedores.

Índice
  • Simplifique Kubernetes para Big Data
  • cruzar los arroyos
  • Simplifique Kubernetes para Big Data

    Los clientes querían SQL Server en Kubernetes, dice Chirapurath, pero también querían que fuera más fácil.

    "La mayoría de las empresas han adoptado los contenedores como una forma de administrar esencialmente aplicaciones y sistemas políglotas dentro de los centros de datos, y cada vez más los conectan a Kubernetes como un marco de orquestación", dice Chirapurath.

    "Una de las razones por las que Kubernetes se vuelve complicado es que hay muchas extensiones que la gente agrega, por lo que pasó de un marco de trabajo de propósito general a una idea de 'talla única'. Son muchas cosas diferentes". agrega Chirapurath.

    Para SQL Server 2019, los administradores de clústeres tienen un portal de administración y una interfaz de línea de comandos que pueden usar para realizar toda la administración.

    Lo que los clientes comenzaron a solicitar fue el mismo tipo de ayuda con sus lagos de datos de datos no estructurados que SQL Server les brindaba entre las bases de datos locales y en la nube. “Ayúdenos con nuestro lago de datos y todos los datos no estructurados que hemos recopilado. Ayúdenos a navegar toda esta complejidad con los datos que vemos en las instalaciones y en la nube. Danos una forma muy consistente, donde podamos usar nuestras herramientas familiares, nuestras habilidades familiares, con cosas en las que ya hemos apostado. Y las apuestas involucraron cosas como Spark, HDFS, tal vez Python, R y cosas similares”, dice Chirapurath.

    VER: Paquete de reclutamiento: administrador de base de datos (Premium de TechRepublic)

    Una vez que SQL Server 2017 se estaba ejecutando en contenedores, Microsoft podía extender Polybase para que no solo pudiera consultar fuentes de datos como MongoDB y Oracle con SQL Server 2019, sino también colocar un grupo de almacenamiento HDFS en un servidor de clúster SQL (que se ejecuta en un clúster de contenedores de Linux) y ejecute SQL Server y Spark en este grupo de almacenamiento.

    “Básicamente, tomamos el motor Spark de código abierto y lo integramos estrechamente con el procesador de consultas SQL, el motor de SQL Server”, explica Chirapurath. “Ahora, básicamente, puede incorporar consultas Spark en declaraciones de sintaxis SQL de SQL Server, y puede consultar lagos de datos directamente. SQL es completamente relacional, mientras que sus lagos de datos están completamente desestructurados; pueden ser de cualquier tipo de datos. Ahora puede crear una capa de virtualización de datos y administrar todo tipo de datos en su empresa, ya sea que se puedan almacenar o no en SQL Server.

    Cela facilite l'interrogation de HDFS, mais simplifie également la configuration car au lieu de créer et de gérer un stockage HDFS séparé, vous pouvez déployer un groupe de disponibilité SQL Server dans Kubernetes avec une seule commande et obtenir un cluster en une demi-heure alrededor de. También evita los problemas de seguridad habituales asociados con la integración de entornos relacionales y big data: los clústeres de big data de SQL Server tienen una capa de seguridad integrada que cubre SQL Server, Spark y HDFS. Los servicios de aprendizaje automático de SQL Server se ejecutan en la instancia maestra, y las notaciones y predicciones de aprendizaje automático, R, Python y Java se ejecutan de forma nativa en el clúster maestro. Si lo desea, existen incluso herramientas de terceros para acelerar Spark en SQL Server con FPGA.

    Ejecutar Spark significa que puede ejecutar Spark ML y usar la compatibilidad con R y Python agregada a SQL Server 2017, para que pueda crear sistemas de aprendizaje automático que funcionen con datos estructurados y no estructurados. "Puede crear una canalización de aprendizaje automático donde puede extraer datos no estructurados a través de la integración de Spark, puede extraer datos relacionales a través del procesador de consultas SQL y puede usar R y Python para crear aprendizaje automático directamente en SQL Server", dice Chirapurath.

    "Lo que veo en el mercado actual desde la perspectiva de la IA es que las personas se acercan al arte, la ciencia y el oficio del aprendizaje automático de dos maneras", dice Chirapurath. “Una forma es a través del ecosistema de big data, porque recopilan los datos en el mundo de Hadoop y comienzan a usar Spark para razonar sobre esos datos, y luego comienzan a usar cosas como Spark ML. Esencialmente, están haciendo un aprendizaje automático muy complicado y complejo sobre los datos a los que tienen acceso. Por otro lado, veo muchos desarrolladores que usan lenguajes como R y Python, incluso cosas como Scala, y está muy centrado en el desarrollador. Lo que SQL Server 2019 puede hacer es unir estas dos perspectivas.

    Los ingenieros de datos, los científicos de datos, los administradores de bases de datos y los desarrolladores de SQL Server pueden usar Azure Data Studio para administrar bases de datos, escribir consultas y trabajar con ambos conjuntos de herramientas.

    cruzar los arroyos

    El beneficio de tener R y Python en el motor de SQL Server es que puede realizar aprendizaje automático donde residen los datos, con una latencia mucho menor que si los datos estuvieran almacenados en otro lugar. Obtiene el mismo beneficio con SQL Server 2019, en ambos sentidos. La capa de virtualización de datos evita tener que mover petabytes de datos fuera de un lago de datos, lo cual es un inconveniente. "Del mismo modo, los clientes son reacios a sacar los datos de SQL Server para realizar un proceso completo de ingeniería de datos de limpieza para realizar una tarea de IA o una tarea de ML. Lo que eso le permite hacer es simplemente trabajar con los datos en SQL Server y combinándolo en el conjunto de resultados para los datos que consulta utilizando Spark desde su lago de datos”, dice Chirapurath.

    Anteriormente, si quería trabajar con datos estructurados y no estructurados juntos, miraba una cantidad significativa de ETL: si quería combinar datos de SQL Server y Spark en Azure Data Warehouse, usaría Azure Data Factory para ingerir y transformar los datos. . .

    Analytics ha presentado a las empresas lo que Chirapurath llama una "elección falsa" entre datos estructurados/relacionales y no estructurados/no relacionales, tratándolos a ambos como silos para administrar y usar datos por razones puramente históricas.

    “Los sistemas de bases de datos relacionales nacieron en un momento en que el almacenamiento era costoso. Gracias a las innovaciones tecnológicas, [the cost of] el almacenamiento es casi cero”, señala Chirapurath. Cuando apareció por primera vez la PC de IBM, un disco duro de 20 MB costaba entre 3000 y 4000 dólares. "Ahora, la mitad de lo que recibo en mi bandeja de entrada ocupa unos 20 MB", dice.

    La caída del costo del almacenamiento y la dificultad de saber cuál de sus petabytes de datos vale la pena conservar significa que el problema no es guardar los datos, sino hacerlos útiles. “Lo que la gente ha hecho con las bases de datos relacionales es que han creado formas muy organizadas de almacenar datos; eran extremadamente inflexibles sobre lo que se guardaba y lo que se tiraba. El "disco de oro" [everything in every system of record in an organization], era sagrado, porque el almacenamiento era increíblemente caro. Lo que sucedió durante la última década fue que no había razón para tirar nada, así que almacenaron todo. Estamos en un mundo que lo salva todo”, dice Chirapurath.

    SQL Server 2019 llegará pronto, y Chirapurath insinuó que habrá más anuncios de herramientas de base de datos de Microsoft que se ajusten a estas tendencias del mercado en Ignite, incluida la apuesta por el código abierto. "Lo que ve con los clústeres de Big Data SQL Server, con un motor de análisis de código abierto, que es Spark, viene junto con un motor de análisis relacional, que es SQL Server, el sistema que puede consultar datos relacionales y no relacionales, es un indicación de cómo creemos que debemos trabajar con los clientes para derribar estas barreras artificiales.

    Más información sobre Microsoft

    • Cómo instalar y administrar complementos en Microsoft Outlook (TechRepublic)
    • ¿Problemas con el menú de inicio de Windows 10? Microsoft está investigando si el último parche interrumpe la búsqueda (TechRepublic)
    • Power BI y Azure como el futuro de la analítica empresarial (TechRepublic)
    • Power BI Premium de Microsoft ofrece características de nivel empresarial y descuentos en paquetes (ZDNet)
    • La adquisición de Datazen podría llevar Microsoft Power BI a iOS y Android (TechRepublic)
    • Cree un banco que pueda sorprender y deleitar con Power BI (Biblioteca de recursos de TechRepublic)
    • Cree visualizaciones y análisis de datos con Google Fusion Tables (TechRepublic)
    • Microsoft Office 365: la guía de la persona inteligente (TechRepublic)