Google BigQuery se lanzó para disponibilidad general en 2011 y es el almacén de datos empresariales de Google Cloud diseñado para la agilidad empresarial. Su arquitectura Serverless le permite operar a escala y velocidad para proporcionar análisis SQL increíblemente rápidos en grandes conjuntos de datos.
¿Cómo impulsa un almacén de datos las decisiones comerciales?
Un almacén de datos consolida datos de fuentes dispares y realiza análisis de los datos agregados para agregar valor a las operaciones comerciales al proporcionar información. Los almacenes de datos son los custodios de los datos comerciales más importantes de la empresa durante las últimas dos décadas. A medida que las empresas se vuelven cada vez más impulsadas por los datos, los almacenes de datos desempeñan un papel cada vez más crítico en su proceso de transformación digital. Hoy en día, las empresas necesitan:
¿Dónde encaja BigQuery en el ciclo de vida de los datos?
BigQuery es parte de la plataforma integral de análisis de datos de Google Cloud que cubre toda la cadena de valor de análisis, incluida la ingesta, el procesamiento y el almacenamiento de datos, seguidos de análisis y colaboración avanzados. BigQuery está profundamente integrado con las ofertas de análisis y procesamiento de datos de GCP, lo que permite a los clientes configurar un almacén de datos nativo de la nube listo para la empresa.
En cada etapa del ciclo de vida de los datos, GCP proporciona múltiples servicios para administrar los datos. Esto significa que los clientes pueden seleccionar un conjunto de servicios adaptados a sus datos y flujo de trabajo.
Ingerir datos en BigQuery
BigQuery admite varias formas de ingerir datos en su almacenamiento administrado. El método de ingesta específico depende del origen de los datos. Por ejemplo, algunas fuentes de datos en GCP, como Cloud Logging y Google Analytics, admiten exportaciones directas a BigQuery.
El Servicio de transferencia de datos de BigQuery permite la transferencia de datos a BigQuery desde las aplicaciones SaaS de Google (Google Ads, Cloud Storage), Amazon S3 y otros almacenes de datos (Teradata, Redshift).
Los datos de transmisión, como registros o datos de dispositivos IoT, se pueden escribir en BigQuery mediante canalizaciones de Cloud Dataflow , trabajos de Cloud Dataproc o directamente mediante la API de ingesta de transmisión de BigQuery .
Arquitectura de BigQuery
La arquitectura sin servidor de BigQuery desvincula el almacenamiento y la computación y te permite escalar de forma independiente según la demanda. Esta estructura ofrece una inmensa flexibilidad y controles de costos para los clientes porque no necesitan mantener sus costosos recursos informáticos en funcionamiento todo el tiempo.
Debajo del capó, BigQuery emplea un amplio conjunto de servicios multiusuario impulsados por tecnologías de infraestructura de Google de bajo nivel como Dremel, Colossus, Jupiter y Borg .
Compute es Dremel , un gran clúster de múltiples inquilinos que ejecuta consultas SQL.
El almacenamiento es Colossus , el sistema de almacenamiento global de Google.
La computación y el almacenamiento se comunican entre sí a través de la red petabit deJúpiter .
BigQuery está orquestado a través deBorg , el precursor de Google de Kubernetes .
¿Cómo puedes empezar con BigQuery?
Puede comenzar a usar BigQuery simplemente cargando datos y ejecutando comandos SQL. No es necesario crear, implementar o aprovisionar clústeres; no es necesario dimensionar las máquinas virtuales, el almacenamiento o los recursos de hardware; no es necesario configurar discos, definir la replicación, configurar la compresión y el cifrado, o cualquier otro trabajo de instalación o configuración necesario para construir un almacén de datos tradicional.
En Criptonube te apoyamos en la implementación de BigQuery en Google Cloud para tu negocio.
Para más información da clic AQUÍ
Autor:
Oscar Dieguez – Técnico de Google en Criptonube