Saltar al contenido principal

¿Qué es la administración de datos?

La administración de datos es el proceso de recopilación, almacenamiento, protección y uso de los datos de una organización. Las organizaciones utilizan sus datos para respaldar los procesos operativos, como el procesamiento de transacciones y las interacciones con los clientes. También tienen que integrar sus datos para fines de inteligencia empresarial, análisis, IA y toma de decisiones en tiempo real. La administración de datos incluye todas las políticas, herramientas y procedimientos que mejoran la usabilidad de los datos dentro de los límites de las leyes y reglamentos.

¿Por qué es importante la administración de datos?

Los datos son un recurso valioso para las organizaciones modernas. Con acceso a grandes volúmenes y diferentes tipos de datos, las organizaciones invierten mucho en la infraestructura de administración y almacenamiento de datos. Las organizaciones utilizan sistemas de administración de datos para automatizar los procesos empresariales operativos y analizar los datos para informar las decisiones empresariales. Estas son algunas otras ventajas específicas de la administración de datos.

Eficacia operativa

Los sistemas de administración de datos ayudan a las organizaciones a procesar grandes volúmenes de transacciones y datos operativos de manera eficiente. Se aseguran de que las transacciones se capturen de forma precisa y coherente, lo que minimiza los errores en los registros financieros, las actualizaciones de inventario, las cuentas de los clientes y otros flujos de trabajo operativos. Más allá del procesamiento de transacciones, estos sistemas pueden automatizar las operaciones comerciales rutinarias y proporcionar un mantenimiento de registros fiable, ofreciendo la coherencia necesaria para las actividades en tiempo real. A través de estas ventajas de eficiencia, los sistemas de administración de datos ayudan a las organizaciones a ofrecer experiencias de cliente fluidas, mantener la confianza y conservar la eficiencia y la escalabilidad de los procesos diarios.

Aumento de los ingresos y las ganancias

El análisis de datos ofrece una visión más profunda de todos los aspectos de una empresa. Puede actuar sobre la base de esta información para optimizar las operaciones empresariales, obtener información que promueva decisiones mejor informadas para aumentar los ingresos y reducir los costos. El análisis de datos también puede predecir el futuro impacto de las decisiones. Esto mejora la toma de decisiones y la planificación empresarial. Por lo tanto, las organizaciones experimentan un crecimiento significativo de sus ingresos y beneficios al mejorar sus técnicas de administración de datos.

Reducción de la incoherencia de los datos

Las incoherencias de datos en el procesamiento de las transacciones pueden provocar errores como registros duplicados, saldos de cuentas incorrectos y discrepancias en el inventario, lo que interrumpe las operaciones, socava la confianza de los clientes y aumenta los costos de reparación. Las incoherencias en el análisis de datos pueden ser el resultado de los silos de datos.

Un silo de datos es una colección de datos sin procesar dentro de una organización a la que solo puede acceder un departamento o grupo. Los silos de datos crean incoherencias que reducen la fiabilidad de los resultados del análisis de datos. Las soluciones de administración de datos integran estos últimos y crean una vista centralizada para mejorar la toma de decisiones y la colaboración entre los departamentos.

Cumplir con las regulaciones

Leyes como el Reglamento General de Protección de Datos (GDPR) y la Ley de Privacidad del Consumidor de California (CCPA) están diseñadas para proteger los datos de los clientes. Estas leyes de protección de datos incluyen mandatos que requieren lo siguiente:

  • Consentimiento para capturar datos
  • Controles estrictos sobre la ubicación y el uso de los datos
  • Almacenamiento y eliminación seguros de datos bajo demanda

Por lo tanto, las organizaciones necesitan un sistema de administración de datos que sea preciso y confidencial para ayudar a proteger los datos y mantener la precisión de los datos.

¿Qué es la arquitectura y el modelado de datos?

La arquitectura y el modelado de datos son fundamentales para una estrategia de administración de datos exitosa.

Arquitectura de datos

La arquitectura de datos es el marco general que describe y rige la recopilación, la administración y el uso de datos de una organización. El plan de administración de datos incluye detalles técnicos, como bases de datos operativas, lagos de datos, almacenamiento de datos y servidores, que son los más adecuados para implementar la estrategia de administración de datos.

Modelado de datos

El modelado de datos es el proceso de creación de modelos de datos conceptuales y lógicos que visualizan los flujos de trabajo y las relaciones entre los diferentes tipos de datos. El modelado de datos suele comenzar representando los datos conceptualmente y, después, representándolos de nuevo en el contexto de las tecnologías elegidas. Los profesionales de datos crean varios tipos de modelos de datos durante la etapa de diseño de datos.

¿Cómo se relaciona la gobernanza de datos con la administración de datos?

La práctica de la administración de datos abarca la recopilación y distribución de datos de alta calidad, además de la gobernanza de datos, para controlar el acceso a los datos.

La gobernanza de datos incluye las políticas y los procedimientos que una organización implementa para administrar la seguridad, integridad y utilidad responsable de los datos. Define la estrategia de administración de datos y determina quién puede acceder a qué datos. Las políticas de gobernanza de datos también establecen la responsabilidad en la forma en que los equipos y las personas acceden a los datos. Las funciones de gobernanza de datos suelen incluir:

Generación de perfiles de datos

La generación de perfiles de datos es el proceso de diagnóstico que consiste en analizar los datos para determinar su estructura, calidad y características. Este es el primer paso para entender un conjunto de datos existente y decidir si se tiene que refactorizar antes de usarlo.

Linaje de datos

El linaje de datos rastrea los flujos de datos en una organización. El linaje de datos con marca de tiempo se usa para determinar dónde se originó un dato, cómo se usó y cuándo y cómo se transformó. Este proceso de administración de datos es particularmente importante en los procesos de auditoría.

Catálogo de datos

Los catálogos de datos son una colección de los activos de datos de la organización y los metadatos relacionados. Al almacenar toda la información relacionada con los datos en un catálogo central, este se convierte en el registro de datos principal de la organización. Los usuarios pueden esperar que el catálogo de datos contenga la información más actualizada sobre todos los activos de datos.

Control de acceso y seguridad de los datos

La gobernanza de datos ayuda a prevenir el acceso no autorizado a los datos y ayuda a proteger los datos contra la corrupción. La seguridad de los datos y el control de acceso abarcan todos los aspectos de la protección de datos, como los siguientes:

  • Evitar el movimiento o eliminación accidental de datos.
  • Protección del acceso a la red para reducir el riesgo de ataques.
  • Verificar que los centros de datos físicos que almacenan datos cumplan con los requisitos de seguridad.
  • Mantener los datos seguros incluso cuando los empleados acceden a los datos desde dispositivos personales.
  • Autenticar a los usuarios, autorizarlos y establecer y aplicar de permisos de acceso a los datos.
  • Ayudar a garantizar que los datos almacenados cumplan con las leyes del país donde se almacenan los datos.
  • Agregar capas adicionales de controles para la información confidencial.

Cumplimiento de datos

Las políticas de cumplimiento de datos reducen el riesgo de multas o acciones reglamentarias. Cumplir con las leyes de cumplimiento, como el RGPD y la CCPA, es esencial para las operaciones.

Las actividades de cumplimiento se centran en el modelado de datos, los controles de software y la formación de los empleados para que el cumplimiento de las leyes se produzca en todos los niveles. Por ejemplo, una organización colabora con un equipo de desarrollo externo para mejorar sus sistemas de datos. Los gerentes de gobernanza de datos verifican que se eliminen todos los datos personales antes de pasarlos al equipo externo para usarlos con fines de prueba.

Administración del ciclo de vida de los datos

La administración del ciclo de vida de los datos se refiere al proceso de administración de los datos a lo largo de su ciclo de vida. 

Por ejemplo:

  • Los datos deben verificarse en el momento de la ingesta y a intervalos regulares
  • Los datos deben conservarse durante periodos de tiempo específicos para fines de auditoría
  • Los datos deben borrarse cuando ya no sean necesarios

Administración de la calidad de los datos

Los usuarios de los datos esperan que los datos sean lo suficientemente fiables y coherentes para cada caso de uso.

Los administradores de calidad de datos miden y mejoran la calidad de los datos de una organización. Revisan los datos existentes y los nuevos y verifican que cumplan con los estándares. También pueden configurar procesos de administración de datos que bloquean la entrada de datos de baja calidad en el sistema. Los estándares de calidad de los datos suelen medir lo siguiente:

  • ¿Falta información clave o están completos los datos? (Por ejemplo, el cliente omite la información de contacto clave)
  • ¿Los datos cumplen las reglas básicas de verificación de datos? (Por ejemplo, los números de teléfono deben tener un número determinado de dígitos)
  • ¿Con qué frecuencia aparecen los mismos datos en el sistema? (Por ejemplo, entradas de datos duplicadas del mismo cliente)
  • ¿Los datos son precisos? (Por ejemplo, el cliente introduce una dirección de correo electrónico incorrecta)
  • ¿La calidad de los datos es uniforme en todo el sistema (Por ejemplo, la fecha de nacimiento tiene el formato dd/mm/aaaa en un conjunto de datos, pero el formato mm/dd/aaaa en otro conjunto de datos)

Distribución de datos

Puntos de conexión para la distribución de datos

Para la mayoría de las organizaciones, los datos deben distribuirse a (o cerca de) los distintos puntos de conexión en los que se necesitan los datos. Estos incluyen sistemas operativos, lagos de datos y almacenamiento de datos. La distribución de datos es necesaria debido a las latencias de la red. Cuando se necesitan datos para uso operativo, es posible que la latencia de la red no sea suficiente para entregarlos de manera oportuna. El almacenamiento de una copia de los datos en una base de datos local resuelve el problema de latencia de la red.

La distribución de datos también es necesaria para la consolidación de datos. El almacenamiento y los lagos de datos reúnen los datos de varios orígenes para presentar una vista consolidada de la información. El almacenamiento de datos se utiliza para el análisis y la toma de decisiones, mientras que los lagos de datos sirven como un centro consolidado del que se pueden extraer datos para una variedad de casos de uso, al tiempo que cada vez más son compatibles con el análisis directamente de los datos almacenados en ellos.

Mecanismos de replicación de datos e impacto en la coherencia

Los mecanismos de distribución de datos tienen un impacto potencial en la coherencia de datos, y esto es algo importante que hay que tener en cuenta en la administración de datos.

La replicación sincrónica de datos resulta de una coherencia sólida. En este enfoque, cuando se cambia un valor de datos, todas las aplicaciones y los usuarios pueden ver el valor modificado de los datos. Si el nuevo valor de los datos aún no se ha replicado, se bloquea el acceso a los datos hasta que se actualicen todas las copias. La replicación sincrónica prioriza la coherencia sobre el rendimiento y el acceso a los datos. La replicación sincrónica se utiliza con frecuencia para los datos financieros.

La coherencia final resulta de la replicación asíncrona de los datos. Cuando se cambian los datos, las copias finalmente se actualizan (normalmente en cuestión de segundos), pero el acceso a las copias desactualizadas no se bloquea. Para muchos casos de uso, esto no es un problema. Por ejemplo, las publicaciones, “me gusta” y comentarios en las redes sociales no requieren una coherencia fuerte. Como otro ejemplo, si un cliente cambia su número de teléfono en una aplicación, este cambio se puede aplicar en cascada de forma asíncrona.

Diferencias entre la reproducción en streaming y las actualizaciones por lotes

Las secuencias de datos cambian en cascada los datos a medida que se producen. Este es el enfoque preferido si se requiere acceso a datos en tiempo casi real. Los datos se extraen, transforman y entregan a su destino tan pronto como se modifican.

Las actualizaciones por lotes son más apropiadas cuando los datos deben procesarse en lotes antes de la entrega. Resumir o realizar análisis estadísticos de los datos y entregar solo el resultado es un ejemplo de ello. Las actualizaciones por lotes también pueden preservar la coherencia interna puntual de los datos si todos los datos se extraen en un momento específico. Las actualizaciones por lotes a través de un proceso de extracción, transformación y carga (ETL o ELT) se utilizan normalmente para lagos de datos, almacenamiento de datos y análisis.

Administración de datos maestros

La administración de datos maestros es el proceso de administrar la coherencia y la sincronización de los datos empresariales esenciales. Algunos ejemplos de datos maestros son los datos de clientes, los datos de socios y los datos de productos. Estos datos fundamentales son principalmente persistentes y no cambian con frecuencia. Algunos ejemplos de estos datos en uso son el software de administración de relaciones con los clientes (CRM) y de planificación de recursos empresariales (ERP).

La administración de datos maestros es esencial para garantizar que estos datos sean precisos en todos los sistemas, incluida la sincronización y la integración de datos en las actualizaciones.

¿Qué es la administración de macrodatos?

Los macrodatos son el gran volumen de datos que una organización recopila a gran velocidad durante un corto periodo de tiempo. Las fuentes de noticias en vídeo de las redes sociales y las secuencias de datos de sensores inteligentes son ejemplos de macrodatos. Tanto la escala como la variedad y la complejidad de las operaciones crean desafíos en la administración de macrodatos. Por instancia, un sistema de macrodatos almacena datos como:

  • Datos estructurados que se representan bien en formato tabular
  • Datos no estructurados, como documentos, imágenes y videos
  • Datos semiestructurados que combinan los dos tipos anteriores

Las herramientas de administración de macrodatos tienen que procesar y preparar los datos para el análisis. Las herramientas y técnicas necesarias para macrodatos suelen realizar las siguientes funciones: integración de datos, almacenamiento de datos y análisis de datos.

¿Qué son los sistemas de administración de datos en la nube?

La administración de datos en la nube (CDM) es la administración de los datos empresariales en la nube, cuando los datos están en reposo, en procesamiento y en tránsito. Muchas de las mismas prácticas de administración de datos tradicional se aplican a la administración de datos en la nube.

Como los entornos en la nube son diferentes de los entornos en las instalaciones estándar, la forma en que se gestionan los datos es ligeramente diferente. El almacenamiento en la nube, la computación en la nube y las redes en la nube funcionan en conjunto, junto con los servicios modernos de administración de datos en la nube, para cumplir con las expectativas de administración de datos.

Almacenamiento en la nube

Los proveedores de servicios en la nube ofrecen almacenamiento de datos en varios productos y servicios, como bases de datos operativas, lagos de datos y almacenamientos de datos en la nube. Estas soluciones de almacenamiento de datos son nativas en la nube, se ejecutan en instancias en la nube y ofrecen configuraciones de almacenamiento virtualizado que se adaptan a cualquier caso de uso. Las instancias de almacenamiento en la nube deben configurarse para cumplir con los estándares de datos.

Computación en la nube

Las instancias de computación en la nube están diseñadas para procesar los datos almacenados en la nube. Estas instancias de computación también ofrecen muchas configuraciones diferentes, cada una para tipos de cargas de trabajo ligeramente diferentes, como el procesamiento de transacciones, la automatización de procesos, la inteligencia empresarial, el análisis, el machine learning y la IA. Las instancias de computación en la nube deben configurarse de acuerdo con las reglas internas relacionadas con la administración de datos en la nube.

Redes en la nube

Las soluciones de redes en la nube, como las nubes privadas virtuales (VPC) y las redes privadas virtuales (VPN), ofrecen redes basadas en software. Las redes en la nube proporcionan aislamiento al segmentar los recursos y garantizar que las cargas de trabajo estén separadas de forma segura entre sí y mejor protegidas contra el acceso no autorizado. Los datos en tránsito a través de estas redes se deben administrar con una combinación de controles de productos y productos de seguridad de red.

Herramientas de administración de datos en la nube

Cada proveedor de servicios en la nube ofrece diferentes soluciones para la administración de datos en la nube en todo su entorno. Estas capacidades de administración de datos pueden ser, por ejemplo:

  • Servicios de unificación de datos, como lagos de datos y almacenamientos de datos
  • Servicios de seguridad de datos, como la administración del cumplimiento
  • Servicios de calidad de datos para comprobar si hay datos válidos y de alta calidad
  • Soluciones de inventario de datos para identificar la información confidencial mediante IA y machine learning

Cada solución de administración de datos en la nube está diseñada para complementar los servicios fundamentales de almacenamiento, procesamiento y transferencia de datos que se ofrecen en la nube.

El Modelo de responsabilidad compartida

La seguridad y el cumplimiento son responsabilidades compartidas entre el proveedor de servicios en la nube y el cliente. AWS lo denomina Modelo de responsabilidad compartida

Este modelo compartido puede aliviar la carga operativa del cliente, ya que el proveedor de servicios en la nube opera, administra y controla los componentes del sistema operativo host y la capa de virtualización hasta la seguridad física de las instalaciones en las que funcionan los servicios. Los proveedores de servicios de administración de datos en la nube y los clientes deben comprender sus obligaciones de administración y seguridad de datos en virtud del modelo.

Por ejemplo, los proveedores de servicios en la nube deben tomar medidas para proteger la infraestructura subyacente que sustenta las instancias en la nube de los clientes. Los proveedores de servicios en la nube se aseguran de que el hardware esté parcheado y funcione según lo esperado. A continuación, los clientes deben asegurarse de que el sistema operativo que se ejecuta en la instancia esté actualizado.

Los clientes deben asegurarse de tener replicaciones de instancias adecuadas en todas las zonas y copias de seguridad de datos. Esto contribuye a la coherencia de datos y hace que los datos se puedan recuperar en caso de un evento que requiera una recuperación ante desastres.

¿Cuáles son algunos desafíos asociados a la administración de datos?

Entre los desafíos comunes asociados a la administración de datos se incluyen los siguientes:

Escala y rendimiento

Las organizaciones necesitan un software de administración de datos que funcione de manera eficiente a escala. Tienen que supervisar y reconfigurar continuamente la infraestructura de administración de datos para mantener los tiempos de respuesta pico cuando los datos crecen exponencialmente. Como alternativa, tienen que usar un software de administración de datos sin servidor que ajuste automáticamente la capacidad mediante cambios en el volumen de datos y las cargas de trabajo.

Requisitos cambiantes

Las normas de cumplimiento son complejas y cambian con el tiempo. Del mismo modo, los requisitos de los clientes y las necesidades comerciales también cambian rápidamente. Si bien las organizaciones tienen más opciones en cuanto a las plataformas de administración de datos que pueden usar, tienen que evaluar constantemente las decisiones de infraestructura para mantener la máxima agilidad de TI, el cumplimiento legal y reducir los costos.

Capacitación de los empleados

Iniciar el proceso de administración de datos en cualquier organización puede ser un desafío. El enorme volumen de datos puede ser abrumador y también pueden existir silos interdepartamentales. Planificar una nueva estrategia de administración de datos y lograr que los empleados acepten nuevos sistemas y procesos requiere tiempo y esfuerzo.

¿Cuáles son algunas prácticas recomendadas en materia de administración de datos?

Las prácticas recomendadas en materia de administración de datos forman la base de una estrategia de datos exitosa. Los siguientes son principios comunes de administración de datos que lo ayudarán a crear un fundamento de datos sólido.

Colaboración en equipo

Los usuarios empresariales y los equipos técnicos deben colaborar para ayudar a garantizar que se cumplan los requisitos de datos de una organización.

Automatización

Una estrategia de administración de datos exitosa incorpora la automatización en la mayoría de las tareas de procesamiento y preparación de datos. Realizar tareas de transformación de datos manualmente es tedioso y también introduce errores en el sistema. Incluso un número limitado de tareas manuales, como la ejecución de trabajos por lotes semanales, puede provocar cuellos de botella en el sistema. El software de administración de datos puede admitir un escalado más rápido y eficiente.

Computación en la nube

Las empresas requieren soluciones modernas de administración de datos que les proporcionen un amplio conjunto de capacidades. Una solución en la nube puede gestionar todos los aspectos de la administración de datos a escala sin poner el rendimiento en riesgo. Por ejemplo, AWS ofrece una amplia gama de funcionalidades, como bases de datos, lagos de datos, análisis, accesibilidad de datos, gobernanza de datos y seguridad, desde una sola cuenta.

¿Cómo puede ayudar AWS en la administración de datos?

AWS es una plataforma de administración de datos global que se puede utilizar para crear una estrategia de administración de datos en la nube moderna. Las bases de datos de AWS ofrecen una base de alto rendimiento, segura y confiable para impulsar soluciones de IA generativa y aplicaciones basadas en datos que generan valor para su empresa y sus clientes. Las bases de datos de alto rendimiento de AWS admiten cualquier carga de trabajo o caso de uso, incluidas bases de datos relacionales con un rendimiento de 3 a 5 veces superior al de otras opciones, bases de datos personalizadas con latencia de nivel microsegundo y capacidades integradas de bases de datos vectoriales con el mayor rendimiento y las tasas de recuperación más altas.

AWS ofrece opciones sin servidor que eliminan la necesidad de administrar capacidad, al escalar de forma instantánea según la demanda. Las bases de datos de AWS ofrecen una seguridad inigualable con cifrado en reposo y en tránsito, aislamiento de red, autenticación, resolución de anomalías y un cumplimiento riguroso de los estándares normativos. Son altamente confiables, ya que los datos se replican de forma automática en múltiples zonas de disponibilidad dentro de una región de AWS. Con más de 15 motores de base de datos optimizados según el modelo de datos de cada aplicación, las bases de datos completamente administradas de AWS eliminan por completo las tareas administrativas repetitivas y sin valor estratégico.

AWS ofrece un conjunto completo de capacidades para cada carga de trabajo de análisis. Desde el procesamiento de datos y el análisis de SQL hasta la transmisión, la búsqueda y la inteligencia empresarial, AWS ofrece una relación precio-rendimiento y escalabilidad incomparables con gobernanza integrada. Elija servicios diseñados específicamente y optimizados para cargas de trabajo específicas u optimice y administre sus flujos de trabajo de datos e IA con Amazon SageMaker. Ya sea que esté iniciando su viaje con los datos o buscando una experiencia integrada, AWS brinda las capacidades de análisis adecuadas para ayudarlo a reinventar su negocio con datos.

Estos son algunos de los servicios que pueden ayudarlo a crear una infraestructura de datos en la nube moderna.

Amazon DataZone es un servicio de administración de datos que permite a los clientes catalogar, descubrir, compartir y controlar de forma más rápida y sencilla los datos almacenados en AWS, en las instalaciones y en orígenes de terceros.

AWS Glue es un servicio sin servidor que vuelve más fácil, rápido y barato el proceso de integración de datos. Puede detectar y conectarse a más de 100 orígenes de datos, administrar los datos en un catálogo centralizado y crear, ejecutar y supervisar visualmente canalizaciones para cargarlos en lagos de datos, almacenamientos de datos y almacenes tipo lago.

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector. Millones de clientes de todos los tamaños y sectores pueden almacenar, administrar, analizar y proteger cualquier cantidad de datos para prácticamente cualquier caso de uso, como los lagos de datos, las aplicaciones nativas en la nube y las aplicaciones móviles.

AWS Lake Formation le permite controlar, proteger y compartir datos de forma centralizada para el análisis y el machine learning. AWS Lake Formation lo ayuda a administrar y escalar de forma centralizada los permisos de acceso a los datos detallados y para compartir datos con confianza dentro y fuera de su organización.

Amazon Relational Database Service (Amazon RDS) es un servicio de base de datos relacional fácil de administrar, optimizado para el costo total de propiedad.

Amazon Virtual Private Cloud (Amazon VPC) lo ayuda a definir y lanzar recursos de AWS en una red virtual aislada de forma lógica.

Cree una cuenta de AWS hoy mismo para comenzar a crear su solución de administración de datos en la nube en AWS.