icaria Technology es una compañía centrada en la gestión del dato y del metadato. En nuestro día a día tratamos con distintos almacenes de datos; bases de datos relacionales, datalake, data warehouse, bases de datos jerárquicas, basadas en ficheros, etc.
La capacidad de conexión a estas fuentes de datos es crucial para nosotros. Es por ello que constantemente hacemos un esfuerzo para estudiar los potenciales de cada una de ellas, investigando la estrategia correcta de administración de sus datos. Todo ello con el objetivo de añadir soporte a las funciones de icaria TDM e icaria GDPR del modo óptimo para cada una de ellas.
En las últimas semanas hemos liberado distintas features relacionadas con este propósito. Tanto en la arquitectura de icaria Technology, compartida por icaria TDM, icaria GDPR e icaria Lean Factory, como en los procesos específicos de estas aplicaciones.
icaria se relaciona con los entornos de Big Data con distintas soluciones. Por ejemplo, en entornos Cloudera Data Platform (CPD) la aproximación habitual es hacer un uso mixto entre Hive y tratamiento directo de fichero, generalmente a través de Hadoop y HDFS.
Es principalmente en este último donde se ha mejorado notablemente el tratamiento de ficheros Parquet y AVRO.
El procesado de grandes volúmenes de datos supone un importante reto. Echando cuentas, si buscamos entregar datos a tiempo, rápidamente encontramos que la velocidad de procesado debe superar el millón de registros por segundo. Con este objetivo presente hemos: optimizado el uso de memoria y reducido la generación de objetos; trasladado procesos ligeros pero largos en el tiempo a segundo plano y mejorado el tratamiento de ficheros remotos. Todo ello con el objetivo de agilizar el procesado, disociación y anonimización y entrega de datos a demanda.
Las mejoras recientemente desplegadas suponen la reducción del 50% del tiempo de ejecución.
La nueva versión de icaria FileSQL, el complemento tecnológico de la arquitectura de icaria Technology con el que tratamos ficheros como fuentes de datos, ha sido completamente rediseñado para facilitar su extensión y la futura incorporación de nuevos tipos formatos de archivos tratados; en la hoja de ruta: ancho fijo, DLI, XML, JSON o Excel.
Por el momento hemos añadido y mejorado con respecto a la versión anterior el tratamiento de CSV, TSV y ficheros equivalentes con valores separados por delimitador.
El tiempo de procesado, el almacenamiento y la seguridad son recursos preciados. Por ello, el nuevo driver JDBC incorpora la capacidad de:
El equipo de producto de icaria Technology recibe constantemente peticiones de incorporar la compatibilidad con nuevas bases de datos.
La última en entrar en la lista de bases de datos compatibles viene de la mano de Huawei. Se trata de su base de datos GaussDB. Para la que, dadas sus características, se ha completado la compatibilidad con una mejor implantación del driver JDBC, gestión de nuevas conexiones y una política de reintentos de conectividad más ágil.
Además, se mejora la compatibilidad simultánea con versiones de Oracle DB, incluyendo compatibilidad desde la versión 9i hasta la 21c. Incluyendo la actual versión de largo plazo Oracle Database 19c.
En bases de datos relacionales es habitual el uso de campos autogenerados, para claves primarias, por ejemplo. Este tipo de campos supone un reto en la segmentación de estructuras que persiguen entregar un subconjunto coherente de información, como podría ser un cliente en todos los sistemas.
En las últimas semanas se ha mejorado la capacidad de icaria TDM de gestionar con distintas aproximaciones esta problemática. Las principales RDB revisadas en esta ocasión han sido Oracle, SQL Server y DB2: se habilita la entrega repetitiva de datos, el borrado de datos consumidos, generación de datos, etc.
La hoja de ruta marcada por el equipo de icaria Technology para los próximos meses con respecto a la compatibilidad de almacenes de datos se centrará en ampliar la funcionalidad de icaria GDPR e icaria TDM en entornos SAP S/4HANA y SAP R/3, al tiempo que se completará el desarrollo del conector específico para Salesforce.
El objetivo es ampliar la capacidad actual de integración de fuentes de datos basadas en SAP y Salesforce con el resto de sistemas de las organizaciones, consiguiendo la anonimización y generación de datos de pruebas en todos los sistemas de manera coherente y simultánea.
icaria Technology está en constante evolución y mejora. En este artículo te hemos presentado algunos de los últimos avances más relevantes con respecto a la compatibilidad con fuentes de datos, pero esto no ha sido lo único en lo que hemos trabajado.
En próximos artículos repasaremos la arquitectura multi nodo en la que llevamos meses trabajando, y cuyo objetivo es conseguir mejor escalabilidad, paralelización, resiliencia y distribución de tareas. La ejecución multi nodo facilitará la ejecución en nubes públicas -AWS, Azure o GCP- y el uso de contenedores autoescalables integrándolo con Kubernetes.