El Líder Técnico de Big Data + AI tiene como propósito guiar y hacer mentoring al equipo de desarrollo, asegurando la adopción de tecnologías y herramientas adecuadas para la implementación de soluciones de procesamiento de datos de bajos y altos volúmenes y la integración de modelos de inteligencia artificial. Su rol es fundamental en la toma de decisiones técnicas, la adherencia a las decisiones y estrategias de arquitectura y la optimización de los flujos de procesamiento de datos masivos en entornos escalables
El Líder Técnico de Big Data + AI tiene como propósito guiar y hacer mentoring al equipo de desarrollo, asegurando la adopción de tecnologías y herramientas adecuadas para la implementación de soluciones de procesamiento de datos de bajos y altos volúmenes y la integración de modelos de inteligencia artificial. Su rol es fundamental en la toma de decisiones técnicas, la adherencia a las decisiones y estrategias de arquitectura y la optimización de los flujos de procesamiento de datos masivos en entornos escalables.
Azure Synapse Analytics
o Azure Data Lake
o Databricks
o AWS Redshift
o Google BigQuery.
o Data Lakehouse
o Data Mesh
o Data Fabric
o Lambda y Kappa Architecture.
o Bases de datos relacionales: SQL Server, PostgreSQL, MySQL.
o Procesamiento distribuido: Databricks, Apache Spark, Apache Flink, Dask.
o Procesamiento en batch vs. procesamiento en streaming.
o Implementación de RBAC (Role-Based Access Control).
o Auditoría y monitoreo de acceso a los datos.
o Regresión lineal y logística, árboles de decisión, random forest, gradient boosting (XGBoost, LightGBM, CatBoost).
o Redes neuronales convolucionales (CNN), redes recurrentes (RNN, LSTM, GRU), transformers (BERT, GPT).
o Tokenización, embeddings (Word2Vec, FastText, BERT), clasificación de texto, generación de texto.
o Detección de objetos, segmentación de imágenes, reconocimiento facial.
Indexación y Vectorización para Modelos de AI y LLMs
o Uso de embeddings generados por modelos como Ada, Word2Vec, FastText, BERT, OpenAI Cohere, Hugging Face Transformers.
o Métodos de reducción de dimensionalidad: PCA, t-SNE, UMAP.
o Implementación de técnicas de Retrieval-Augmented Generation (RAG) para mejorar la precisión en LLMs.
· Bases de Datos Vectoriales:
o Uso de PostgreSQL con extensiones para vectores (pgvector).
o Integración con Azure Cognitive Search (AI Search), Elasticsearch, Pinecone.
o Ajuste de hiperparámetros con Grid Search, Random Search, Optuna.
o Uso de técnicas como Transfer Learning y Few-Shot Learning para adaptar modelos preentrenados a nuevos dominios.
o Implementación de LoRA (Low-Rank Adaptation) y QLoRA para optimizar fine-tuning en grandes modelos de lenguaje.
o Adaptación de modelos de OpenAI, Hugging Face, Llama 2, Mistral, Falcon en entornos privados o híbridos.
o TensorFlow, PyTorch, Hugging Face Transformers, DeepSpeed, FastAPI para servir modelos optimizados.
o Azure Machine Learning, AWS SageMaker, Google Vertex AI.
o MLflow, Kubeflow, TensorFlow Extended (TFX).
o Uso de GPUs y TPUs en cloud.
o Kubernetes y servidores para inferencia (Triton, ONNX Runtime, TorchServe).
o Automatización de pruebas en modelos de ML (unit tests, integration tests en pipelines de AI).
o Validación de seguridad en modelos y datos (ataques adversariales, auditoría de datasets).
o Despliegues en contenedores con Docker y Kubernetes.
o GitOps para la gestión del código de AI (MLflow, DVC).
No aplica
Trabajo remoto. Horario flexible, Contrato a termino indefinido.
Locally remote only
Position is 100% remote, but candidates must reside in Colombia.