🤖 Genie Code
El primer AI agent de datos que entiende tu Lakehouse
Muchos copilots y agentes prometen lo mismo:
“Escribe código más rápido”.
Pero en datos el problema nunca fue escribir código.
El problema es:
entender datasets
navegar notebooks
respetar convenciones del equipo
no romper pipelines existentes
y no perder el contexto del Lakehouse.
Por eso tenía curiosidad por probar Genie Code, el nuevo agente de Databricks.
No quería hacer una demo artificial.
Así que hice algo más interesante:
Creé un pequeño notebook interactivo para probarlo paso a paso sobre un dataset real del catálogo samples.wanderbricks.properties. que tenes adentro de tu cuenta de Databricks Free Edition.
🤓 Qué intenta hacer Genie Code
Genie Code intenta resolver esto con un enfoque distinto.
No es solo un chat.
Tiene Agent Mode.
Eso significa que puede:
🧠 planear una solución
🔎 explorar datasets
💻 generar código
▶ ejecutar celdas
📊 interpretar resultados
🔧 corregir errores automáticamente
Todo desde un mismo prompt.
Es decir: no solo escribe código.
Empieza a trabajar dentro del notebook contigo.
👀 Algo que me sorprendió bastante
Cuando le pides algo interesante, Genie Code no empieza generando código directamente.
Primero genera un plan.
Algo así:
1️⃣ Inspect dataset schema
2️⃣ Explore distributions
3️⃣ Generate insights
4️⃣ Create visualizationsY luego te pregunta si quieres continuar.
Puede parecer un detalle menor.
Pero en realidad es bastante importante.
Porque evita esto 👇
AI haciendo cosas random en tu notebooky en su lugar hace esto 👇
AI proponiendo un plan primeroy vos decidis si seguir o no.
📊 Lo que probé realmente
En lugar de hacer una demo artificial, probé algo más realista.
Un pequeño flujo típico de datos:
1️⃣ explorar un dataset
2️⃣ generar insights
3️⃣ entrenar un modelo simple
Todo usando este dataset del catálogo samples:
samples.wanderbricks.properties🥱 Pero la parte interesante no fue ML
Entrenar un modelo con AI ya lo hacen muchas herramientas.
Lo que realmente me llamó la atención fue esto:
⚙️ Instructions
Puedes definir reglas para el agente.
Por ejemplo:
All pipelines must follow Medallion architecture
Bronze → raw ingestion
Silver → cleaned data
Gold → aggregated data
All models must be logged with MLflowEsto cambia bastante el juego.
Porque ahora el agente puede generar código que ya respeta:
🏗 arquitectura de datos
📊 estándares de visualización
📦 convenciones del equipo
🧪 tracking de experimentos
No es solo AI escribiendo código.
Es AI aprendiendo cómo trabaja tu equipo.
🧪 Así que armé un pequeño tutorial
En lugar de una demo bonita, preparé un notebook interactivo para probar Genie Code en un workflow real:
abrir Genie Code → lanzar prompts → ver qué propone → decidir si aceptarlo.Básicamente un sandbox para experimentar con el agente dentro del Lakehouse.
Puedes probarlo aquí:
👉 https://github.com/lucasmengual92/hablandodedata
El notebook se llama:
databricks/notebooks/tutorials/genie_code/genie_code_paso_a_pasoy te va guiando paso a paso.
📬 Conectá conmigo:






