🤖 Genie Code

El primer AI agent de datos que entiende tu Lakehouse

Lucas Mengual

Mar 12, 2026

Muchos copilots y agentes prometen lo mismo:

“Escribe código más rápido”.

Pero en datos el problema nunca fue escribir código.

El problema es:

entender datasets
navegar notebooks
respetar convenciones del equipo
no romper pipelines existentes
y no perder el contexto del Lakehouse.

Por eso tenía curiosidad por probar Genie Code, el nuevo agente de Databricks.

No quería hacer una demo artificial.

Así que hice algo más interesante:

Creé un pequeño notebook interactivo para probarlo paso a paso sobre un dataset real del catálogo samples.wanderbricks.properties. que tenes adentro de tu cuenta de Databricks Free Edition.

🤓 Qué intenta hacer Genie Code

Genie Code intenta resolver esto con un enfoque distinto.

No es solo un chat.

Tiene Agent Mode.

Eso significa que puede:

🧠 planear una solución
🔎 explorar datasets
💻 generar código
▶ ejecutar celdas
📊 interpretar resultados
🔧 corregir errores automáticamente

Todo desde un mismo prompt.

Es decir: no solo escribe código.

Empieza a trabajar dentro del notebook contigo.

👀 Algo que me sorprendió bastante

Cuando le pides algo interesante, Genie Code no empieza generando código directamente.

Primero genera un plan.

Algo así:

1️⃣ Inspect dataset schema  
2️⃣ Explore distributions  
3️⃣ Generate insights  
4️⃣ Create visualizations

Y luego te pregunta si quieres continuar.

Puede parecer un detalle menor.

Pero en realidad es bastante importante.

Porque evita esto 👇

AI haciendo cosas random en tu notebook

y en su lugar hace esto 👇

AI proponiendo un plan primero

y vos decidis si seguir o no.

📊 Lo que probé realmente

En lugar de hacer una demo artificial, probé algo más realista.

Un pequeño flujo típico de datos:

1️⃣ explorar un dataset
2️⃣ generar insights
3️⃣ entrenar un modelo simple

Todo usando este dataset del catálogo samples:

samples.wanderbricks.properties

🥱 Pero la parte interesante no fue ML

Entrenar un modelo con AI ya lo hacen muchas herramientas.

Lo que realmente me llamó la atención fue esto:

⚙️ Instructions

Puedes definir reglas para el agente.

Por ejemplo:

All pipelines must follow Medallion architecture

Bronze → raw ingestion
Silver → cleaned data
Gold → aggregated data

All models must be logged with MLflow

Esto cambia bastante el juego.

Porque ahora el agente puede generar código que ya respeta:

🏗 arquitectura de datos
📊 estándares de visualización
📦 convenciones del equipo
🧪 tracking de experimentos

No es solo AI escribiendo código.

Es AI aprendiendo cómo trabaja tu equipo.

🧪 Así que armé un pequeño tutorial

En lugar de una demo bonita, preparé un notebook interactivo para probar Genie Code en un workflow real:

abrir Genie Code → lanzar prompts → ver qué propone → decidir si aceptarlo.

Básicamente un sandbox para experimentar con el agente dentro del Lakehouse.

Puedes probarlo aquí:

👉 https://github.com/lucasmengual92/hablandodedata

El notebook se llama:

databricks/notebooks/tutorials/genie_code/genie_code_paso_a_paso

y te va guiando paso a paso.

Gracias por leer Hablando De Data. Si este post te hizo pensar o te resultó útil, sentite libre de compartirlo.

📬 Conectá conmigo:

Discussion about this post

Ready for more?