Anar al contingut
La Ciutat Parla.

Metodologia

Com funciona.

Les actes dels plens són documents PDF de fins a 200 pàgines. Aquesta pàgina explica com les convertim en dades estructurades, què fa la intel·ligència artificial i què supervisa la persona.

7 passos del pipeline
~$0.10 cost per ple (IA)
4 mandats processats
100% codi obert

Fonts de dades

El projecte parteix de fonts públiques de l'Ajuntament de València i les combina per generar dades que no existeixen en cap altra forma estructurada.

Actes dels plens municipals

PDFs publicats per l'Ajuntament al seu web oficial. Domini públic. Reutilització emparada per la Llei 19/2013 de Transparència i la Llei 2/2015 de la Comunitat Valenciana.

Principal · domini públic

Dataset Barris i Districtes

88 barris i 19 districtes amb els seus contorns GeoJSON. Portal de Dades Obertes de l'Ajuntament de València (geoportal.valencia.es). Usat per a la geolocalització d'intervencions i el mapa interactiu.

Dades obertes · CC BY 4.0

Queixes, Suggeriments i Pressupostos

Datasets de queixes i suggeriments (87.528 registres) i de pressupostos participatius (8 edicions). Portal de Dades Obertes de l'Ajuntament. Usats a la secció Altres veus.

Dades obertes · CC BY 4.0

El pipeline: 7 passos

Un conjunt de scripts Python processa cada ple des de la seua publicació al web de l'Ajuntament fins a la seua aparició al web. Els passos 1–4 són automàtics i idempotents; els passos 5–7 usen IA amb supervisió humana.

01

Índex de sessions

Python · web scraping

Descàrrega automàtica del llistat de tots els plens des del web municipal. Extreu data, tipus (ordinari/extraordinari) i enllaços a les actes i vídeos.

sessions_index.json

02

Metadades de sessió

Python · web scraping

Visita cada pàgina de sessió per obtenir els metadades complets i els enllaços directes als PDFs de les actes.

sessions_metadata.json

03

Descàrrega de PDFs

Python · urllib

Descarrega les actes oficials en format PDF. Només descarrega els que no existeixen ja localment. Les actes poden superar les 200 pàgines.

data/raw/pdfs/

04

Extracció de text

pdftotext · Python

Converteix cada PDF a text pla net. Elimina capçaleres, peus de pàgina i artefactes de maquetació per preparar el text per a la IA.

data/raw/texts/

05

Extracció amb IA

Claude Haiku · Anthropic IA

El model llegeix el text de l'acta i identifica cada bloc d'intervenció ciutadana. Per cada intervenció extreu: qui parla, quina entitat representa, en quin idioma, què diu. Genera resums bilingües (castellà i valencià).

interventions_raw.json

06

Normalització d'entitats

Claude Haiku · supervisió humana IA

La mateixa entitat apareix amb grafies distintes en actes diferents. Aquest pas agrupa variants sota un nom canònic. S'apliquen correccions manuals reproduïbles per als casos que la IA no resol bé.

entitats.json

07

Classificació i construcció final

Claude Haiku · Python IA

Cada intervenció es classifica temàticament (9 categories, 30+ subcategories), geogràficament (barri, districte, àmbit) i amb codis CAP (Comparative Agendas Project, estàndard acadèmic internacional). Es construeixen els JSONs finals que alimenten el web.

intervencions.json · plenos.json

El rol de la intel·ligència artificial

La IA fa possible processar centenars de pàgines de documents administratius. La supervisió humana garanteix la qualitat del resultat.

Què fa la IA

  • Localitzar els blocs d'intervenció ciutadana a l'acta
  • Identificar qui parla i quina entitat representa
  • Detectar l'idioma (castellà, valencià o mixt)
  • Redactar un resum d'1-2 frases en tots dos idiomes
  • Classificar temàticament amb taxonomia pròpia i codis CAP
  • Identificar barris i districtes esmentats
  • Marcar en negreta les frases clau del text

Què supervisa la persona

  • Revisar cada sessió processada
  • Eliminar intervencions de regidors mal identificats
  • Corregir noms d'entitats i fusionar duplicats
  • Reassignar cessions de torn entre entitats
  • Validar la classificació geogràfica en casos ambigus
  • Totes les correccions queden en codi versionat i són reproduïbles
Model: Claude Haiku (Anthropic) · Cost estimat per ple: ~$0.05–0.15 · Cost total del dataset complet: <$30 · Allotjament web: $0 (lloc estàtic)

Cobertura i limitacions

El dataset és exhaustiu dins del seu àmbit, però té límits que qualsevol usuari hauria de conèixer.

Cobertura temporal: 4 mandats municipals: 2011–2015 (Rita Barberá), 2015–2019 (Joan Ribó), 2019–2023 (Joan Ribó), 2023–2027 (María José Catalá). Els plens més recents s'afegeixen periòdicament.
Només intervencions ciutadanes: El dataset recull únicament les intervencions del torn ciutadà al ple. No inclou debats entre regidors, preguntes de grups municipals ni altres tràmits de l'ordre del dia.
Qualitat dels PDFs: Les actes de 2011–2014 són documents escanejats. La qualitat del text extret és menor i hi pot haver més errors de transcripció que en els documents digitals natius de mandats posteriors.
Precisió de la IA: L'extracció automàtica té una taxa d'encert elevada, però no és perfecta. Totes les sessions es revisen manualment. Els errors identificats es corregeixen en un script de correccions versionat.
Normalització d'entitats: Una mateixa entitat pot aparèixer amb grafies distintes en actes diferents. El procés de normalització és iteratiu i millora amb cada nou ple processat. Poden quedar variants no detectades.
Entitats no identificades: En alguns casos l'intervinient no indica clarament l'entitat que representa. Aquestes intervencions es recullen amb el camp entitat buit o amb el nom de l'intervinient com a identificador.

Reutilitzar les dades

El dataset complet està disponible per a descàrrega lliure sota llicència CC BY 4.0. Pots usar-lo en projectes periodístics, investigacions acadèmiques o visualitzacions pròpies sempre que cites la font.

Anar a Dades obertes →