Metodologia
Com funciona.
Les actes dels plens són documents PDF de fins a 200 pàgines. Aquesta pàgina explica com les convertim en dades estructurades, què fa la intel·ligència artificial i què supervisa la persona.
Fonts de dades
El projecte parteix de fonts públiques de l'Ajuntament de València i les combina per generar dades que no existeixen en cap altra forma estructurada.
Actes dels plens municipals
PDFs publicats per l'Ajuntament al seu web oficial. Domini públic. Reutilització emparada per la Llei 19/2013 de Transparència i la Llei 2/2015 de la Comunitat Valenciana.
Principal · domini públicDataset Barris i Districtes
88 barris i 19 districtes amb els seus contorns GeoJSON. Portal de Dades Obertes de l'Ajuntament de València (geoportal.valencia.es). Usat per a la geolocalització d'intervencions i el mapa interactiu.
Dades obertes · CC BY 4.0Queixes, Suggeriments i Pressupostos
Datasets de queixes i suggeriments (87.528 registres) i de pressupostos participatius (8 edicions). Portal de Dades Obertes de l'Ajuntament. Usats a la secció Altres veus.
Dades obertes · CC BY 4.0El pipeline: 7 passos
Un conjunt de scripts Python processa cada ple des de la seua publicació al web de l'Ajuntament fins a la seua aparició al web. Els passos 1–4 són automàtics i idempotents; els passos 5–7 usen IA amb supervisió humana.
Índex de sessions
Python · web scrapingDescàrrega automàtica del llistat de tots els plens des del web municipal. Extreu data, tipus (ordinari/extraordinari) i enllaços a les actes i vídeos.
→ sessions_index.json
Metadades de sessió
Python · web scrapingVisita cada pàgina de sessió per obtenir els metadades complets i els enllaços directes als PDFs de les actes.
→ sessions_metadata.json
Descàrrega de PDFs
Python · urllibDescarrega les actes oficials en format PDF. Només descarrega els que no existeixen ja localment. Les actes poden superar les 200 pàgines.
→ data/raw/pdfs/
Extracció de text
pdftotext · PythonConverteix cada PDF a text pla net. Elimina capçaleres, peus de pàgina i artefactes de maquetació per preparar el text per a la IA.
→ data/raw/texts/
Extracció amb IA
Claude Haiku · Anthropic IAEl model llegeix el text de l'acta i identifica cada bloc d'intervenció ciutadana. Per cada intervenció extreu: qui parla, quina entitat representa, en quin idioma, què diu. Genera resums bilingües (castellà i valencià).
→ interventions_raw.json
Normalització d'entitats
Claude Haiku · supervisió humana IALa mateixa entitat apareix amb grafies distintes en actes diferents. Aquest pas agrupa variants sota un nom canònic. S'apliquen correccions manuals reproduïbles per als casos que la IA no resol bé.
→ entitats.json
Classificació i construcció final
Claude Haiku · Python IACada intervenció es classifica temàticament (9 categories, 30+ subcategories), geogràficament (barri, districte, àmbit) i amb codis CAP (Comparative Agendas Project, estàndard acadèmic internacional). Es construeixen els JSONs finals que alimenten el web.
→ intervencions.json · plenos.json
El rol de la intel·ligència artificial
La IA fa possible processar centenars de pàgines de documents administratius. La supervisió humana garanteix la qualitat del resultat.
Què fa la IA
- Localitzar els blocs d'intervenció ciutadana a l'acta
- Identificar qui parla i quina entitat representa
- Detectar l'idioma (castellà, valencià o mixt)
- Redactar un resum d'1-2 frases en tots dos idiomes
- Classificar temàticament amb taxonomia pròpia i codis CAP
- Identificar barris i districtes esmentats
- Marcar en negreta les frases clau del text
Què supervisa la persona
- Revisar cada sessió processada
- Eliminar intervencions de regidors mal identificats
- Corregir noms d'entitats i fusionar duplicats
- Reassignar cessions de torn entre entitats
- Validar la classificació geogràfica en casos ambigus
- Totes les correccions queden en codi versionat i són reproduïbles
Cobertura i limitacions
El dataset és exhaustiu dins del seu àmbit, però té límits que qualsevol usuari hauria de conèixer.
Reutilitzar les dades
El dataset complet està disponible per a descàrrega lliure sota llicència CC BY 4.0. Pots usar-lo en projectes periodístics, investigacions acadèmiques o visualitzacions pròpies sempre que cites la font.
Anar a Dades obertes →