Etter at Hans-Petter hadde et Wikipedia-prosjekt for å finne bilder som manglet i Oslo, hvor han lagde en KML-fil og satte opp Google Maps som en oversikt og arbeidsliste for alle som deltar, har jeg hatt lyst til å automatisere denne jobben litt. Siden jeg har lesetilgang til databasene til Wikipedia skulle det i utgangspunktet være lett å få hentet ut informasjon om alle kartkoordinatene, og hvorvidt artikkelen har noen bilder.
Prosjektet er nå endelig klar for offentligheten: Wikipedia-artikler som trenger bilder.
Jeg bruker følgende spørring mot wikipedia-databasen for no.wikipedia:
SELECT p.page_id,p.page_title,e.el_to,(SELECT COUNT(*) FROM imagelinks i WHERE i.il_from=p.page_id AND i.il_to NOT LIKE ‘%.svg’) AS antall FROM page p JOIN externallinks e ON p.page_id=e.el_from WHERE e.el_to LIKE ‘http://toolserver.org/~geohack/geohack.php%’ AND p.page_namespace=0 AND p.page_title NOT IN (‘Grunnlinje’) AND p.page_title NOT LIKE ‘Liste%’ AND page_title NOT LIKE ‘Tettsteder%’ LIMIT 0,20000
Jeg henter i utgangspunktet ut alle sider som lenker til http://toolserver.org/~geohack/geohack.php, siden det er lenken som brukes i malen Koord som brukes bl.a. for å formatere koordinater riktig. Trolig hadde det vært bedre å finne alle de artikler som bruker malen Koord/vis/tittel, siden det er denne som faktisk viser koordinatene øverst til høyre på artiklene, men det får bli til en senere anledning (det blir en mye tyngre SQL-spørring, som tar vesentlig lenger tid å kjøre).
For å kompensere for at jeg ikke bruker vis/tittel-malen, har jeg ekskludert alle artikler som begynner på «Liste» eller «Tettsteder», siden disse artiklene har ganske mange koordinater, uten at det behøver å være et bilde i artikkelen.
Når det gjelder bilder, så ekskluderer jeg bruk av SVG-bilder som «aktuelle» for at artikkelen har et bilde, siden dette ofte er kommunevåpen brukt i maler, eller kart over stedet – ingen av delene er gode representantive bilder for de forskjellige artiklene.