Hämta och räkna författare i MediaWiki-dump

En positiv utveckling som skett den senaste tiden är att material från Wikipedia trycks i bokform. Här kan nämnas fågelboken "Svenska fåglar" som Wikimedia Sverige givit ut, men också det projekt jag själv är  inblandad i. Det är ett projekt för att skriva en manual för MediaWiki som genomförs i samarbete med .SE. Manualen kommer att innehålla mycket nyproducerat material, men också text från Wikipedias hjälpsidor. Det innebär naturligtvis att manualen måste släppas under GFDL och att samtliga författare till texterna på Wikipedia måste listas i enlighet med kraven i licenstexten.

Hur gör man då för att skapa en lista på alla författare som skrivit i ett tjugotal hjälpsidor på Wikipedia? Svaret är enkelt, man skriver ett program som fiskar fram alla författare ur en MediaWiki-dump. Därefter släpper man programmet under GPL, så att andra kan göra samma sak. Det är i alla fall vad jag har gjort. Så här gör man för att använda programmet:

1. Gå till Special:Export på wikin som du tagit material i från, gör en dump på de artiklar det gäller och spara den på din dator. Glöm inte att klicka ur krysslådan "Inkludera endast den nuvarande versionen, inte hela historiken"

2. Starta mitt program som du hittar här: http://mickenordin.se/files/GetAuthors.jar

Det krävs att du har java installerat på din dator (http://java.com/sv/), men borde å andra sidan funka på (nästan) alla
operativsystem.

3. Tryck på knappen "Select xml-file" och klicka dig fram till filen du sparade på din dator

4. Tryck på knappen "Select save location" och välj var du vill spara filen med författare.

5. Tryck på knappen "Get authors"

Programmet har även ett CLI, så man kan skicka sökvägen till en dump som argument, författarlistan skrivs sedan till standard out så att man kan pipa vidare om man vill. Då får ni packa upp jar-filen och sedan köra: java GetAuthors [file]

Ha så kul!

Se även:

Läs även andra bloggares åsikter om , ,

2 kommentarer

  1. Jättebra verktyg! En fråga, räknar den med återställningar (och därmed också vandalism), eller filterar den bort dom?

  2. Den räknar redigeringar rakt av, så även vandalism kommer med. Det jag har tänkt att lägga till är en filterfunktion så att man skall kunna ta bort saker med hjälp av regexar. Därtill har jag tänkt att lägga två fasta filter som blockar bort robotar och ip-nummer, som man skall kunna använda, ett, båda eller inget av. Det är lite mer jobb att plocka bort vandalism eftersom jag då måste hålla reda på både den aktuella redigeringen + den som kommer efter, så det får vänta.

    /Micke

Lämna en kommentar

E-postadressen publiceras inte. Obligatoriska fält är märkta *

*

Switch to our mobile site

Page optimized by WP Minify WordPress Plugin