Big data visar hur nyheter spreds över Östersjön

Sex miljoner digitaliserade tidningssidor och en superdator ger unika möjligheter att studera hur information har spridits mellan Finland och Sverige. En grupp historiker undersöker hur pressen fungerade som kulturförmedlare mellan de båda länderna 1771– 1918. Deras projekt finansieras av SLS.

De digitaliserade tidningsdatabaserna i Finland och Sverige är guldgruvor för historieforskningen, men hittills har materialen använts var för sig. Nu pågår ett projekt som sammanför dem. Tack vare det kan forskarna undersöka informationsflödet och kulturutbytet mellan länderna på ett helt nytt sätt.

Projektet Informationsflöden över Östersjön. Den svenskspråkiga pressen som kulturförmedlare 1771–1918 utreder hur nyheter spreds geografiskt över Sverige och Finland och hur texter flöt genom tiden för att återanvändas långt efter att de ursprungligen publicerats. Under 1700- och 1800-talet fanns det ingen lagstiftning om upphovsrätt, vilket innebar att tidningarna fritt kunde kopiera varandras texter. Det gemensamma svenska språket gjorde det möjligt för dem att återanvända texter också kors och tvärs över Östersjön.

Unikt digitalt material

Projektledaren Hannu Salmi, som är kulturhistoriker och akademiprofessor vid Åbo universitet, berättar att idén till projektet föddes ur de möjligheter big data och de nya digitala metoderna inom den humanistiska forskningen ger.

– Det är möjligt att identifiera överlappningar i enorma datamaterial, det vill säga se om samma textsnutt har använts i olika tidningar och under olika tider, förklarar han. Så tanken föddes: tänk om det var möjligt att föra samman det finska och det svenska materialet för att se hur mycket överlappningar det finns i dem.

Det är första gången som tidningsmaterial från två länder sammanförs på det här sättet. Materialet består för Finlands del av de svenskspråkiga tidningarna och tidskrifterna i Nationalbibliotekets digitala tidningsarkiv och för Sveriges del av digitaliserade dagstidningar i Kungliga bibliotekets databas samt digitala tidningar och tidskrifter i Språkbanken. Sammanlagt är det fråga om tre miljoner tidningssidor från Finland och tre miljoner sidor från Sverige.

– Materialet från Finland är komplett. Varje nummer av alla svenskspråkiga tidningar och tidskrifter som utkom i Finland 1771–1918 är med. I Sverige är det digitaliserade materialet inte så heltäckande, eftersom det utkommit betydligt fler tidningar och tidskrifter där, men det är representativt. Hur som helst ger det svenskspråkiga pressmaterialet i Finland och Sverige en unik helhetsbild av hur informationen spreds.

Startåret 1771 kommer sig av att den första tidningen i Finland, Tidningar utgifne af et Sällskap i Åbo, började ges ut det året; i Sverige utkom den första tidningen redan på 1640-talet. Slutåret 1918 är det sista från vilket det finns fritt tillgängliga digitala tidningar i båda länderna. Detta med fri tillgänglighet är viktigt för projektet, eftersom den databas som projektet bygger upp ska öppnas för vem som helst att botanisera i redan hösten 2021. Projektforskarna hoppas att också andra forskare ska använda materialet.

Hannu Salmi. Foto: Hanna Oksanen/Åbo universitet

Superdator processar sex miljoner tidningssidor

Projektet startade i januari 2020 och i det första skedet sammanfördes de digitaliserade materialen från Sverige och Finland. På grund av coronapandemin fördröjdes arbetet, men i oktober var det klart.

– Det tog några veckor att ladda upp materialet, men nu är det här hos oss. Vi har fått materialet från Sverige och Finland till ett och samma ställe och kan nu börja bygga upp databasen.

Fysiskt finns materialet nu på en server hos CSC, som är de finländska universitetens gemensamma ITcentral. Där finns också de superdatorer som krävs för att forskarna ska kunna undersöka materialet.

– Vi har en helhet på cirka sex miljoner sidor, där varje sida ska speglas mot alla andra för att vi ska kunna se överlappningarna, och det förutsätter en superdator. Den här operationen tar också några veckor.

Programvaran som används är ursprungligen skapad för att identifiera dna- och proteinsekvenser. Datavetaren och forskaren Aleksi Vesanto vid Åbo universitet har modifierat programvaran så att den känner igen textsekvenser, och han förbehandlar och kodar dessutom materialet innan det processas.

Det är en ytterst sporrande utgångspunkt för forskning att få göra någonting som ingen annan gjort förut. -Hannu Salmi-

Nyhet om dansk bedragare vida spridd

När datakörningen identifierat texter som förekommer i flera olika tidningar bildas det kluster av alla förekomster av samma textstycke. De här klustren placeras i databasen och efter det kan materialet filtreras på olika sätt och analyseras.

– Vi gjorde en testdatabas och i den var den mest spridda nyheten en som handlande om en dansk bedragares undermedicin, som man gjorde reklam för mycket brett i den svenskspråkiga pressen i Finland och i Sverige. Också berättelsen om när han åkte fast i Malmö spreds i pressen.

Nyheten om den danske skojaren tangerar konsumtionskultur, ett av de teman som projektet ska undersöka närmare. Andra teman är teknologi, Sverige som förebild eller hotbild i Finland samt regionalitet, det vill säga om det finns regionala skillnader i hur information spreds och om här skedde förändringar under de 150 år som projektet undersöker.

Hannu Salmi är entusiastisk över att få fördjupa sig i textmassorna:

– Det är en ytterst sporrande utgångspunkt för forskning att få göra någonting som ingen annan gjort förut. Speciellt intressant blir projektet av att det under största delen av vår undersökningsperiod gick en riksgräns genom språkområdet och att censurförhållandena var olika på vardera sidan av gränsen.

Projektet är förlagt till Åbo universitet och samlar forskare från fyra universitet i Finland och Sverige: akademiprofessor Hannu Salmi (Åbo universitet, projektledare), FD Erik Edoff (Umeå universitet), docent Johan Jarlbrink (Umeå universitet), professor Patrik Lundell (Örebro universitet), FD Jani Marjanen (Helsingfors universitet), docent Petri Paju (Åbo universitet) och FD Heli Rantala (Åbo universitet).

Text: Nina Edgren-Henrichson