Til projektoversigt

Carlsbergfondet lader det danske sprog komme til orde

Historisk forskningsprojekt

Foto: Jens Astrup, Scanpix

Det Danske Sprog- og Litteraturselskab (DSL) har i over 100 år arbejdet for at formidle det danske sprog med afsæt i videnskaben. Carlsbergfondet var med lige fra begyndelsen, da arbejdet med Ordbog over det danske Sprog (ODS) blev sat i gang efter Selskabets grundlæggelse i 1911. Mange flere ord- og opslagsbøger er siden kommet til, og nye teknologier har for alvor sat fart i udbredelsen af ordbøgerne. Men hvordan rammer man bedst læsernes ønsker i dagens teknologiske landskab?

Fra papir til digitale medier

Den teknologiske udvikling og overgangen fra papir til digitale medier har ændret mulighederne for at udgive ordbøger og opslagsværker fundamentalt. DSL har i den forbindelse startet ordnet.dk; en hjemmeside, der giver adgang til digitale udgaver af ODS, og Den Danske Ordbog (DDO) og KorpusDK. Ordbøgerne kan også findes på mobilen via diverse tilknyttede apps.

For DSL var den første store udfordring i omlægningen at digitalisere det ældre værk ODS. De fik hjælp udefra og fandt ind i et frugtbart samarbejde med Universität Trier. Manuskriptet blev dobbeltindtastet og efterfølgende rettet til, dér hvor de to versioner afveg fra hinanden. Sådan blev samtlige af de typografiske informationer sikret og bevaret fra originalteksten. Det gjaldt også specielle træk som spærret skrift, ODS’ specielle lydskrift og en lang række andre specialtegn og symboler, som OCR-programmerne havde svært ved at håndtere. Dobbeltindtastningen gav desuden en nøjagtighed, stikprøver anslår den til 99,999 %, der overflødiggjorde efterfølgende manuel korrektur og gjorde modellen økonomisk konkurrencedygtig.

Den vigtigste redaktionelle opgave bestod i at konvertere teksten til et databaseformat efter leksikografisk indhold, så forudsætningen for både søgemuligheder og den visuelle præsentation for brugerne blev sikret. En anden opgave bestod – og består fortsat – i at knytte grundmanuskriptets oplysninger sammen med de 5 supplementsbinds tillægsoplysninger.

Plads til alle ord

Onlineordbøgerne kommer i dag mange flere til gavn end papirordbøgerne. Mens DDO og ODS tilsammen er solgt i 15.000 trykte eksemplarer, har ordnet.dk på en almindelig hverdag over 95.000 besøgende. Det gør siden til en af danskernes foretrukne kilder til sproglig førstehjælp samt en af de største kulturhjemmesider i Danmark.

Besøgstal fra november 2009 til marts 2015 viser en stærkt stigende tendens på ordnet.dk, med dyk i trafikken når danskerne holder fri i weekender og ferier. På de travleste dage er der over 100.000 besøg.


En anden stor fordel ved net-udgaven er, at der er plads til alle ord. DDO opdateres løbende online med nye ord, udtryk og betydninger. Til forskel for den trykte udgave, er hovedopgaven med ordnet.dk derfor mere, hvilke ord, der skal prioriteres, redigeres og føjes til.

Skræddersyede resultater

Redaktionen anvender forskellige metoder til dette.

For det første benyttes logfiler for at få oplysninger om brugernes søgeadfærd og navigation på siden. Her har det f.eks. vist sig, at brugerne søger efter alle DDO’s artikler og stort set alle ord. Faktisk resulterer 9 ud af 10 søgninger i et match mellem det skrevne søgeord og en post i databasen. Selvom det næppe er muligt at nå 100 % – alene fordi der optræder uforudsigelige slåfejl – kan succesraten forbedres. Løsningen kan være at tilføje et stort antal opslagsord til ordbogen. En fordobling af ordforrådet, svarende til ODS’ 225.000 opslagsord vil bringe succesraten et godt stykke nærmere de 100 %.

En anden kilde til nye ord er korpustekster. DDO’s beskrivelse af former, betydninger og grammatiske oplysninger bygger på forekomster i almindeligt sprogbrug. Til det formål indsamles løbende nye tekster til korpusset. I marts 2015 omfatter det ca. 500 mio. ord.

Ved at sammenholde disse nyere tekster med et ”referencekorpus”, et korpus der indeholder tekster fra alle årene, kan man afsløre sproglige mønstre i de nyeste tekster.


 

Det kan være ord, der er nye i sproget (smartur, selfie, akutjob), nye sammenstillinger af eksisterende ord (fx socialt medie, hæve/sænke barren, biologisk pas) eller eksisterende ord, der optræder i en ny sammenhæng (trojaner, orm og brødkrumme i forbindelse med it-tekster eller spin i forbindelse med politiske tekster).

Endeligt inddrages brugerne også aktivt, da de opfordres til at foreslå nye opslagsord. Nye ord som bitcoin, supercykelsti, palæokost og ultrabook føjes jævnlig til Den Danske Ordbog, der opdateres ca. 4 gange årlig.

Forskningsmiljø med enestående internationalt perspektiv

Bag ordnet.dk står et lille, men dynamisk forskningsmiljø. Redaktionen har i flere afledte projekter udforsket mulighederne for at udnytte ordbogs- og korpusdata i en sprogteknologisk sammenhæng. I samarbejde med Center for Sprogteknologi, Københavns Universitet, har det ført til udviklingen af et dansk leksikalsk-semantisk netværk, DanNet, som er opbygget efter principperne bag de tilsvarende internationale Princeton WordNet og EuroWordNet.

At ordbogs- og korpusressourcer er samlet ét sted, og at ord og betydninger er indbyrdes forbundne, er temmelig enestående, også i internationalt perspektiv. Kombinationen af et stort, centralt flagskib som ordnet.dk med mindre, afledte projekter giver den udbytterige blanding af stabilitet og idérigdom, som er så afgørende for et godt forskningsklima.

Sven-Göran Malmgren og Emma Sköldberg fra Göteborgs Universitet har bl.a. i 2013 udtalt følgende om Ordnet.dk i International Journal of Lexicography:

"However, the most impressive Scandinavian dictionary website at the moment is no doubt the Danish Ordnet.dk, giving access to electronic versions of DDO and ODS (… )This admirable dictionary site is free of charge; one can only hope that it will inspire work on dictionary sites in the rest of Scandinavia."

Det seneste eksempel på et afledt projekt er det FKK-støttede “Semantic Processing across Domains”, gennemført i samarbejde med Center for Sprogteknologi, Københavns Universitet. Her eksperimenteres med automatisk betydningsannotering på grundlag af DSL’s korpus- og ordbogsressourcer i et forsøg på at betydningsadskille ord i løbende tekst og muliggøre mere intelligente søgninger. Om målet kan nås, er endnu for tidligt at sige, men uanset udfaldet er både kerneprodukt og den mere innovative tilgang vigtige for fortsat at kunne hylde sproget i videnskabens tegn.