Hvor gemmer hverdagen sig? – Om Den Danske Ordbogs novemberopdatering, det upåfaldende hverdagssprog og gensynet med Sydeuropas sanitære installationer

Det smukke ved ord er deres evne til at aktivere erindringen og sende os på en fælles eller strengt personlig tidsrejse. Ord er så at sige æselører i vores mentale historiebog. ‘Huttelihut’ teleporterer os til d. 26. juni 1992. ‘Nedlukning’ aktiverer minder om den nære fortids udfordringer. På det personlige plan kan sætningen “vi er vokset fra hinanden” sende os tilbage til det øjeblik, hvor det stod klart at intet igen ville blive det samme.

Ovenstående kan forekomme højttravende, så lad mig give et mere prosaisk eksempel: pedallokum.

I mit daglige virke som redaktør ved Den Danske Ordbog har jeg bl.a. til opgave at udvælge kommende opslagsord. Det sker primært på baggrund af hvor mange gange et ord optræder i redaktionens såkaldte korpus. Det er en meget stor samling af tekster med mere end 1,1 mia. løbende ord, hvilket for god ordens skyld betyder ‘ord i alt’, ikke ‘forskellige ord’ (så mange er der trods alt næppe i sproget). Langt størstedelen af vores korpus, mere end 95%, består af tekster fra nyhedsmedier. Det giver nogle udfordringer i forhold til at bruge teksterne som eneste kilde til sandheden om sproget – mere om dette nedenfor. Udover korpus er forslag fra ordbogens brugere (bl.a. indsendt via ddo@dsl.dk) en god kilde til at opdage hidtil oversete ord og udtryk, der så holdes op imod antal gange ordet optræder i korpus, så vi kan sikre, at det har en vis udbredelse på tværs af årgange, medier mv.

I tilfældet pedallokum har vi imidlertid at gøre med et ord, der hverken optrådte på de udarbejdede frekvenslister eller på listen over forslag til opslagsord indberettet af brugerne. Faktisk må jeg påtage mig det fulde ansvar for at ordet nu er med i Den Danske Ordbog. Jeg håber, at ordbogens brugere i denne sag vil udvise overbærenhed og – i den bedste af alle tænkelige verdener – forståelse.

pedallokum
Pedallokum, opslag i Den Danske Ordbog.

Sagen er nemlig den, at mit gensyn med ordet pedallokum (som til mit forsvar fandt sted i føromtalte korpus) udløste netop én af de tidsrejser, jeg beskrev i indledningen. Destination: Venedig. Årstal: 1995. Anledning: Første længere udenlandsrejse med mine forældre. Uden at trætte læseren med for mange detaljer kan jeg blot konstatere, at man som nordeuropæer med hang til mere magelige toiletforhold aldrig glemmer sin første tur på hug.

Underholdningsværdien i mødet med det fremmedartede er fint indkapslet i det ene af de to teksteksempler, der ledsager den endelige udgave af opslagsordet i Den Danske Ordbog. Her lyder det (i et uddrag fra Helsingør Dagblad fra 2018):

“da vi så indretningen, vendte vi om på stedet, dybt chokerede over, at noget så primitivt fandtes i hjertet af Paris. Siden har jeg lært, at et pedallokum både er hygiejnisk og giver gæsten en bedre anatomisk position for opgaven”.

Da Den Danske Ordbog offentliggjorde en stor opdatering 3. november i år, var pedallokum blandt de nye ord. Ikke fordi det er nyt i sproget (redaktionen har fundet skriftlige belæg fra 1972), men fordi det indtil nu er fløjet under den leksikografiske radar og har undgået redaktørernes opmærksomhed. I dén forstand har det en del tilfælles med den kategori af ord, der fyldte meget i opdateringen, og som redaktionen denne gang lagde særlig vægt på i kontakten til forskellige nyhedsmedier og ved årets optræden på Bogforum i Bella Center.

Kategorien indeholder de helt almindelige og relativt upåfaldende hverdagsord. Dem, der undertiden udløser reaktionen: “Hvorfor kommer det først med nu?” hos journalisterne og ordbogens brugere. En del af svaret er, at vi her har at gøre med dagligdagens sprog som avisredaktionernes nyhedskriterier forhindrer i at nå frem til de mange journalistiske tekster, der udgør Den Danske Ordbogs korpus – ikke af ond vilje, men simpelthen fordi disse ord og dette sprog ikke i udgangspunktet er oplagt nyhedsstof. Som min kollega Kirsten Appel sagde, da hun blev bedt om at begrunde valget af sit personlige favoritord fra opdateringen, fnugrulle:

“Det er en god betegnelse for en praktisk genstand, mange af os allerede kender og har derhjemme. Fnugrullen er dejligt udramatisk. Ingen er blevet slået ihjel med en fnugrulle.”

Jeg deler hendes begejstring for det dagligdags – navnlig i ordbogsmæssig henseende. Tre måneder i træk toppede koranafbrænding den autogenererede liste over såkaldt ‘påfaldende ord’ i redaktionens korpus, dvs. ord der pludselig er voldsomt overrepræsenteret i forhold til tidligere. Vi lever imidlertid i en verden med langt flere fnugruller end koranafbrændinger, så som ordbogsredaktion har vi en vis forpligtelse til at udligne nyhedskorpussets skæve vægtning af sex, vold, sport og politik og finde tilbage til hverdagen.

ddo nov2023q
Et udvalg af de nye hverdagsord i Den Danske Ordbog.

Men hvordan gør man det? Hvordan finder man frem til ord som miljøskadelig, morgentrafik, musiksamling og målskive i en tekstsamling med over 1,1 mia. løbende ord?

Dette spørgsmål har ovennævnte Appel i samarbejde med et andet nyt medlem af redaktionen, Nathalie Hau Sørensen, og mangeårig medarbejder Nicolai Hartvig Sørensen fundet et muligt svar på, og det er i høj grad deres arbejde, udvælgelsen af nye opslagsord i den seneste opdatering af Den Danske Ordbog baserer sig på.

Kort sagt har de sorteret og vægtet indholdet i det eksisterende korpus på ny ved hjælp af en kombination af til formålet skræddersyede og allerede eksisterende modeller og algoritmer. Én sådan model er stavegenkenderen som sammenligner ordene i korpus med eksisterende ord i dansk, tysk og engelsk (sidstnævnte fordi indflydelsen fra de kanter er så udtalt at man ikke automatisk kan afvise at ord fra de to sprog vil være gode kandidater til Den Danske Ordbog). I bestræbelsen på at fjerne støj og uønskede indslag fra data sier en egennavnsgenkender navne på personer, organisationer mv. (herunder også forkortelser som FN og DSB) fra. Dertil kommer en parallelordsfinder, en sprogmodel, der finder frem til potentielle nye opslagsord, der optræder i samme semantiske kontekst, som allerede eksisterende opslagsord. Den har bl.a. gravet havesaks frem af korpussets dyb, fordi ordet semantisk minder om hæksaks, blomsterpind og tørresnor.

Her er det måske nødvendigt at foregribe eventuel undren hos læseren, for jeg forstår udmærket, hvis følgende spørgsmål melder sig:

  • Hvorfor skaffer redaktionen ikke bare et større og mere heterogent korpus, hvor hverdagssproget er repræsenteret på lige fod med nyhedssproget?
  • Jeg kender allerede ordet havesaks og kunne godt have fortalt redaktionen, hvad det betyder. Hvorfor er der brug for en computer til at finde noget så almindeligt? Og hvorfor skal det overhovedet i ordbogen?

Hvad korpus angår: Vi har forsøgt og forsøger fortsat at få adgang til flere forskellige teksttyper, men indtil videre har copyrightspørgsmål gjort det vanskeligt at få forlag og forfattere til at lade os bruge deres (skønlitterære) tekster til videnskabelige formål, og GDPR får os til at tøve med at høste nettekster i stort tal fra fx sociale medier. De månedlige forsendelser fra Infomedia (en meget omfattende database, der indsamler danske nyhedstekster fra et væld af medier, og som vi i øvrigt sætter stor pris på) er således vores bedste aktuelle mulighed for at skaffe store mængder data til tekstsamlingen. Forhåbentlig bringer den nære fremtid nye muligheder – der arbejdes i hvert fald på sagen, både fra ordbogens side og på politisk plan.

Vedrørende de almindelige ord og behovet for computerhjælp til at finde dem: Her er det vigtigt at understrege, at vi ikke bare vil finde 1, 10 eller 100 ord af denne type, men ideelt set tusindvis. Denne udvælgelse giver computeren os mulighed for at foretage på rekordtid.

Bemærk i øvrigt, at ordenes almindelighed ikke er et argument imod at optage dem i ordbogen – snarere tværtimod. Dels kan ordbogens brugere også have behov for at slå såkaldt almindelige ord op, ikke kun for at finde ud af, hvad de betyder, men for at finde oplysninger om bl.a. grammatisk køn, bøjning, udtale, sprogbrug og historie. Dels har ordbogen en forpligtelse til at dokumentere sprogbrugen, ikke mindst fordi måden, vi taler og skriver på i dag, kan have interesse for eftertiden. Vi ved fra ældre opslagsværker, bl.a. Den Danske Ordbogs forgænger, Ordbog over det danske Sprog, at dét samtiden opfatter som upåfaldende undertiden viser sig interessant på langt sigt.

Ord der tidligere har været neutrale (eksempelvis åndssvag eller psykopat, der oprindelig var fagtermer inden for psykiatrien) glider gradvis ind i almensproget og bliver nedsættende termer. Ord, der beskriver hverdagsgenstande eller -fænomener (telefongaffel, amtscentral, glødepære), står efter relativt få år tilbage som vidnesbyrd om en svunden tid. Samtidens debat sætter sine spor i ordbogen, for tiden i form af ord som woke, intersektionalitet og heteronormativ, men det er svært at sige, hvor længe de vil bevare deres aktuelle betydning, brugspotentiale og udbredelse.

Kort sagt: Den Danske Ordbog dokumenterer sprogbrugen og ordenes betydning her og nu, fordi det er svært at spå om deres fremtidige skæbne. Det gælder uanset, om de er fremmedord, låneord, fagbegreber, nye ord eller tilsyneladende upåfaldende hverdagsord. Derfor er det vigtigt også at have øje for hverdagen, når man gennemtrawler korpus på jagt efter kommende opslagsord – og dén opgave er blevet nemmere at løse takket være mine kollegers gode arbejde med algoritmer, sprogmodeller og store tekstmængder.

365photo Flowers leaves and bugs 23228617912
Vinterhårdfør.

I min udgangsbøn vil jeg trække på en anden kollega, Henrik Lorentzen, der i forbindelse med den nyligt overståede opdatering på forbilledlig vis illustrerede, at hverdagsordene ikke blot evner at aktivere erindringen, men også den poetiske åre. Hans favoritord var adjektivet vinterhårdfør, der beskriver planter, som kan klare en typisk dansk vinter i det fri uden at gå til i frosten. Henrik mente dog, at brugen passende kunne udvides til også at dække de kompetencer, vi som mennesker må besidde for at klare os igennem den mørke tid på vores breddegrader.

Jeg kunne ikke være mere enig, så med ønsket om ‘god vinterhårdførhed’ og en opfordring til fortsat at bruge sproget kreativt takker jeg for interessen for Den Danske Ordbog, og minder om at henvendelser vedrørende ordbogens indhold kan stiles til ddo@dsl.dk.

Coverfoto: En fnugrulle. Baruzza, CC BY-SA 4.0, via Wikimedia Commons.

 

Jonas Jensen blev enkeltfagskandidat fra Engelsk på KU i 2008 og har siden 2013 været ét kursus fra at have et fuldgyldigt sidefag i Dansk fra Åbent Universitet. Sprogdelen har han dog bestået, og det er ham en daglig hjælp i arbejdet med at udvide og ajourføre Den Danske Ordbog. Han har været ansat ved Det Danske Sprog- og Litteraturselskab siden november 2014.

En kommentar til “Hvor gemmer hverdagen sig? – Om Den Danske Ordbogs novemberopdatering, det upåfaldende hverdagssprog og gensynet med Sydeuropas sanitære installationer”

  1. Kære Jonas og kolleger,
    først tusinde tak for jeres værdifulde arbejde! Som underviser i dansk grammatik og ikke-modersmålstalende er jeg en yderst glad storforbruger af Den Danske Ordbog.
    Vedr. jeres korpus: jeg kan godt følge jer i, at det føles ikke helt korrekt at bruge data fra de sociale medier. Faktisk sidder vi lingvister, der arbejder med og underviser om sociale medier, med samme udfordring. Vi arbejder p.t. med følgende privatlivsrelaterede rettesnor: vi indsamler ikke data fra private personer og grupper (heller ikke, når profilerne er åbne). Men vi indsamler (og må gerne citere) data fra offentlige personer og institutioner. “Offentligt” defineres i denne sammenhæng med, at profilen efterstræber at udbrede kendskabet til personen eller institutionen bagved profilen. Vedr. personer er dette kendisser af forskellig type (kunstnere, politikere, aktvister, influencere, etc.) – alle dem, der er derude for at være … netop derude. Vi indsamler dog ikke kommentarer fra privatpersoner, der svarer på offentlige profilers opslag. Blot til orientering!

    Svar

Skriv en kommentar