En röststyrd värld
Ljudböcker, poddar, AI-assistenter. Rösterna vi lyssnar på upptar en allt större del av våra liv. Vad är det som gör att vissa röster väcker värme och trygghet – medan andra skapar ilska?
// Illustration: Hanna Johansson
Lyssna på artikeln
Ljudböcker, poddar, AI-assistenter. Rösterna vi lyssnar på upptar en allt större del av våra liv. Vad är det som gör att vissa röster väcker värme och trygghet – medan andra skapar ilska?
Den som vill slippa undan får hålla hårt för öronen. Länge har våra trumhinnor bombarderats med röster från modernitetens apparater men aldrig har kören varit så intensiv som nu. En färsk marknadsrapport berättar att annonsinvesteringarna för den röstbaserade medieform som kallas poddar beräknas nå en halv miljard kronor 2026. Och hör detta utrop från bokbranschen:
Under 2024 ökade antalet strömningar av ljud- och e-böcker till 45,7 miljoner. För att inte tala om de syntetiska AI-rösternas kommersiella betydelse.
Men vad är en gångbar röst i den nya röstekonomin? Och: vad är det i en röst som väcker vår tillit, kanske till och med låter oss gripas?
– Jamen, tjenare Pontus! Det är alltid roligt att prata röst.
Johan Lindquists röst låter trygg och jämn när han svarar i telefon. Så har han också sin bakgrund i den mest munviga grenen av radiogenren: den kommersiella, där han både startat och programledarpratat på Radio Match i Jönköping och Borås.
Jag har kontaktat honom för att han är grundare av en så kallad röstförmedling, som förser företag och myndigheter med röster för olika syften. Hans ”stall” av mänskliga röster är enormt, och fördelat på hisnande många språkområden och dialekter.
– Ungefär en fjärdedel av rösterna du hör i vardagen i kommersiella och andra inspelade sammanhang har vi förmedlat. Oavsett om du står i en hiss och trycker på en knapp som säger vilken våning du befinner dig på eller lyssnar på ett reklamavbrott eller hör en berättarröst till en naturfilm. Vi får in otroligt många ansökningar, från människor som fått höra: Du har ju en sådan bra röst, du borde testa att läsa in en ljudbok. Men vi brukar säga: Okej, det finns inga dåliga röster, utan det handlar om vad du kan göra med din röst.
Vad betyder det?
– Att kunna var så omfångsrik som möjligt. Kunna låta glad, ledsen, arg, instruerande, svävandes på moln – och kunna ta regi! Det kräver ett rätt gott musiköra, man måste vara musikalisk för att bli en bra röstskådespelare. Plus att man måste kunna läsa väldigt bra. En professionell ljudboksinläsare ligger en till en och en halv mening före det som den faktiskt säger, för att kunna se hur meningen slutar och anpassa efter det, och också veta hur nästa ska börja.
Och vad är en säljande reklamröst?
– Det där har ändrats med tiden. När vi började för tjugo år sedan gällde fortfarande en mörk och tung vad vi kallar filmtrailerröst.
Lite mullrande?
– Ja, ju djupare, desto bättre! Det var nästan alltid äldre män som skulle läsa in, med kraftig pondus och ett ganska forcerat röstläge. Ett tag skulle det istället vara en konverserande röst, det skulle låta som att man pratade med någon man satt och fikade med. Och det var en utmaning, för ofta var materialet samtidigt väldigt säljande: ”kom och köp” liksom, och att läsa det som att man sitter och snackar med en kompis blev jobbigt att få att låta naturligt.
Han berättar att det där ”opolerade” blivit än mer eftersträvansvärt.
– Om du lyssnar på hur det låter i sociala medier exempelvis, när en influerare just testat en sak och tycker att allt är jättebra, då ska det verkligen inte låta som en professionell röst längre. Och det där är en svår balansgång, för samtidigt som man vill att det ska låta genuint så är det väldigt svårt att få fram ett budskap utan att det låter övertydligt.
Samtidigt händer jättemycket nu, när det gäller röster och AI, det finns ju till och med verktyg där man kan designa en egen syntetisk röst.
– Ja, det har gått rasande fort. Idag kan du skicka in din röst till en app och skriva in vad ”du” ska säga och efter kanske tjugo sekunder så låter det ganska bra. Från att tidigare ha behövt läsa in 6 000–10 000 meningar för att kunna göra en bra AI, räcker det att leverera ett mycket kort röstprov. Idag har man nått någonstans mellan 91 och 95 procent i likhet mot en riktig röst.
Vad händer i hjärnan hos en person som lyssnar på mig?
Det låter ju väldigt högt.
– Ja, men det är de där sista procenten upp mot hundra som är de riktigt svåra.
Varför då?
– Därför att vår hörsel är ett så otroligt finstämt instrument
Och låter rösten ”falsk” uppfattar vi det genast.
– Ja. Vi kan ju känna igen en röst bland miljoner andra, en som vi kanske inte har hört på tjugo, trettio år, säger Johan Lindquist.
Dags att packa jobbväskan och bege sig ut till laboratoriekvarteren vid Stockholms universitet, där det pågår försök att förklara och kartlägga sådana här saker.
Gláucia Laís Salomão är röstforskare och doktor i lingvistik. Hon är också musiker, och om det är någon som kan förklara varför en röst fångar vår uppmärksamhet är det hon.
– Jag har alltid varit intresserad av ljud, rösten som en spegel av vad det är vi vill uttrycka, säger hon.
– Inom lingvistiken är det ofta fokus på den språkliga betydelsen i det som sägs, men jag vill se paralingvistiskt på det hela, alltså: vad händer i en röst, när man uttrycker en känsla? I ljudet, rösten som vi kommunicerar med andra, måste det ju logiskt sett finnas en känslomässig, ickeverbal information.
Det är detta som är utgångspunkten för hennes forskningsprojekt vid Stockholm University Brain Imaging Centre.
– Sedan följde den här idén, att inte bara beskriva röst som en vågform, akustiskt, utan också undersöka vad som händer här, säger hon och pekar på sitt huvud. Vad händer i hjärnan när jag producerar det här ljudet, kanske bara ett kort utrop? Och vad händer i hjärnan hos en person som lyssnar på mig?
Men varför kartlägga något sådant här?
– Människor behöver i vissa lägen verkligen förstå varandra, annars skulle vi inte ha överlevt som art.
Och då räcker inte orden?
– Nej, då räcker inte orden. Rösten är en akustisk manifestation av en mycket komplex process i hjärnan. Så att bara i våglängder beskriva ljudet av en emotionellt laddad röst, skulle inte vara tillräckligt för mig att förstå vad det är som sker.

Bakom glasrutan i laboratoriets kontrollrum vilar en stor hjärnskanner.
– I mitt experiment undersöker jag hur personerna som deltar reagerar på fyra olika känslor som jag spelar upp för dem i korta röstklipp: ilska, äckel, lättnad och förundran. Och jag har redan fått in flera intressanta resultat.
I försöksrummet finns också receptorer som fästs vid personens handflata för att mäta utsöndring av svett, och en kamera som registrerar förändringar i ögats pupiller.
Det Gláucia Laís Salomão hittills har kunnat visa är bland annat att liknande områden i hjärnan på en som uttrycker en känsla, kan aktiveras också hos mottagaren. En bokstavlig bild av medkänsla alltså. Och lite mer neurologiskt mystiskt: att känslan inte ens behöver verbaliseras, utan bara ”tänkas” för att samma område i hjärnan ska aktiveras, som om man ropat ut den via sin röst.
– Jag ser också i experimentet att samma röst, till exempel ett skrik, kan trigga olika känslor hos olika personer, beroende på ens bakgrundshistoria.
Aha! Jag minns att när mina döttrar var små reagerade jag direkt på barnskrik, men om jag går på stan nu och det är någon bebis som försöker hyssjas av sin förälder så reagerar jag inte, eller så blir jag nostalgisk och undrar vart den där fantastiska tiden tog vägen.
– Exakt! När jag var gravid började jag nästan gråta när jag hörde en barnröst.
Och det rent fysiska, som bildar känslan i en röst? Där har hon förstås full koll på vad som sker med våra stämband och vår andning när en känsla får röst. Men också på variablerna som skapar den.
– Där finns alla dessa akustiska parametrar: Variation av tonhöjd, intensitet, det man kallar timbre och duration. De kan kombineras på olika sätt för att uttrycka olika känslor och attityder i det vi talar eller sjunger, säger Gláucia Laís Salomão.

Jag säger till henne att jag tänkte att vi skulle göra ett experiment, och plockar fram en trådlös högtalare ur väskan och min mobil. Jag har med mig några röster som är väldigt framgångsrika, och säger att hon kanske kan förklara hemligheten i dem.
Hon harklar sig och jag spelar upp en dikt av Bruno K. Öijer, poeten som drog fulla hus under sin senaste uppläsningsturné och är känd för sin speciella intonation. ”En gång blommade trädeeet”, läser han på inspelningen. ”En gång tindrade grenarnaaa” … En gååång levde duuu, och bar ett naaamn.”
Vad är det som händer här och varför gillar man det?
– Att han gör vokalerna längre, skapar en röst som är mjuk, man hör lite luft också, en utandning som inte är röst, det bidrar också till mjukheten. Och den speciella rytmen i det han läser, kan skapa en viss förväntan på vad som ska komma i nästa strof, jag vill veta vad som ska hända!
Och så spelar jag upp ljudet från ett SVT-klipp med en mediepersonlighet och författare som väldigt många gärna lyssnar på, trots att han, ja, kanske inte har de klassiska röstkvaliteterna. I klippet pratar han, alltså Leif G W Persson, om mördare som han mött genom åren.
– Är det han som är expert på kriminalitet? Jag hade på känn att du skulle ta upp honom!
Någon som verkligen vet vad han talar om, och inte är rädd för att säga det han vet.
Gláucia tystnar en lång stund. Säger sedan:
– Den här luften som vi andas ut när vi pratar, den kommer hos honom i kortare andetag, nästan som att han ibland inte skulle orka ta sig till slutet av meningen.
Men det borde ju framkalla stress hos mig, ändå lyssnar man ivrigt.
– Det här är intressant! Visst, det kan framkalla stress hos mottagaren, och det kan till och med hända att man plötsligt själv omedvetet börja andas kort, precis som han, medan man lyssnar på honom. Att han ändå är så populär skulle jag gissa beror på att han är alltigenom autentisk, helt sig själv, även i sitt sätt att prata, och det har blivit en del av hans identitet.
– Vi lyssnare känner snabbt igen hans säregna röst och kan förknippa hans ”trötthet” med ett långsamt, genomtänkt sätt att prata, som hos någon som verkligen vet vad han talar om, och inte är rädd för att säga det han vet.
Han är orädd och det hörs?
– Ja.
Vem har din egen favoritröst?
– Jag älskar Nina Simones.
Bland sina sparade pedagogiska röstexempel som hon visar mig på sin dator spelar hon upp en låt på portugisiska.
– Det är João Gilberto, är en bossanovakille som jag gillar, jag valde den för att hans sång ligger så nära talet.
Hon börjar nynna med i låten och sjunger raden ”Eu possuo apenas o que Deus me deu”. Strofen betyder, ser jag senare när jag hemkommen kör den genom Google translate, ”Jag äger bara det som Gud gav mig”. Och plötsligt känner jag mig nöjd med betyget jag fick av röstförmedlaren Johan Lindquist när jag apropå tricket att använda dialekter i reklam, frågade om jag verkligen skulle kunna casha in på min skorrande småländska. Och han sa att jag skulle bli en mycket bra röstambassadör för att ”sälja blommor, ja, något lantligt!”.
Ur Tidningen Vi #7 2025.
Läs fler texter av Pontus Dahlman:
Här ligger en hund begraven. Till en kostnad av 14 000 kronor

