Hvordan man knækker koden for det talte sprog

Det er måske nok en gentagelse af tidligere brok, men jeg begriber ikke at det går så langsomt med at lave ordentlige digitale stemmer til oplæsning og hvorfor der endnu ikke er bedre oversættere.

Jeg ved godt det er et komplekst område, men sagen er også at de få virksomheder der arbejder indenfor genkendelse af talte ord, tale til computer systemer, og de der arbejder med oversættelser, og de der arbejder med ordbøger og korrekt grammatik, og de der arbejder med oplæsning. De virksomheder er meget lukkede omkring deres tilgang.

Og på det seneste er det kommet frem at TV og telefon virksomheder og de apparater som der nu kan købes som “assistenter” som amazon echo, gerne optager alt hvad der sker i hjemmet og sender det tilbage til virksomhederne. Det virker derfor som om den rigtige vej er at gå væk fra den tilgang der sender sender ord til “skyen”, det må istedet kunne løses lokalt: off the grid.

Den videnskabelige tilgang må handle om at bygge en stemmeanalysemaskine – i første omgang uden sammenhæng til noget sprog. Altså alle de fonetiske elementer som kommer ud fra den talte menneskestemme i dens mange varianter. Så kan der udbygges med sang og råb til sagte nynnen, til hele molevitten af dyr og babylyde.

Det talte sprog er opbygget af en bunke lyde, læs mere om fonetik her og en computer skal kunne reproducere alle disse elementer til lydskrift “lydsprog” på samme måde som en videnskabelig tilgang. Men der findes ikke endnu en universel standard der kan tage alle talte sprog og dialekter. Ikke at det ikke er forsøgt, men det er vanskeligt. Og det der gør det særligt vanskeligt er når en del af den viden der er på området holdes strengt privat i lommen hos Adobe, Apple og Microsoft, og Samsung og Google. Mens de største hemmeligheder er hos verdens efterretningstjenester som NSA, der ikke vil fortælle hvor langt de er med genkendelses teknologi.

Med en universel lydskrift, er kun en del af analysen mulig, fordi en videnskabelig tilgang til det talte ord vil desuden bemærke at der er tydelig forskel på f.eks. alder af den der taler, og der er tydelig forskel på køn, og der kan høres nuancer i forhold til humør eller sygdom eller om man er træt eller bange osv.. Det er her forudsat at man taler sit modersmål, men både lokale dialekter og accent kan også høres.

Det talte rummer også en rytmik og en melodi der understøtter dels den betydning som vedkommende der taler vil havde frem, og dels mere eller mindre bevidst den følelse som personen er i. Eller hvis det er en skuespiller den følelse som der skal formidles sammen med ordene. Det er altså et ret komplekst lag af der kan ligges ovenpå den første analyse. Og i mange sammenhænge kan analysen foretages adskilt, både i selve fonetikken og i betoninger osv. er der universelle elementer som ikke er afhængige af hinanden.

Ny app vil løse transcribtopgaver.

Når disse analyser er foretaget, så kan man genkende hvilket sprog der tales, og ca. alder og køn på den der taler, samt få en ide om vedkommende der taler f.eks. er glad. Det er endnu før at vi rent faktisk har forstået hvad der blev sagt.

Men ved at spore os ind på hvor vi er og hvem der taler, kan computeren nu fortsætte analysen af det talte til at reproducerer det:
– dels som oplæst, ved at bruge den lydskrift der er produceret, kan det gentages. Og det at ændre en lydfil til en matematisk formel vil fylde relativt mindre, også selv om alle ting som egentlig henføres under rytme tone og melodi mm. tages med.
– dels som skrevne ord, hvis der er tale om et sprog der også har et skriftsprog.
– dels som “betydning sprog”…

Og det er også et element der mangler at komme en samlet videnskabelig tilgang til, altså hvad er det der menes med det der siges eller skrives. Det er der er arbejdet med i årtusinder, så det er ikke et nemt område. Men skal det lykkedes at få et computerprogram til “at forstå” hvad der siges er det nødvendigt at gå utroligt systematisk til værks og kunne oversætte det talte til et betydningssprog, der er computerens “Esperanto” altså et kunstigt sprog der gør et computerprogram istand til at forbinde alle talte sprog til én database. Det er f.eks. navne og ting der giver problemer, fordi der i det talte sprog kan være ganske store forskelle på udtale, også selvom navne staves ens og der meget ofte bruge omskrivninger, kælenavne, eller unøjagtige beskrivelser fordi der traditionelt ikke bruges en fuld komplet beskrivelse i det talte sprog, der forudsættes en bunke viden. De tilgange med maskiner der gentager og spørger ind til ting der er uklare, og som oplæres konkret, vil derfor være en de bedste i praksis.

Det er af flere omgange blevet forsøgt og det ender altid med at tage udgangspunkt i de fem-seks største sprog, og så går der kuk i alle detaljerne, fordi dem der har en økonomisk interesse synes det burde fokuserer på at forstå virksomhedsjura, eller lignende og de glemmer helt hvad sådan et projekt egentligt burde have for ambitioner.

Det er heller ikke fornuftigt at starte uden at have i baghovedet at det skal kunne bruges til at formidle spørgsmål indenfor alle samfundslivets kringelkroge, så matematik og landbrug og alt muligt, fag- og skønlitteratur, rim og remser. Det vil på et tidspunkt blive opløst og kategoriseret. Det nytter bare ikke at starte med det, det handler om at sprog og formidling er en organisk og derfor skal selve det program der skrives – også være et der har indbygget at ting kan skifte betydning eller have mange betydninger. Mens forståelsen af Jura, ofte har som ambition at være entydigt. I virkeligheden er sproget organisk og udvikler sig hele tiden, sammen det underforstået lag af samfundsstruktur og klasser med generationers traditioner og kultur og teknisk udvikling.

Det er muligt at det først vil blive muligt at bygge den slags om 20 år når videnskaben er nået til at hjernen og resten af menneskekroppen er opmålt, og hjemmecomputeren igen er kommet til hæder og værdighed, men det der bremser arbejdet lige nu er kommercielle interesser.

Opdatering:

https://www.wired.com/2017/05/surprising-repercussions-making-ai-assistants-sound-human/

http://videnskab.dk/kultur-samfund/ugens-podcast-vores-dialekter-sladrer-om-samfundet

Se også denne opdatering af nogle af nyere programmer og AI i det hele taget:

Advertisements

Om hubertnaur

Særlig interesse i fri og åben adgang til viden
Dette indlæg blev udgivet i AI kunstig inteligens, Videnskab og metode. Bogmærk permalinket.

Skriv et svar

Udfyld dine oplysninger nedenfor eller klik på et ikon for at logge ind:

WordPress.com Logo

Du kommenterer med din WordPress.com konto. Log Out / Skift )

Twitter picture

Du kommenterer med din Twitter konto. Log Out / Skift )

Facebook photo

Du kommenterer med din Facebook konto. Log Out / Skift )

Google+ photo

Du kommenterer med din Google+ konto. Log Out / Skift )

Connecting to %s