Impact of the glottal signal on the prediction of speech

Danijela D. Protić

doi:10.5937/vojtehg63-6357

Danijela D. Protić Generalštab Vojske Srbije, Uprava za telekomunikacije i informatiiku (J-6), Centar za primenjenu matematiku i elektroniku, Beograd

DOI: https://doi.org/10.5937/vojtehg63-6357

Ključne reči: Linear models||, ||Linearni modeli, Prediction||, ||Predikcija, Glottal signal||, ||Glotalni signal, Feed-forward neural network||, ||Feed-forward neuronska mreža, Speech||, ||Govor,

Sažetak

U radu je prikazano nekoliko linearnih i nelinearnih tehnika za obradu govora, koje su zasnovane na AR, ARX, ARMAX modelima, WLS algoritmu i FNN. Detaljno je opisan uticaj glotalnog signala. GD, BPA i LM aproksimacija korišćene su za obučavanje i optimizaciju. Izvedena je komparativna, eksperimentalna analiza pet razmatranih modela koja je zasnovana na predikciji govornog signala. Rezultati obučavanja i testiranja predstavljeni su pomoću grešaka dobijenih u fazi učenja i treninga za svaki od modela.

Uvod

Kad nastaje govor, vazduh iz pluća, preko trahee, ulazi u grlo i pobuđuje glasne žice, koje menjaju njegov protok, pa novonastali signal prolazi kroz glotalni i vokalni trakt, gde oblik usne i nosne šupljine, jezika i zuba formira signal govora. Ukoliko su glasne žice razdvojene, vazduh prolazi između njih i nastaje šumolik signal male snage, a ukoliko su sastavljene, potisak iz pluća ih tera da kvaziperiodično vibriraju formirajući snažan signal, tj. vokal.

Najpoznatija tehnika za obradu govora je linearna predikcija (LP), koja koristi source-filter sistem za modelovanje sistema, koji podrazumeva da je pobuda locirana na glotisu, dok se linearan filter koristi za modelovanje frekvencijskih karakteristika vokalnog trakta. Takođe, koriste se AR, ARX i ARMAX modeli, čiji se parametri procenjuju na osnovu odbiraka govora (AR), glotalnog signala (X) i uticaja greške (MA). Iako se uglavnom podrazumeva da su podaci odziva takvi da imaju istu varijansu, ukoliko ova pretpostavka nije tačna koristi se weighted Least Squares (WLS) tehnika, kojom se procenjena greška koriguje težinskim faktorima.

Kada je narušena ulazno-izlazna dinamika sistema, odnosno kada sistem sadrži nelinearne komponente, koriste se nelinearni modeli kao što je višeslojni perceptron (MLP), koji omogućuju modelovanje po proceduri obučavanja koja je zasnovana na podešavanju sinaptičkih težina koje su organizovane po slojevima i međusobno povezane. MLP je Feed-Forward neuronska mreža (FNN), što znači da se mapiranje izvodi u smeru od ulaza ka izlazu. Parametri mreže podešavaju se propagacijom greške unazad (BPA) po principu pada gradijenta (GD).Za ubrzavanje ove procedure koristi se Levenberg-Marquardt (LM) koji omogućuje smanjenje broja operacija u podešavanju parametara mreže, direktnom procenom Hessianove matrice. Trening i test greške za sve modele korišćene su radi poređenja dobijenih rezultata.

Linearni i nelinearni parametarski modeli

Analiza i sinteza govornog signala često se izvode zajedno. Analitičkim procesom utvrđuju se karakteristike izvora signala, glotisa i vokalnog trakta. Sintezom se dobijaju signali koji mogu koristiti za prepoznavanje govora ili govornika, simulaciju ili otklanjanje pratećih, neželjenih efekata na sintetizovani signal. Analiza signala podrazumeva ili analizu fonetskih karakteristika ili analizu izgovorenog sadržaja, ali je nivo greške procene visok, a metodologija procene podrazumeva širok spektar modela sa velikim stepenom slobode. Kod analize signala uvek postoji problem nepoznavanja izvora pobudnog signala, glotalnog talasa i prenosne funkcije vokalnog trakta. Kod sinteze signala pobudni signal na ulazu u filter za sintezu može se podeliti na generator impulsa i generator šuma ili se može koristi pobudni signal dobijen LPC analizom govornog signala. Ova tehnika koristi se da bi bio obezbeđen visok kvalitet govora, uz pretpostavku da je odbirak govornog signala linearna kombinacija uzastopnih, prethodnih odbiraka. Formira se linearna kombinacija n prethodnih odbiraka, a optimizacija se vrši minimizacijom greške predikcije. Dobar LP model može biti jednostavan, a davati zadovoljavajuće rezultate i na taj način imati prednost nad složenim, nelinearnim modelima. Najčešće korišćen LP model kod predikcije govornog signala je AR model. Ukoliko je u procesuiranju govornog signala dostupan i glotalni signal, moguće je formirat ARX, a generalizacija ovog modela uključuje i propagaciju greške, pa se primenjuje ARMAX model.

Pored klasičnog LS modela koristi se Weighted Least Squares (WLS) algoritam kod kojeg težinski faktori utiču na poboljšanje greške predikcije. Na ovaj način, težinama se koriguje varijansa greške, čime se poboljšava procena parametara modela. WLS je efikasan metod koji je dobro koristiti na malom skupu podataka. U radu, WLS algoritam rešava probleme konvergencije i uniformnosti.

U radu je opisana neinvanzivna metoda za snimanje signala sa glotisa koja je poznata pod nazivom elektroglotografija (EGG). Osnova metode je ispitivanje vibracija glasnih žica, merenjem impendanse kroz vrat ispitanika. Elektrode se stavljaju spolja, na larings. Kada su glasne žice zatvorene struja iz elektroda može da prolazi kroz njih i impendansa je mala, dok je kod otvorenih glasnih žica impendansa viša. Promena impendanse ukazuje na promenu karakteristike glotisa.

Direktna opsetvacija ponašanja glotisa je teška, što je uticalo na pojavu različitih računarskih procedura koje estimiraju glotalnu pobudu na osnovu izmerenog govornog signala. Jedan od najpoznatijih modela – Štrubeov model prikazan je u tekstu. Međutim, u proceni navedenih modela, glotalni signal je bio dostupan, pa je ova relacija navedena zbog primera. U radu je glotalni signal koršćen kao X deo kod procenjenig ARX i ARMAX modela, kao i za obučavanje FNN.

Nelinearni sistemi mogu se modelovati dinamičkom, nelinearnom, parametarskom prenosnom funkcijom. Po literaturi, FNN sa jednim skrivenim slojem i sigmoidalnim prenosnim funkcijama može generisati rešenja kompleksnih problema kao što su klasigikacija, prepoznavanje oblika i slično, ukoliko je izbor težina, dimenzija i pravila obučavanja adekvatan. Problem kod obučavanja neuronske mreže može se posmatrati kao optimizaciona funkcija, pri kojoj težine moraju da budu diferencijabilne. Greška se računa za svaku težinu i sve slojeve ponaosob, a zatim se njihove vrednosti menjaju propagacijom unazad. Za minimizaciju greške predikcije koristi se LM algoritam. U osnovi, LM algoritam je numeričko rešenje problema nelinearne funkcije, po vektoru parametara. Algoritam koristi dumping faktor kojim se LM približava Gauss-Newton-ovom (GN) algoritmu za veliki korak greške, odnosno GD za manje vrednosti greške. Vrednost Hessianove matrice računa se iterativno, kao i vrednost inverzne Hessianove matrice.

Podešavanje parametara izvodi se u pet koraka: propagacija ulaznog signala ka izlazu, generisanje izlaznog signala na osnovu strukture mreže, proračun težinskih matrica, određivanje stanja za svaki čvor ponaosob i podešavanje vektora težina unazad. Nakon što je UI mapiranje mreže završeno, može se koristit pruning, tehnika kojom se odbacuje višak parametara modela.

Rezultati

U eksperimentima je za obučavanje AR, ARX i ARMAX modela, WLS i FNN korišćeno 600 odbiraka ženskog fonema 'a'. Broj parametara primenjenih modela bio je: AR (n_a=25), ARX (n_a=14, n_b=4), ARMAX (n_a=14, n_b=4, n_c=1). Visoki red AR modela primenjen je da se proveri da li ima potrebe za uvođenjem glotalnog signala kod linearnog modelovanja. Kod nelinearnih modela korišćeni su isti redovi modela kao i za linearne modele, a broj ulaznih podataka odgovarao je broju ulaza u linearne modele. Prikazane su greške obučavanja i testiranja, koje ukazuju na činjenicu da slične rezultate daju AR i ARX modeli, WLS i ARMAX modeli, dok je greška na FNN znatno manja od ostalih grešaka, što je posebno primetno kod test skupa.

Zaključak

Rad predstavlja uticaj glotalnog signala na predikciju govora koja je bazirana na linearnim i nelinearnim modelima. AR, ARX i ARMAX modeli, WLS algoritam i FNN korišćeni su u predikciji. Modeli su obučavani na vokalu ‘a’ koji je izgovorila žena tokom normalne fonacije. Za obučavanje BPA je korišćen za podešavanje parametara modela. Promena parametara izvedena je propagacijom po pravcu negativnog gradijenta, za minimizaciju funkcije greške. LM algoritam, koji je korišćen da ubrza i olakša izračunavanje Hesianove matrice, pokazao je značajne prednosti nad GD algoritmom. LM kombinuje minimizaciju po pravcu negativnog gradijenta i Njutnov metod.

Komparativna analiza koja je zasnovana na trening i test greškama pokazuje da AR model sa velikim brojem parametara i WLS algoritam, koji su bazirani isključivo na govoru, daju veću grešku ukoliko se uporede sa ARX i ARMAX modelima, kod kojh glotalni signal utiče na predikciju. Trening greške pokazuje da je uticaj glotalnog signala veći u fazi otvorenog glotisa. ARX modeli i WLS poboljšavaju predikciju i znatno redukuju grešku. Rezultati, takođe, ukazuju na veću tačnost, odnosno minimum greške za FNN. FNN sa jednim skrivenim slojem i tanh aktivacionim funkcijama svih neurona pokazuje da njeno ulazno-izlazno preslikavanje može preciznije da prediktuje govorni signal od svih drugih modela.

Na osnovu svega što je ranije izneseno, može se zaključiti da, ukoliko je glotalni signal dostupan, FNN treba koristiti kad god je to moguće, zbog preciznosti procena, iako je osetljivost modela povećana, a vreme obučavanja traje duže. Ipak, ukoliko to nije slučaj, AR modeli visokog reda mogu biti zamena za ARX ili ARMAX modele. Obučavanje WLS pokazuje malu trening grešku. Međutim, kod testiranja greška izuzetno raste, pa modele zasnovane na WLS ne bi trebalo koristiti u ove svrhe.

Uticaj glotalnog signala na predikciju govora

Sažetak

Vojnotehnički glasnik omogućava otvoreni pristup i, u skladu sa preporukom CEON-a, primenjuje Creative Commons odredbe o autorskim pravima:

Autori koji objavljuju u Vojnotehničkom glasniku pristaju na sledeće uslove: