Uporedna analiza fonema srpskog jezika: linearni i nelinearni modeli

  • Danijela D. Protić Generalštab Vojske Srbije, Uprava za Telekomunikacije i informatiku (J-6), Centar za primenjenu matematiku i elektroniku, Beograd
Ključne reči: AR model||, ||AR model, Neural networks||, ||neuronske mreže, Speech||, ||govor,

Sažetak


U radu je prikazana analiza karakteristika vokala i nevokala srpskog jezika. Vokale karakteriše kvaziperiodičnost i spektar snage signala sa dobro uočljivim formantima. Nevokale karakteriše kratkotrajna kvaziperiodičnost i mala snaga pobudnog signala. Vokali i nevokali modelovani su linearnim AR modelima i odgovarajućim nelinearnim modelima koji su generisani kao feed-forward neuronska mreža sa jednim skrivenim slojem. U procesu modelovanja korišćena je minimizacija srednje kvadratne greške sa propagacijom unazad, a kriterijum izbora optimalnog modela jeste zaustavljanje obučavanja, kada normalizovana srednja kvadratna test greška ili finalna greška predikcije dostignu minimalnu vrednost. LM metod korišćen je za proračun inverzne Hessianove matrice, a za pruning je upotrebljen Optimal Brain Surgeon. Prikazana su generalizaciona svojstva signala u vremenskom i frekvencijskom domenu, a kroskorelacionom analizom utvrđen je odnos signala na izlazima neurona skrivenog sloja.

Uvod

Unazad nekoliko godina NN su primenjivane u procesima obrade podataka, pa samim tim i govornog signala. Značajan napredak u ovoj oblasti kreće se u pravcu ubrzanja konvergencije algoritama obučavanja. Pored izbora strukture NN, izbor prenosnih funkcija takođe je veoma bitan. Nadzirano obučavanje sa ulaznim podacima i predefinisanim izlazom zahtevaju korišćenje funkcije gubitaka ili greške za utvrđivanje odstupanja očekivane, prediktovane vrednosti od tačnih vrednosti podataka. Od mnogo primenjenih algoritama u radu je korišćen BPA, koji je istovremeno i najrasprostranjeniji algoritam obučavanja u ovoj oblasti. Analizirani su vokali i nevokali koje su izgovarali i muškarci i žene, u kontekstu reči ili izolovano. BPA je korišćen uz standardni gradijentni metod, koji je prilagođen LM metodom. U radu je korišćen OBS za pruning. Kriterijum zaustavljanja pruninga su minimizacija NSSETEST i FPE.

Prikazane su vrednosti dobijenih grešaka za vokale i nevokale, pojačanja FPE, kao i rezultati kroskorelacione analize signala na izlazima neurona skrivenog sloja FNN.

Modeli

Ukoliko je u obradi govora dostupan samo govorni signal koriste se AR modeli sa dva pola na približno (2n+1)*500Hz, n = 0, 1,... Ukoliko je na raspolaganju i signal sa glotisa koriste se ARX linearni modeli sa dodatnim ulazom. Uz to, pokretna srednja vrednost greške koristi se u ARMA(X) modelima, kada je dostupna korekcija greške. Međutim, tada postoji problem nestabilnosti u procesu obučavanja ukoliko je vrednost greške velika, što može dovesti do nestabilnosti modela. Zbog toga se u modelovanju koristi nelinearna FNN na koju je moguće primeniti pruning, odnosno proces odbacivanja viška parametara u odnosu na potpuno povezanu strukturu, tako da ukupna greška obučavanja ne prelazi dozvoljenu vrednost. Kriterijum zaustavljanja pruninga je dostizanje minimuma NSSETEST, NSSETRAIN ili FPE. Nelinearni modeli su, u opštem slučaju, tačniji, ali proces njihovog obučavanja traje duže.

Obučavanje modela

FNN i AR modeli su obučavani trening skupovima. Obučavanje je izvedeno promenom parametara po BPA. Korišćena je LM aproksimacija za proračun Hessianove matrice. Optimalni korak promene greške aproksimiran je Taylor-ovim nizom. Aproksimacija drugog reda ukazuje na nekorelisanost ulaza sa dobijenom greškom, što omogućuje ispravan smer korekcije greške. Korišćene su MATLAB-ove metode nnarx i marq. Treniran je i AR-10 čiji je red jednak broju ulaza u FNN (10), odnosno procenjeni izlaz dobijen je na osnovu 10 prethodnih vrednosti datog signala. Inicijalna vrednost parametara je slučajna. Formantne karakteristike vokala su takve da njihov broj i raspored određuju parametre modela. AR model je stabilan, jednostavan i računarski malo zahtevan. Predikcija je bazirana na MSE kriterijumu. Za FNN korišćen je OBS pruning. Za promene greške računa se puna Hessian-ova matrica. Akaike-ova FPE omogućuje da se proceni generalizaciona greška za datu FNN, kada je poznat broj parametara. Da bi bilo moguće uporediti AR i NNAR modele uvedeno je pojačanje FPE, tj. odnos MSE za AR model i FPE za FNN, a validacija je izvedena za sve vokale i sve govornike. Isti proces izveden je i za govornike i nevokale koji su izgovarani u kontekstu reči ili van njih.

Signali govora

Vokalno-nazalni trakt je deo sistema za proizvođenje govora, čija se prenosna funkcija može aproksimirati akustičkim filtrom. Vazduh, pobuda iz pluća, prolazi kroz vokalno-nazalni trakt i, u zavisnosti od toga da li glasne žice vibriraju ili ne, formira se vokal ili nevokal. Zvuk koji se čuje kao govor nastaje zračenjem sa usana i iz nosa. Vokali su kvaziperiodični u dužem vremenskom periodu, pobuda je snažna, a glasne žice vibriraju. Kod ostalih fonema kvaziperiodičnost je zanemariva, pobuda je slab signal ili kombinacija takvog signala sa šumom.

Rezultati

Za obučavajuće skupove trenirani su AR-10 i FNN, strukture 10-3-1. Pruning je izveden OBS metodom sa maksimalno 20 iteracija retreninga po odbacivanju jednog parametra. Korišćen je algoritam nnprune. Dobijene su NSSE za obučavajući i test skup, i FPE. U radu su prikazane strukture koje zaustavljaju pruning dostizanjem minimalnih vrednosti NSSETEST i FPE. Izračunata je i NSSE za AR-10. Validacija je izvedena funkcijom nnvalid. Za nevokale računato je pojačanje FPE za žene i za muškarce. Uvedena je mera rastojanja dva signala (u spektralnom domenu) i poređeni su spektri snage signala na izlazima neurona skrivenog sloja. Takođe, izvedena je kroskorelaciona analiza i kumulativno sumiranje apsolutnih vrednosti kroskorelacionih signala za male distance.

Zaključak

U radu je analizirana klasa FNN, strukture sa 10 ulaza, promenljivim brojem neurona u skrivenom sloju i jednim izlazom, za predikciju govornog signala, tj. fonema srpskog jezika. Metodologija izbora arhitektura sa dobrim generalizacionim osobinama, zasnovana na pruningu, omogućila je znatno smanjenje broja parametara modela i veću tačnost, u odnosu na linearne AR modele. Granične arhitekture odlikuju se minimalnim brojem parametara u okviru zadate margine greške. Pri analizi vokala uočen je uticaj nevokalizovanih fonema koji su takođe prediktovani FNN i AR modelima. Radi sagledavanja diskriminacionih osobina izabranih klasa modela razvijena je metoda višedimenzionog skaliranja zasnovana na novoj meri rastojanja. Analiza gubitka diskriminatornosti ukazuje na činjenicu da FNN modeli za foneme u srpskom jeziku imaju znatno veću diskriminacionu snagu, što ih čini upotrebljivim u širokoj klasi prepoznavanja govornih elemenata. Spektralna analiza pokazuje da su izlazni signali neurona skrivenog sloja dobro korelisani sa dominantnim formantnim karakteristikama ulaznog signala. Vremenska karakteristika ukazuje na slabu statističku zavisnost ovih signala za niske redove kroskorelacione zavisnosti (do petog reda). Analize ukazuju na blagu prednost kriterijuma NSSETEST u odnosu na FPE kriterijum, na nezavisnom signalu. U slučaju kratkih obučavajućih skupova FPE je prihvatljiv kriterijum.

Rezultati ukazuju na činjenicu da predložena klasa FNN modela srpskog jezika i izbor arhitektura sa najboljim generalizacionim svojstvima obezbeđuju modele visoke tačnosti sa internom distribuiranom strukturom koja odgovara prirodnom vremensko-frekvencijskom sadržaju ulaznih signala, i visokih su diskriminaconih svojstava za isti broj parametara u odnosu na tradicionalne linerane modele.

Objavljeno
2014/10/10
Rubrika
Originalni naučni radovi