Feedforward neuronske mreže: Levenberg-Marquardt optimizacija i optimal brain surgeon pruning

  • Danijela D. Protić Generalštab Vojske Srbije, Uprava za telekomunikacije i informatiku (J-6), Centar za primenjenu matematiku i elektroniku, Beograd
Ključne reči: Levenberg-Marquardt||, ||Levenberg-Marquardt, speech analysis||, ||analiza govora, pruning||, ||pruning, feedforward neural networks||, ||feedforward neuronske mreže,

Sažetak


U radu su opisani obučavanje, testiranje i pruning feedforward neuronske mreže sa jednim skrivenim slojem koji je korišćen za predikciju vokala a. Opisane su Gradient Descent, Gauss-Newton i Levenberg-Marquardt optimizacione tehnike. Optimal Brain Surgeon pruning je primenjen na treniranu mrežu. Kriterijum zaustavljanja je nagla promena normalizovane sume kvadrata grešaka. Struktura feedforward neuronske mreže (FNN) bila je 18 ulaza (četiri za glotalne i 14 za odbirke govora). Rezultati su pokazali da, nakon pruninga, glotalni signal nema uticaja na model za ženskog govornika, dok utiče na predikciju govora kod muškog govornika. U oba slučaja, struktura FNN je redukovana na mali broj parametara.

Uvod

Veštačka neuronska mreža je jedna od najboljih struktura za rešavanje različitih problema koji se odnose na veštačku inteligenciju, prepoznavanje oblika, klasifikaciju, predikciju vremenskih serija i mnoge praktične probleme. Višeslojni perceptron je najstariji i najčešće korišćeni oblik veštačke neuronske mreže. Tipično, sastoji se od nekoliko slojeva neurona. Na ulazu mreže nalazi se više neurona, a na izlazu je moguće da postoji jedan ili više izlaznih neurona. Ukoliko je signal propagiran od ulaza ka izlazu onda je ovaj tip mreže tzv. feedforward neuronska mreža. Da bi bili određeni parametri ove mreže, potrebno je minimizirati funkciju greške. Kod gradient descent algoritma računaju se prvi izvodi greške i težine se podešavaju iterativnim putem. Signal greške se propagira unazad. Ova tehnika je poznata kao back-propagation algoritam. Težinski parametri u mreži podešavaju se po pravcu negativnog gradijenta funkcije po parametrima. Međutim, ovaj algoritam je relativno spor, pa rešenja mogu biti „zarobljena” u jednom od lokalnih minimuma, umesto da se izračuna globalni minimum.

Levenberg-Marquardt algoritam daje efikasna rešenja za konvergenciju i bolju optimizaciju, jer koristi i Gauss-Newton metod koji podrazumeva da je greška kvadratna u okolini optimalnog rešenja, što je bazirano na Tejlorovoj aproksimaciji drugog reda greške sume kvadrata. Na taj način feedforward neuronska mreža i Levenberg-Marquardt algoritam omogućuju da se lakše reše problemi konvergencije i trajanje računarskih procesa, što je karakteristično za višeslojne perceptrone.

U radu je prikazana predikcija vokala a za govornike oba pola. U eksperimentima je primenjena feedforward neuronska mreža sa jednim skrivenim slojem strukture 18 ulaza, 3 neurona u skrivenom sloju i jedan izlazni neuron (18-3-1). Aktivacione funkcije svih neurona bile su tangens-hiperbolične, a njihove početne vrednosti slučajni brojevi iz opsega [-1, 1]. Obučavanje je izvedeno na 1.700 odbiraka govornog signala i odgovarajućeg glotalnog signala, dok je mreža testirana na 1.700 odbiraka u nepoznatom delu signala. Prvih 14 ulaza u mrežu odgovaraju govornom signalu, a druga četiri odbircima glotalnog signala. Prediktuje se odbirak govora, a greška predikcije računa se kao razlika između tačne i prediktovane vrednosti signala i koristi se za dobijanje sume kvadrata. Reultujuća struktura je testirana na nezavisnom test-skupu, pa je izveden pruning tipa optimal brain surgeon. Ova tehnika redukuje broj neurona u skrivenom sloju tako da to ne utiče na ukupnu grešku. Kriterijum zaustavljanja je nagli skok normalizovane sume kvadrata grešaka.

Levenberg-Marquardt optimizacija

LM algorotam je moguće posmatrati kao linearnu kombinaciju GD i GN metoda. Alternacija ova dva metoda zove se damping strategija koja je kontrolisana damping faktorom. Ukoliko je ovaj faktor veliki, LM se ponaša kao GD, u suprotnom postaje GN metod. Ove metode su optimizacioni algoritmi za rešavanje problema minimizacije parametara, zasnovane na metodu najmanjih kvadrata. Podešavanje parametara zahteva parametarski model koji minimizira sumu kvadrata reziduala. Rezidual je razlika između tačne i prediktovane vrednosti odbirka signala.

Metod GD je optimizaciona tehnika kojom se minimiziraju vrednosti parametara u pravcu suprotnom gradijentu posmatrane funkcije. To je veoma konvergentan metod za pronalaženje minimuma jednostavnih funkcija. Predstavlja algoritam prvog reda, jer za optimizaciju koristi isključivo prve izvode funkcije grešaka, po parametrima modela.

U GN metodu suma kvadrata grešaka je redukovana uz pretpostavku da je LS funkcija lokalno kvadraturna, pa je i nalaženje minimuma odgovarajuće. Pretpostavljeno je da je optimizaciona funkcija približno kvadratna u okolini optimalnog rešenja. Za probleme srednjeg nivoa GN metod brže konvergira od GD metoda.

Algoritam LM takođe obezbeđuje minimizaciju funkcije greške po vektoru parametara, koji je kombinacija prethodna dva metoda. Damping faktorom je određen izbor metode i načina obučavanja mreže. Za mali damping faktor algoritam je bliži GN optimizacionoj tehnici, dok je kod povećanja damping faktora optimizacioni algoritam sve bliži GD metodu. Podešavanje parametara bazirano je na promeni vrednosti damping faktora, a algoritam se odvija na sledeći način: ulazni signal se propagira ka izlazu, izračunaju se reziduali i primeni optimizacioni algoritam promenom parametara unazad. Ukoliko je optimizacioni kriterijum zadovoljen obučavanje se zaustavlja; u suprotnom se izvodi minimizacija korak po korak do zadovoljavanja optimizacionog kriterijuma.

Po Azimi-Sadjadi and Liou (1992) FNN sa jednim skrivenim slojem i nelinearnosti sigmoidalnog tipa može da aproksimira bilo koju nelinearnu funkciju i generiše svaki kompleksni region odlučivanja za proračune koji se odnose na klasifikaciju ili prepoznavanje. Optimizacioni proces odvija se na sledeći način: propagira signal kroz FNN u pravcu od ulaza ka izlazu, kako bi se odredio izlaz svakog sloja i generiše izlazni signal svakog čvora. Zatim se Izračunaju matrice za promenu parametara i određuje stanje partikularnog čvora. Ako je izlaz u granicama, region se prihvata, u suprotnom se parametri menjaju i posmatra se sledeći čvor. Parametri se podešavaju rekurzijom.

Pruning je tehnika kojom je moguće minimizirati strukturu FNN. Odnosi se isključivo na skriveni sloj mreže. Postoje dva tipa pruninga: 1) inkrementalni koji počinje na ulaznom ili izlaznom sloju, inkrementalno smanjuje veličinu mreže i izvodi ponovni trening nakon svake iteracije i 2) selektivni pruning, koji počinje sa treniranom mrežom, fikse veličine, i zatim uklanja skrivene neurone koji ne utiču na grešku neuronske mreže. Na taj način neproduktivni neuroni su uklonjeni. Nakon što je podešavanje završeno, pruning se izvodi na sledeći način: za mrežu koja je obučena da daje lokalni minimum greške, linearni deo, kao i viši delovi (stepenovi) u Tejlorovoj jednačini nestaju. Cilj je da se težine, tj. parametri postave na nulu.

Rezultati

Eksperimenti su izvedeni na vokalu a koji su izgovarali žena i muškarac. Govorni i glotalni signal korišćeni su za obučavanje i testiranje. To je izvedeno na 1.700 odbiraka vokala a, uključujući i odgovarajući glotalni signal. Algoritam LM je korišćen za obučavanje i optimizaciju. Struktura je bila 18-3-1, što znači 18 ulaza (14 za govorni i 4 za glotalni signal), 3 neurona u skrivenom sloju i jedan izlazni neuron, sa tangens hiperboličnom prenosnom funkcijom svakog neurona. S obzirom na to da su izlazi iz neurona limitirani na vrednosti (-1, 1), i signali su normalizovani u granice [-1, 1]. Početne vrednosti parametara izabrane su slučajno iz istog intervala. Ova struktura simulira sistem za proizvođenje govora (glotalni i vokalni trakt). Normalizovana suma najmanjih kvadrata (NSSE) korišćena je za optimizaciju. Nakon toga, Optimal Brain Surgeon primenjen je kao pruning. Za govornika ženskog pola optimalna je struktura 14-3-1, dok je za muškarca optimalna struktura neuronske mreže 16-3-1. Trening je izveden tako da je NSSEtrain manja od 0,001. Rezultujuća struktura testirana je na nezavisnom test skupu, i izračunata je vrednost NSSEtest. Primenjen je OBS pruning na dobijenu strukturu. Kriterijum zaustavljanja pruninga jeste da je nagla promena u NSSEprune 10 i više puta veća od minimalnih dobijenih NSSE grešaka. Nelinearna struktura kod žene pokazala se kao dobar prediktor, kod kojeg nema uticaja glotalnog signala na predikciju. Kod muškarca postoji uticaj glotalnog signala, što je najverovatnije rezultat niske učestanosti pobude.

U oba slučaja, struktura FNN nije bitno redukovana, tako da je, u slučaju da nije moguće primeniti pruning, moguće koristiti potpuno povezanu mrežu, bez bitnih razlika. Posebna pogodnost je što kod visokih osnovnih učestanosti pobude nije neophodno koristiti elektroglotografiju, tehniku snimanja glotalnog signala koja je nekomformna za govornika, jer se, umesto mikrofona, elektrode stavljaju spolja, na larings.

Zaključak

FNN sa jednim skrivenim slojem, strukturom 18-3-1 i tangens hiperboličnim prenosnim funkcijama svih čvorova predstavlja dobar prediktor govornog signala, kada je osnova predikcije vokal. Algoritam predikcije podrazumeva optimizacione tehnike i pruning neurona koji ne utiču bitno na promenu greške predikcije. Nekoliko optimizacionih algoritama koji su opisani u ovom radu može se primeniti za trening neuronske mreže. Najpopularniji od njih su GD i GN, kao i njihova kombinacija LM algoritam. Kod GD algoritma optimizacija je bazirana na prvim izvodima funkcije SSE greške po parametrima modela unapred, a parametri se podešavaju unazad od izlaza ka ulazu, BP algoritmom. GN koristi kvadraturnu aproksimaciju greške parametara koja je razvijena u Tejlorov red, pa i optimizacioni metod podrazumeva rešavanje kvadratnih jednačina. Računaju se drugi izvodi funkcije greške. U prvom slučaju konvergencija je nedovoljno brza, dok je u drugom slučaju za izvršenje algoritma procesno vreme i potrošnja velika, jer je potrebno izračunati inverzne Hesijanove matrice.

Algoritam LM je kombinacija prethodna dva algoritma koja je određena damping faktorom (damping strategija) koji vrši prilagođenje tako da pravi trade-off između GD i GN metoda.

U ovom radu korišćen je LM optimizacioni algoritam za trening mreže. Mreža je nakon treninga testirana, pa je izveden OBS pruning. Pruningom je odbačen višak neurona kada je kriterijum zaustavljanja nagli skok NSSE greške.

Rezultati su pokazali da LM algoritam daje dobra rešenja kod predikcije vokala a. Eksperimentima je, pored toga, dokazano da je pruningom moguće redukovati broj ulaznih parametara, tako da glotalni talas nema uticaja na predikciju kod ženskog govornika, što nije slučaj kod muškarca, s obzirom na nižu osnovnu učestanost pobude, odnosno manju brzinu otvaranja i zatvaranja glasnih žica.

 

Objavljeno
2015/07/27
Rubrika
Originalni naučni radovi