Klasifikcija i analiza skupa podataka MNIST pomoću algoritama PCA i SVM

  • Mokhaled N.A. Al-Hamadani Univerzitet u Debrecinu, Doktorske studije informatike, Odsek za nauku i vizualizaciju podataka, Debrecin, Mađarska; Severni tehnički univerzitet, Tehnički institut/Alhavija, Odeljenje za elektronske tehnike, Adan, Kirkuk, Republika Irak https://orcid.org/0000-0002-7042-3178
Ključne reči: statistička analiza, mašinsko učenje, SVM, PCA, klasifikacija

Sažetak


Uvod/cilj: Metodi mašinskog učenja postali su nezamenljivi u analizi složenih podataka velikog obima u savremenim okruženjima zasnovanim na podacima. Primenjuju se u najrazličitijim oblastima, od optimizacije poslovnih procesa do složenih naučnih istraživanja. Uprkos tome što ovakvi obimni skupovi podataka nude mogućnosti dubinskog sagledavanja, kao i inovacija, oni predstavljaju i veliki izazov u oblastima kao što su kvalitet i struktura podataka, što zahteva primenu efikasnih strategija upravljanja. Tehnike mašinskog učenja su se pokazale kao suštinski važni alati za identifikaciju i smanjivanje tih izazova, kao i za razvijanje mogućih rešenja. Skup podataka MNIST predstavlja izrazit primer široko korišćenih setova podataka u ovoj oblasti, poznat po svojoj velikoj kolekciji rukom pisanih cifara, i često je upotrebljavan za klasifikacije i analize, kao što je to pokazano u ovoj studiji.

Metode:  Skup podataka MNIST korišćen je za ispitivanje različitih statističkih postupaka, uključujući algoritam analize glavnih komponenti (Principal Components Analysis (PCA ‒ PCA)) uz pomoć programskog jezika Pajton. Takođe, primenjeni su modeli metoda potpornih vektora (Support Vector Machine (SVM ‒ SVM)) za procenjivanje tačnosti modela u linearnim i nelinearnim  klasifikacionim problemima.

Rezultati:  Pokazano je da, iako tehnika PCA jeste efikasna u redukovanju dimenzionalnosti,  ona nije toliko efikasna za vizualizaciju. Štaviše, nalazi pokazuju da su i linerani i nelinearni modeli SVM uspeli da efikasno klasifikuju skup podataka.

Zaključak: Rezultati studije pokazuju da SVM može da bude efikasna tehnika za rešavanje problema klasifikacije.

Reference

Abdi, H. & Williams, L.J. 2010. Principal component analysis. WIREs (Wiley Interdisciplinary Reviews), 2(4), pp.433-459. Available at: https://doi.org/10.1002/wics.101.

Ahmed, A.H., Al-Hamadani, M.N.A. & Abdulrahman Satam, I. 2022. Prediction of COVID-19 disease severity using machine learning techniques. Bulletin of Electrical Engineering and Informatics, 11(2), pp.1069-1074. Available at: https://doi.org/10.11591/eei.v11i2.3272.

Al-Hamadani, M.N.A. 2015. Evaluation of the Performance of Deep Learning Techniques Over Tampered Dataset. Master thesis. Greensboro, North Carolina, USA: The University of North Carolina,  Faculty of The Graduate School [online]. Available at: https://www.proquest.com/openview/769d2aa550c12fcf40655405e8df7689/1?pq-origsite=gscholar&cbl=18750 [Accessed: 05 February 2023].

Guenther, N. & Schonlau, M. 2016. Support Vector Machines. The Stata Journal, 16(4), pp.917-937. Available at: https://doi.org/10.1177/1536867X1601600407.

Hao, J. & Ho, T.K. 2019. Machine Learning Made Easy: A Review of Scikit-learn Package in Python Programming Language. Journal of Educational and Behavioral Statistics, 44(3), pp.348-361. Available at: https://doi.org/10.3102/1076998619832248.

LeCun, Y. 2023. MNIST dataset [online]. Available: https://yann.lecun.com/exdb/mnist/.

LeCun, Y., Jackel, L., Bottou, L., Brunot, A., Cortes, C., Denker, J., Drucker, H., Guyon, I., Muller, U., Sackinger, E., Simard, P. & Vapnik, V. 1995. Comparison of learning algorithms for handwritten digit recognition. In: Fogelman, F. & Gallinari, P. (Eds.) International Conference on Artificial Neural Networks (ICANN'95), Paris, pp. 53-60, October 9-13.

Manshor, N., Halin, A.A., Rajeswari, M. & Ramachandram, D. 2011. Feature selection via dimensionality reduction for object class recognition. In: 2011 2nd International Conference on Instrumentation, Communications, Information Technology, and Biomedical Engineering, Bandung, Indonesia, pp.223-227, November 08-09. Available at: https://doi.org/10.1109/ICICI-BME.2011.6108645.

Mishra, S.P., Sarkar, U., Taraphder, S., Datta, S., Swain, D.P., Saikhom, R., Panda, S. & Laishram, M. 2017. Multivariate Statistical Data Analysis-Principal Component Analysis (PCA). International Journal of Livestock Research, 7(5), pp.60-78.

Nielsen, M. 2019. Neural Networks and Deep Learning [online]. Available at: http://neuralnetworksanddeeplearning.com/ [Accessed: 05 February 2023].

Raschka, S., Patterson, J. & Nolet, C. 2020. Machine Learning in Python: Main Developments and Technology Trends in Data Science, Machine Learning, and Artificial Intelligence. Information, 11(4), art.number:193. Availiable at: https://doi.org/10.3390/info11040193.

Saputra, D., Dharmawan, W.S. & Irmayani, W. 2022. Performance Comparison of the SVM and SVM-PSO Algorithms for Heart Disease Prediction. International Journal of Advances in Data and Information Systems, 3(2), pp.74-86. Available at: https://doi.org/10.25008/ijadis.v3i2.1243.

-Scikit-learn. 2023. sklearn.svm.SVC [online]. Available: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html [Accessed: 05 February 2023].

Subasi, A. 2020. Practical Machine Learning for Data Analysis Using Python. London, United Kingdom: Elsevier, Academic Press. ISBN: 978-0-12-821379-7.

Suthaharan, S. 2014. Big data classification: problems and challenges in network intrusion prediction with machine learning. ACM SIGMETRICS Performance Evaluation Review, 41(4), pp.70-73. Available at: https://doi.org/10.1145/2627534.2627557.

Suthaharan, S. 2016. Support Vector Machine. In: Machine Learning Models and Algorithms for Big Data Classification. Integrated Series in Information Systems, 36. Boston, MA: Springer. Available at: https://doi.org/10.1007/978-1-4899-7641-3_9.

Wang, P., Li, Y. & Reddy, C.K. 2019. Machine Learning for Survival Analysis: A Survey. ACM Computing Surveys, 51(6), art.number:110, pp.1-36. Available at: https://doi.org/10.1145/3214306.

Objavljeno
2023/03/27
Rubrika
Originalni naučni radovi