ЗАСТОСУВАННЯ АНСАМБЛЕВОГО НАВЧАННЯ В ЗАДАЧАХ КЛАСИФІКАЦІЇ АКУСТИЧНИХ ДАНИХ
Анотація
Сьогодні розробка машин з чуттєвими можливостями, такими як зір та слух, є однією з визнаних складних проблем у техніці та інформатиці. Системи, які мають можливість визначати сенс з аудіовізуальної інформації, усе частіше використовуються як в науковій галузі, так і в промисловості. Отже, безумовно, є необхідність у ефективних підходах для автоматичного розпізнавання звукових, графічних та відеоданих. На думку авторів, методи машинного навчання мають бути висвітлені насамперед в цьому контексті як найбільш популярні та перспективні засоби розробки подібних проблем. У запропонованій статті розглядаються моделі та методи машинного навчання, що використовуються для вирішення проблеми класифікації акустичних даних різного походження, таких як мова, музика, звуки природи тощо. Одним з практично важливих напрямів у рамках даного сімейства проблем є розробка систем машинного слуху. Іншим, особливо важливим напрямом є розробка автоматизованих систем призначення міток звукозаписам (оцінка схожості треків, системи рекомендацій музичних записів тощо), де під «міткою» розуміється коротке ім’я, яке певним чином характеризує звуковий файл. Важливо зазначити, що для вирішення вищезгаданих проблем не існує єдиного підходу. Отже, необхідно проводити більш детальний аналіз різних методів машинного навчання. В основному процес автоматизованого класифікування звуку можна розділити на чотири етапи: обробку аудіоданих, вилучення характеристик, застосування алгоритмів машинного навчання та оцінку точності. На етапі аудіопредставлення вихідний акустичний сигнал піддається сегментації на короткі фрагменти за допомогою деякої віконної функції. Загальний підхід тут полягає в тому, щоб перетворити акустичний сигнал на кадри певної довжини. Отримання компактного зображення акустичних характеристик сигналу є метою стадії вилучення характеристик. На цьому етапі використовуються спеціальні коефіцієнти, такі як швидкість нульового переходу, форма спектра, короткочасні перетворення Фур’є, мел-частотні кепстральні коефіцієнти тощо. Аудіокласифікація традиційно включає такі методи машинного навчання, як метод K-середніх, SVM, KNN, дерева рішень та інші. Протягом останніх двох десятиліть методика глибокого навчання також отримала популярність для задач класифікації. У цьому контексті слід звернути увагу на методи, засновані на згорткових та рекурентних нейронних мережах. Глибокі нейронні мережі можуть мати достатню точність при роботі як з вихідним акустичним сигналом, так і з набором вилучених характеристик. Своєю чергою етап оцінки точності використовує методи оцінки якості побудованої моделі. У роботі пропонується короткий огляд сучасних методів машинного навчання та методів, що використовуються для автоматичної класифікації акустичних даних. Наведено математичні основи методів машинного навчання та проаналізовано їх сильні та слабкі сторони. Розроблено модель та її програмну реалізацію для класифікації акустичних даних на основі згорткових нейронних мереж та побудови ансамблю нейронних мереж.
Посилання
2. Кривохата А. Г., Кудін О. В., Лісняк А. О. Огляд методів машинного навчання для класифікації акустичних даних. Вісник Херсонського національного технічного університету. 2018. №3(66), Т.1. С. 327–331.
3. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Санкт-Петербург: Питер, 2018. 480 с.
4. Alías F., Socoró J. C., Sevillano X. A review of physical and perceptual feature extraction techniques for speech, music and environmental sounds. Applied Sciences. 2016. № 6(5):143.
5. Bach J.-H., Meyer A.-F., McElfresh D., Anemüller J. Automatic classification of audio data using nonlinear neural response models. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan. 2012. P. 357–360.
6. Bertin-Mahieux T., Eck D., Mandel M. Automatic tagging of audio: the state-of-the-art. Machine audition: principles, algorithms and systems. IGI Global. 2011. P. 334–352.
7. Burges C. J. S., Platt J. C., Jana S. Extracting noise-robust features from audio data. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Orlando, FL, USA, 13–17 May 2002. 2002. P. 1021–1024.
8. Camastra F., Vinciarelli A. Machime learning for Audio, Image and Video analysis. London: Springer-Verlag, 2015. 561 p.
9. Costa C. H. L., Valle Jr. J. D., Koerich A. L. Automatic classification of audio data. Proceedings of the IEEE International Conference on Systems, Man and Cybernetics. 2004. P. 562–567.
10. Dongge Li, Ishwar K. Sethi, Nevenka Dimitrova, Tom McGee. Classification of general audio data for content-based retrieval. Pattern Recognition Letters. 2001. № 22(5). P. 533–544.
11. Free sound General-Purpose Audio Tagging Challenge. URL: https://www.kaggle.com/c/freesound-audio-tagging/data (Дата звернення 06.06.2018).
12. Gemmeke J. F., Ellis D. P. W., Freedman D., Jansen A., Lawrence W., Moore R. C., Plakal M., Ritter M. Audio set: an ontology and human-labeled dataset for audio events. Proceedings of the Acoustics, Speech and Signal Processing International Conference. 2017. URL: https://research.google.com/pubs/archive/45857.pdf (Дата звернення 06.06.2018).
13. Geron A. Hands-On Machine Learning with Scikit-Learn and TensorFlow. Sebastopol: O`Reilly. 2017. 861 p.
14. Howel J., Rooth M., Wagner M. Acoustic classification of focus: on the web and in the lab. Laboratory Phonology: Journal of the Association for Laboratory Phonology. 2017. № 8(1):16. P. 1-41.
15. Huang G. et al. Snapshot Ensembles: Train 1, Get M for Free. arXiv, 2017. URL: http:// arxiv.org/abs/1704.00109 (Дата звернення 06.06.2018).
16. Ibrahim Z. Al A., Ferrane I., Joly P. Audio Data Analysis Using Parametric Representation of Temporal Relations. IEEE International Conference on Information and Communication Technologies: from Theory to Applications (ICTTA). 2006.
17. Kong Q., Xu Y., Wang W., Plumbley M. D. Convolutional gated recurrent neural network incorporating spatial features for audio tagging. The 2017 International Joint Conference on Neural Networks (IJCNN 2017), Anchorage, Alaska. 2017.
18. Kong Q., Xu Y., Wang W., Plumbley M. D. A joint separation-classification model for sound event detection of weakly labelled data. ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 15-20 April 2018, Calgary, Canada. 2018.
19. Lyon R. F. Machine Hearing: An Emerging Field. IEEE Signal Process. Mag. 2010, Vol. 27. P. 131–139.
20. Mierswa I., Morik K. Learning feature extraction for learning from audio data. Technische Universität Dortmund. Technical Reports. 2004. No. 55.
21. Oppenheim A. V., Schafer R. W. Discrete-Time Signal Processing. Third edition. Pearson Education Limited. 2014. 1055 p.
22. Rizzi A., Buccino M., Panella M., Uncini A. Optimal short-time features for music/speech classification of compressed audio data. International Conference on Intelligent Agents. 28 November-1 December 2006. Sydney, NSW, Australia.
23. Salamon J., Jacoby C., Bello J. P. A dataset and taxonomy for urban sound research. DOI: http://dx.doi.org/10.1145/2647868.2655045, 2017. P. 1–4.
24. Stastný J., Skorpil V., Fejfar J. Audio Data Classification by Means of New Algorithms. 36th International conference on Telecommunications and Signal Processing, Rome, Italy. 2013. P. 507–511.
25. Sturm B. L. A Survey of Evaluation in Music Genre Recognition. Adaptive Multimedia Retrieval: Semantics, Context, and Adaptation. AMR 2012. Lecture Notes in Computer Science. 2014. Vol 8382. P. 29–66.
26. Wichern G., Yamada M., Thornburg H., Sugiyama M., Spanias A. Automatic audio tagging using covariate shift adaptation. IEEE international conference Acoustics speech and signal processing (ICASSP), 14–19 March 2010.
27. Xu Y., Huang Q., Wang W., Foster P., Sigtia S., Jackson P. J. B., Plumbley M. D. Unsupervised Feature Learning Based on Deep Models for Environmental Audio Tagging. IEEE/ACM transactions on audio, speech and language processing. 2017. Vol 25(6). P. 1230–1241.
28. Zaccone G., Karim Md. R. Deep learning with TensorFlow. Packt Publishing. 2018. 767 p.