ПОКРАЩЕННЯ ПРУНІНГУ ПЕРЕД НАВЧАННЯМ ШЛЯХОМ ВРАХУВАННЯ ПОКАЗНИКА УВАГИ ДЛЯ МОДЕЛЕЙ АРХІТЕКТУРИ TRANSFORMER

Ключові слова: transformers, нейронні мережі, прунінг, ефективність, оптимізація.

Анотація

Зі стрімким розвитком технологій і зростанням числа прикладних застосувань нейронних мереж постає проблема їх оптимізації. Серед інших методів оптимізації навчання та використання навчених моделей в останні роки багато уваги було приділено методам виключення вагів (прунінг) нейронної мережі. Основна мета прунінгу — зменшити обчислювальну складність моделей за умови збереження показників продуктивності на прийнятному рівні. Серед різноманітних підходів до прунінгу, було розроблено метод одноразового прунінгу (SNIP), що являє собою простий і ефективний підхід для оптимізації параметрів перед навчанням. Однак з появою нових архітектур нейронних мереж, особливо зі зростанням популярності архітектур типу transformer, виникає потреба переглянути підхід до методів прунінгу. Дана стаття має на меті переглянути метод SNIP, оцінити його ефективність на моделі transformer та представити покращену версію SNIP, спеціально допрацьовану для архітектур tranformer. У статті викладено математичну основу алгоритму SNIP та запропоновано його модифікацію, виходячи зі специфіки моделей transformer. Моделі архітектури transformer досягли значних результатів завдяки своєму механізму уваги для багатьох завдань, таких як розробка мовних моделей, переклад, задачі комп’ютерного зору та багато інших. Запропонована модифікація враховує цю унікальну особливість і поєднує цю інформацію при обчисленні градієнту і функції втрат. Традиційний метод розраховує оцінку важливості для ваг мережі, використовуючи лише градієнти функції втрат. У розширеній версії оцінка важливості є складеним показником, який включає не лише градієнт функції втрати, але й активацію уваги. Для оцінки ефективності запропонованої модифікації було проведено серію експериментів на завдані класифікації зображень, використовуючи варіацію архітектури transformer – Linformer. Результати експериментів демонструють ефективність врахування показників уваги при прунінгу. Проведені експерименти показують, що модель, оптимізована за модифікованим алгоритмом, має показник точності на 34% кращий, ніж модель, оптимізована за оригінальним методом SNIP, підтверджуючи достовірність внесених вдосконалень.

Посилання

1. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser L., Polosukhin I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NIPS 2017). DOI: https://doi.org/10.48550/arXiv.1706.03762.
2. Liu Y., Lapata M. (2019). Text Summarization with Pretrained Encoders. ArXiv preprint, arXiv:1908.08345. DOI: https://doi.org/10.48550/arXiv.1908.08345.
3. Devlin J., Chang M-W., Lee K., Toutanova K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv preprint, arXiv:1810.04805. DOI: https://doi.org/10.48550/arXiv.1810.04805.
4. Dosovitskiy A., Beyer L., Kolesnikov A., Weissenborn D., Zhai X., Unterthiner T., Dehghani M., Minderer M., Heigold G., Gelly S., Uszkoreit J., Houlsby N. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. Proceedings of the International Conference on Learning Representations (ICLR 2021). DOI: https://doi.org/10.48550/arXiv.2010.11929.
5. Rives A., Meier J., Sercu T., Goyal S., Lin Z., Liu J., Guo D., Ott M., Zitnick C. L., Ma J., Fergus R. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proceedings of the National Academy of Sciences, 118 (15). DOI: https://doi.org/10.1073/pnas.2016239118.
6. Parisotto E., & Salakhutdinov R. (2017). Neural Map: Structured Memory for Deep Reinforcement Learning. ArXiv preprint, arXiv:1702.08360. DOI: https://doi.org/10.48550/arXiv.1702.08360.
7. Han S., Mao H., & Dally W. J. (2016). Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding. ArXiv preprint, arXiv:1510.00149. DOI: https://doi.org/10.48550/arXiv.1510.00149.
8. Molchanov P., Tyree S., Karras T., Aila T., & Kautz J. (2017). Pruning Convolutional Neural Networks for Resource Efficient Inference. ArXiv preprint, arXiv:1611.06440. Doi: https://doi.org/10.48550/arXiv.1611.06440.
9. Zhu M., & Gupta S. (2017). To prune, or not to prune: exploring the efficacy of pruning for model compression. ArXiv preprint, arXiv:1710.01878. DOI: https://doi.org/10.48550/arXiv.1710.01878.
10. Hu H., Peng R., Tai Y-W., & Tang C-K. (2016). Network Trimming: A Data-Driven Neuron Pruning Approach towards Efficient Deep Architectures. ArXiv preprint, arXiv:1607.03250. DOI: https://doi.org/10.48550/arXiv.1607.03250.
11. Li H., Kadav A., Durdanovic I., Samet H., & Graf H. P. (2017). Pruning Filters for Efficient ConvNets. Proceedings of the International Conference on Learning Representations (ICLR 2017). DOI: https://doi.org/10.48550/arXiv.1608.08710.
12. Narang S., Elsen E., Diamos G., & Sengupta S. (2017). Exploring Sparsity in Recurrent Neural Networks. Proceedings of the International Conference on Learning Representations (ICLR 2017). DOI: https://doi.org/10.48550/arXiv.1704.05119.
13. He Y., Zhang X., & Sun J. (2017). Channel Pruning for Accelerating Very Deep Neural Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 1389–1397. DOI: https://doi.org/10.48550/arXiv.1707.06168.
14. Wen W., Wu C., Wang Y., Chen Y., & Li H. (2016). Learning Structured Sparsity in Deep Neural Networks. Neural Information Processing Systems. DOI: https://doi.org/10.48550/arXiv.1608.03665.
15. Lee N., Ajanthan T., & Torr P. H. S. (2019). SNIP: Single-shot Network Pruning based on Connection Sensitivity. Proceedings of the International Conference on Learning Representations (ICLR 2019). DOI:
https://doi.org/10.48550/arXiv.1810.02340.
16. Frankle J., & Carbin M. (2019). The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks. Proceedings of the International Conference on Learning Representations (ICLR 2019). DOI: https://doi.org/10.48550/arXiv.1803.03635.
17. Wang S., Li B. Z., Khabsa M., Fang H., & Ma H. (n.d.). Linformer: Self-Attention with Linear Complexity. ArXiv preprint, arXiv:2006.04768. DOI: https://doi.org/10.48550/arXiv.2006.04768.
Опубліковано
2023-12-19
Як цитувати
Мельниченко, А. В., & Здор, К. А. (2023). ПОКРАЩЕННЯ ПРУНІНГУ ПЕРЕД НАВЧАННЯМ ШЛЯХОМ ВРАХУВАННЯ ПОКАЗНИКА УВАГИ ДЛЯ МОДЕЛЕЙ АРХІТЕКТУРИ TRANSFORMER. Computer Science and Applied Mathematics, (2), 22-28. https://doi.org/10.26661/2786-6254-2023-2-03
Розділ
РОЗДІЛ II. ІНЖЕНЕРІЯ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ