Научный журнал «Вестник Череповецкого государственного университета»
Статья
DOI:
Полный текст:
Целью данной работы является изучение и обобщение существующих задач, методов анализа и обработки изображений, видеопотоков, аудиофайлов с применением искусственного интеллекта для дальнейшего развития направления.
В основной части работы рассматривается принцип работы полносвязной нейронной сети, приводится пример, указываются основные типы нейронных сетей и ссылки на работы по тематике, описываются и анализируются разработки в области искусственного интеллекта и мультимедиа. В работе проведен литературный обзор научных трудов за последние 5 лет. Тезисно раскрывается суть генеративного и дискриминативного моделирования, определяется проблема, решаемая генеративно-состязательными сетями. Рассматривается применение нейронных сетей при генерации монофонической и полифонической музыки, определении жанра мелодии, при распознавании и классификации образов на изображении, стилизации изображений и генерации новых изображений на основе набора данных и описания на английском языке, при различных манипуляциях с лицом на изображении: морфинг лица, ретушь лица, генерирование уникальных лиц и обмен идентичностью, а также при использовании глубокого обучения в медицине. При этом кратко описываются модели сетей, используемые при различных манипуляциях, представленных в работе. Определяются сферы использования сверточных нейронных сетей, рекуррентных нейронных сетей, а также описываются основные характеристики и отличительные особенности моделей СNN, RNN, GAN. Также рассматривается создание deepfake-видео и их угроза обществу, методы распознавания deepfake-видео. Определяются перспективы генеративного моделирования и искусственного интеллекта при работе с мультимедийной информацией, подчеркивается важность нейронных сетей для общества.
В основной части работы рассматривается принцип работы полносвязной нейронной сети, приводится пример, указываются основные типы нейронных сетей и ссылки на работы по тематике, описываются и анализируются разработки в области искусственного интеллекта и мультимедиа. В работе проведен литературный обзор научных трудов за последние 5 лет. Тезисно раскрывается суть генеративного и дискриминативного моделирования, определяется проблема, решаемая генеративно-состязательными сетями. Рассматривается применение нейронных сетей при генерации монофонической и полифонической музыки, определении жанра мелодии, при распознавании и классификации образов на изображении, стилизации изображений и генерации новых изображений на основе набора данных и описания на английском языке, при различных манипуляциях с лицом на изображении: морфинг лица, ретушь лица, генерирование уникальных лиц и обмен идентичностью, а также при использовании глубокого обучения в медицине. При этом кратко описываются модели сетей, используемые при различных манипуляциях, представленных в работе. Определяются сферы использования сверточных нейронных сетей, рекуррентных нейронных сетей, а также описываются основные характеристики и отличительные особенности моделей СNN, RNN, GAN. Также рассматривается создание deepfake-видео и их угроза обществу, методы распознавания deepfake-видео. Определяются перспективы генеративного моделирования и искусственного интеллекта при работе с мультимедийной информацией, подчеркивается важность нейронных сетей для общества.
Гарбар Е. А., Логунова О. С. Конструирование нейронной сети для системы распознавания дефектов холодного проката // Актуальные проблемы современной науки, техники и образования: Тезисы докладов 79-й международной научно-технической конференции (Магнитогорск, 19–23 апреля 2021 года). Магнитогорск: Магнитогорский государственный технический университет им. Г. И. Носова, 2021. С. 344.
Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Санкт-Петербург: Питер, 2018. 480 с.
Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Санкт-Петербург: Питер, 2020. 336 с.
Aaref A., Mahmood Z. Optimization the Accuracy of FFNN Based Speaker Recognition System Using PSO Algorithm // International Journal on Communications Antenna and Propagation (IRECAP). 2021. DOI: 10.15866/irecap.v11i4.19883.
Andreini P., et al. Image Generation by GAN and Style Transfer for Agar Plate Image Segmentation // Computer Methods and Programs in Biomedicine. 2019. DOI: 10.1016/j.cmpb.2019.105268.
Chen X., Xie L., Wu J., Tian Q. Cyclic CNN: Image Classification with Multi-Scale and Multi-Location Contexts // IEEE Internet of Things Journal. 2020. DOI: 10.1109/JIOT.2020.3038644.
Dais D., Bal İ., Smyrou E., Sarhosis V. Automatic crack classification and segmentation on masonry surfaces using convolutional neural networks and transfer learning // Automation in Construction. 2021. DOI: 10.1016/j.autcon.2021.103606.
Hebbale S., Marndi A., Prasad N., Achyutha, Manjula G., Mohan B., Jagadeesh B. Automated medical image classification using deep learning // International journal of health sciences. 2022. DOI: 1650-1667. 10.53730/ijhs.v6nS5.9153.
Hörmann S., Kong T., Teepe T., Herzog, F., Knoche M., Rigoll G. Face Morphing: Fooling a Face Recognition System Is Simple! // Cornell University. 2022. DOI: 10.48550/arXiv.2205.13796.
Islam J., Zhang Y. GAN-based synthetic brain PET image generation // Brain Informatics. 2020. DOI: 10.1186/s40708-020-00104-2.
Itakura K., Narita Y., Noaki S., Hosoi F. Automatic pear and apple detection by videos using deep learning and a Kalman filter // OSA Continuum. 2021. DOI: 10.1364/OSAC.424583.
Jeberson Retna Raj R., Srinivasulu S. Object Detection in Live Streaming Video Using Deep Learning Approach // IOP Conference Series: Materials Science and Engineering. 2021. DOI: 10.1088/1757-899X/1020/1/012028.
Kalam R., Rahiman M. Efficient Segmentation of Tumor and Edema MR Images Using Optimized FFNN Algorithm // Advances in Intelligent Systems and Computing book series (AISC, volume 1420). 2022. DOI: 10.1007/978-981-16-9573-5_56.
Khamees A., Hejazi H., Alshurideh M., Salloum S. Classifying Audio Music Genres Using CNN and RNN // Advances in Intelligent Systems and Computing book series (AISC, vol. 1339). 2021. DOI: 10.1007/978-3-030-69717-4_31.
Krishna M., Neelima M., Mane H., Matcha V. Image classification using Deep learning // International Journal of Engineering & Technology. 2018. DOI: 10.14419/ijet.v7i2.7.10892.
Krishnaveni M., Subashini P., Dhivyaprabha T. Recurrent Neural Network Model for the Classification of Tamil Speech Sound Disorder Signals // AgroTech. 2022. DOI: 10.1007/978-981-19-3951-8_56.
Wu P., Lin Y., Chang C., Chang E., Liao S. RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes // IEEEXplore. 2019. DOI: 10.1109/ICCV.2019.00601.
Macharla V., Radha Krishna P. Music Genre Classification using Neural Networks with Data Augmentation A Make in India Creation // Innovation Sciences and Sustainable Technologies. 2021. No. 1(1). Pp. 21–37.
Olimjonov O., Md N., Shirin K., Al-Absi A., Mannan Z. COVID-19 X-Ray Image Classification Using Deep Convolution Neural Network // Lecture Notes in Networks and Systems book series (LNNS, vol. 395). С. 392–402. DOI: 10.1007/978-981-16-9480-6_37.
Olmos R., Tabik S., Herrera F. Automatic Handgun Detection Alarm in Videos Using Deep Learning // Neurocomputing. 2017. DOI: 10.1016/j.neucom.2017.05.012.
Pilli B.V.R., Devabalan P., Nagarajan S. Detecting the Vehicle's Number Plate in the Video Using Deep Learning Performance // Review of International Geographical Education Online. 2021. С. 4315–4324. DOI: 10.48047/rigeo.11.05.311.
Rathgeb C., Tolosana R., Vera-Rodriguez R., Busch C. Handbook of Digital Face Manipulation and Detection: From DeepFakes to Morphing Attacks. Springer International Publishing, 2022. 487 p.
Venkatesh S., Ramachandra R., Raja K., Busch C. Face Morphing Attack Generation & Detection: A Comprehensive Survey // IEEE Transactions on Technology and Society. 2021. DOI: 10.1109/TTS.2021.3066254
Yang Q. Low-Dose CT Image Denoising Using a Generative Adversarial Network With Wasserstein Distance and Perceptual Loss // IEEE Transactions on Medical Imaging. 2018. June. Vol. 37, no. 6. Pp. 1348–1357. DOI: 10.1109/TMI.2018.2827462.
Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Санкт-Петербург: Питер, 2018. 480 с.
Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Санкт-Петербург: Питер, 2020. 336 с.
Aaref A., Mahmood Z. Optimization the Accuracy of FFNN Based Speaker Recognition System Using PSO Algorithm // International Journal on Communications Antenna and Propagation (IRECAP). 2021. DOI: 10.15866/irecap.v11i4.19883.
Andreini P., et al. Image Generation by GAN and Style Transfer for Agar Plate Image Segmentation // Computer Methods and Programs in Biomedicine. 2019. DOI: 10.1016/j.cmpb.2019.105268.
Chen X., Xie L., Wu J., Tian Q. Cyclic CNN: Image Classification with Multi-Scale and Multi-Location Contexts // IEEE Internet of Things Journal. 2020. DOI: 10.1109/JIOT.2020.3038644.
Dais D., Bal İ., Smyrou E., Sarhosis V. Automatic crack classification and segmentation on masonry surfaces using convolutional neural networks and transfer learning // Automation in Construction. 2021. DOI: 10.1016/j.autcon.2021.103606.
Hebbale S., Marndi A., Prasad N., Achyutha, Manjula G., Mohan B., Jagadeesh B. Automated medical image classification using deep learning // International journal of health sciences. 2022. DOI: 1650-1667. 10.53730/ijhs.v6nS5.9153.
Hörmann S., Kong T., Teepe T., Herzog, F., Knoche M., Rigoll G. Face Morphing: Fooling a Face Recognition System Is Simple! // Cornell University. 2022. DOI: 10.48550/arXiv.2205.13796.
Islam J., Zhang Y. GAN-based synthetic brain PET image generation // Brain Informatics. 2020. DOI: 10.1186/s40708-020-00104-2.
Itakura K., Narita Y., Noaki S., Hosoi F. Automatic pear and apple detection by videos using deep learning and a Kalman filter // OSA Continuum. 2021. DOI: 10.1364/OSAC.424583.
Jeberson Retna Raj R., Srinivasulu S. Object Detection in Live Streaming Video Using Deep Learning Approach // IOP Conference Series: Materials Science and Engineering. 2021. DOI: 10.1088/1757-899X/1020/1/012028.
Kalam R., Rahiman M. Efficient Segmentation of Tumor and Edema MR Images Using Optimized FFNN Algorithm // Advances in Intelligent Systems and Computing book series (AISC, volume 1420). 2022. DOI: 10.1007/978-981-16-9573-5_56.
Khamees A., Hejazi H., Alshurideh M., Salloum S. Classifying Audio Music Genres Using CNN and RNN // Advances in Intelligent Systems and Computing book series (AISC, vol. 1339). 2021. DOI: 10.1007/978-3-030-69717-4_31.
Krishna M., Neelima M., Mane H., Matcha V. Image classification using Deep learning // International Journal of Engineering & Technology. 2018. DOI: 10.14419/ijet.v7i2.7.10892.
Krishnaveni M., Subashini P., Dhivyaprabha T. Recurrent Neural Network Model for the Classification of Tamil Speech Sound Disorder Signals // AgroTech. 2022. DOI: 10.1007/978-981-19-3951-8_56.
Wu P., Lin Y., Chang C., Chang E., Liao S. RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes // IEEEXplore. 2019. DOI: 10.1109/ICCV.2019.00601.
Macharla V., Radha Krishna P. Music Genre Classification using Neural Networks with Data Augmentation A Make in India Creation // Innovation Sciences and Sustainable Technologies. 2021. No. 1(1). Pp. 21–37.
Olimjonov O., Md N., Shirin K., Al-Absi A., Mannan Z. COVID-19 X-Ray Image Classification Using Deep Convolution Neural Network // Lecture Notes in Networks and Systems book series (LNNS, vol. 395). С. 392–402. DOI: 10.1007/978-981-16-9480-6_37.
Olmos R., Tabik S., Herrera F. Automatic Handgun Detection Alarm in Videos Using Deep Learning // Neurocomputing. 2017. DOI: 10.1016/j.neucom.2017.05.012.
Pilli B.V.R., Devabalan P., Nagarajan S. Detecting the Vehicle's Number Plate in the Video Using Deep Learning Performance // Review of International Geographical Education Online. 2021. С. 4315–4324. DOI: 10.48047/rigeo.11.05.311.
Rathgeb C., Tolosana R., Vera-Rodriguez R., Busch C. Handbook of Digital Face Manipulation and Detection: From DeepFakes to Morphing Attacks. Springer International Publishing, 2022. 487 p.
Venkatesh S., Ramachandra R., Raja K., Busch C. Face Morphing Attack Generation & Detection: A Comprehensive Survey // IEEE Transactions on Technology and Society. 2021. DOI: 10.1109/TTS.2021.3066254
Yang Q. Low-Dose CT Image Denoising Using a Generative Adversarial Network With Wasserstein Distance and Perceptual Loss // IEEE Transactions on Medical Imaging. 2018. June. Vol. 37, no. 6. Pp. 1348–1357. DOI: 10.1109/TMI.2018.2827462.
Ключевые слова:
искусственный интеллект, нейросеть, обработка изображения, генеративное моделирование, глубокое обучение, GAN, CNN, RNN
Для цитирования:
Кабанова В. В., Логунова О. С. Применение искусственного интеллекта при работе с мультимедийной информацией // Вестник Череповецкого государственного университета. 2022. № 6 (111). С. 23–41. https://doi.org/10.23859/1994-0637-2022-6-111-2.
Контент доступен под лицензией Creative Commons Attribution 4.0 License.