Целью обзора является анализ существующих методов глубокого обучения для работы с несбалансированными данными. Несбалансированность понимается в смысле существенного различия числа объектов, принадлежащих различным классам. Эффективная классификация таких данных является важной областью исследований, поскольку сильная несбалансированность естественно присуща многим реальным прикладным задачам, например, обнаружению мошенничества в финансовой сфере или обнаружению онкологических заболеваний. Стандартные методы обучения могут испытывать трудности при работе с сильно несбалансированными данными, связанные с тем, что они в основном учитывают признаки больших классов, а в крайних случаях могут вообще игнорировать класс меньшинства.
Дисбаланс классов тщательно изучался в течение последних двух десятилетий с использованием традиционных моделей машинного обучения, то есть неглубокого обучения (см., например, M.Maalouf and T. B. Trafalis, Rare events and imbalanced datasets: an overview, Int. J. Data Mining, Modelling and Management, Vol. 3, No. 4, 2011). Несмотря на недавние достижения в области глубокого обучения и его растущую популярность, пока существует не очень много эмпирических исследований в области глубокого обучения с дисбалансом классов. Учитывая высокую производительность и эффективность использования глубоких нейронных сетей во многих сложных областях, исследование их применения для задач, содержащих высокий уровень дисбаланса классов, представляет большой интерес.
Существующие работы, касающиеся дисбаланса классов и глубокого обучения, анализируются в обзоре с точки зрения эффективности глубокого обучения при применении к данным с несбалансированными классами. При отборе предпочтения отдавались работам, в которых обработка несбалансированных данных осуществлялась нейронными сетями, содержащими два или более скрытых слоя, а также работам, связанным с достаточно высокой степенью несбалансированности данных, с применением предлагаемой методики к различным наборам данных и предоставляющих сравнение с другими существующими методиками. Обсуждаются методика и экспериментальные результаты каждого исследования, а также предлагаются дополнительные сведения об их сильных и слабых сторонах. Особое внимание уделено: сложности данных, протестированным архитектурам сетей, интерпретации производительности, простоте использования, возможности применения для больших данных. Для сравнения различных методов используются такие общепринятые метрики как: Precision, Recall, Selectivity, F-Measure, Balanced Accuracy, area under the ROC curve (AUC) и др.
Рассмотренные методы подразделяются на
Несколько традиционных методов обработки данных с дисбалансом классов, например ROS и обучение с учетом затрат оказались применимыми и в глубоком обучении, в то же время и более продвинутые методы, которые используют специфические возможности обучения на основе нейронных сетей, показывают многообещающие результаты. Обзор завершается обсуждением текущих пробелов в изучении применения глубоких нейронных сетей для анализа несбалансированных данных с целью определения направлений будущих исследований.