User Tools

Site Tools


dlcp:biblio

Bibliography

Обзоры

Учет симметрий входных данных при глубоком обучении (Equivariant Networks)

Общий подход

  • R. Kondor, et al. “On the generalization of equivariance and convolution in neural networks to the action of compact groups. 2018; arXiv: 1802.03690
  • R. Kondor, et al. “Clebsch–Gordan nets: a fully Fourier space spherical convolutional neural network. 2018; arXiv: 1806.09231
  • Taco S. Cohen, Mario Geiger, Jonas Köhler, and Max Welling. “Spherical CNNs”. In: International Conference on Learning Representations. 2018.; arXiv:1801.10130
  • Taco S. Cohen and Max Welling. “Steerable CNNs”. In: 5th International Conference on Learning Representations, ICLR 2017. 2017.; arXiv:1612.08498
  • Taco S Cohen, Mario Geiger, and Maurice Weiler. “A general theory of equivariant CNNs on homogeneous spaces”. In: Advances in Neural Information Processing Systems. 2019, pp. 9142–9153; arXiv:1811.02017
  • Taco Cohen, Maurice Weiler, Berkay Kicanaoglu, and Max Welling. “Gauge Equivariant Convolutional Networks and the Icosahedral CNN”. In: Proceedings of the 36th International Conference on Machine Learning, ICML 2019. 2019; arXiv:1902.04615
  • Taco Cohen and Max Welling. “Group equivariant convolutional networks”. In: International conference on machine learning. 2016, pp. 2990–2999; arXiv:1602.07576
  • S. Ravanbakhsh, “Universal Equivariant Multilayer Perceptrons”, arXiv:2002.02912
  • D.L.Bergman, “Symmetry constrained machine learning”, arXiv:1811.07051

Дискретные группы

  • S. Ravanbakhsh et al. “Equivariance Through Parameter-Sharing”, arXiv:1702.08389

Data Augmentation

  • S.Chen et al., “A Group-Theoretic Framework for Data Augmentation”, arXiv:1907.10905

Обзоры

  • C.Esteves “Theoretical aspects of group equivariant neural networks”, arXiv:2004.05154
  • L.D.Libera, “Deep Learning for 2D and 3D Rotatable Data: An Overview of Methods”, arXiv:1910.14594
  • L. von Rueden et al., “Informed Machine Learning –A Taxonomy and Survey of Integrating Knowledge into Learning Systems” arXiv: 1903.12394

Методы глубокого обучения для работы с несбалансированными данными

Обзор

Аннотация

Целью обзора является анализ существующих методов глубокого обучения для работы с несбалансированными данными. Несбалансированность понимается в смысле существенного различия числа объектов, принадлежащих различным классам. Эффективная классификация таких данных является важной областью исследований, поскольку сильная несбалансированность естественно присуща многим реальным прикладным задачам, например, обнаружению мошенничества в финансовой сфере или обнаружению онкологических заболеваний. Стандартные методы обучения могут испытывать трудности при работе с сильно несбалансированными данными, связанные с тем, что они в основном учитывают признаки больших классов, а в крайних случаях могут вообще игнорировать класс меньшинства.

Дисбаланс классов тщательно изучался в течение последних двух десятилетий с использованием традиционных моделей машинного обучения, то есть неглубокого обучения (см., например, M.Maalouf and T. B. Trafalis, Rare events and imbalanced datasets: an overview, Int. J. Data Mining, Modelling and Management, Vol. 3, No. 4, 2011). Несмотря на недавние достижения в области глубокого обучения и его растущую популярность, пока существует не очень много эмпирических исследований в области глубокого обучения с дисбалансом классов. Учитывая высокую производительность и эффективность использования глубоких нейронных сетей во многих сложных областях, исследование их применения для задач, содержащих высокий уровень дисбаланса классов, представляет большой интерес.

Существующие работы, касающиеся дисбаланса классов и глубокого обучения, анализируются в обзоре с точки зрения эффективности глубокого обучения при применении к данным с несбалансированными классами. При отборе предпочтения отдавались работам, в которых обработка несбалансированных данных осуществлялась нейронными сетями, содержащими два или более скрытых слоя, а также работам, связанным с достаточно высокой степенью несбалансированности данных, с применением предлагаемой методики к различным наборам данных и предоставляющих сравнение с другими существующими методиками. Обсуждаются методика и экспериментальные результаты каждого исследования, а также предлагаются дополнительные сведения об их сильных и слабых сторонах. Особое внимание уделено: сложности данных, протестированным архитектурам сетей, интерпретации производительности, простоте использования, возможности применения для больших данных. Для сравнения различных методов используются такие общепринятые метрики как: Precision, Recall, Selectivity, F-Measure, Balanced Accuracy, area under the ROC curve (AUC) и др.

Рассмотренные методы подразделяются на

  • методы предварительной подготовки данных (Data-level methods), в частности
    • random under-sampling (RUS), random over-sampling (ROS), dynamic sampling, two-phase learning;
  • совершенствование алгоритмов обучения (Algorithm-level methods), в частности
    • mean false error loss, focal loss, cost-sensitive deep neural network, very deep neural networks;
  • методы, сочетающие оба подхода (Hybrid methods), в частности
    • large margin local embedding, deep over-sampling.

Несколько традиционных методов обработки данных с дисбалансом классов, например ROS и обучение с учетом затрат оказались применимыми и в глубоком обучении, в то же время и более продвинутые методы, которые используют специфические возможности обучения на основе нейронных сетей, показывают многообещающие результаты. Обзор завершается обсуждением текущих пробелов в изучении применения глубоких нейронных сетей для анализа несбалансированных данных с целью определения направлений будущих исследований.

dlcp/biblio.txt · Last modified: 09/07/2021 08:26 by admin