User Tools

Site Tools


dlcp:biblio

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
dlcp:biblio [20/04/2021 18:16] – [Обзоры] demichevdlcp:biblio [20/04/2021 18:30] – [Обзор] demichev
Line 25: Line 25:
   * L. von Rueden et al., "Informed Machine Learning –A Taxonomy and Survey of Integrating Knowledge into Learning Systems" arXiv: 1903.12394   * L. von Rueden et al., "Informed Machine Learning –A Taxonomy and Survey of Integrating Knowledge into Learning Systems" arXiv: 1903.12394
  
-==Методы глубокого обучения для работы с несбалансированными данными==+======Методы глубокого обучения для работы с несбалансированными данными===== 
 + 
 +==== Обзор ==== 
 + 
 +  * [[https://doi.org/10.1186/s40537-019-0192-5|Justin M. Johnson and Taghi M. Khoshgoftaar "Survey on deep learning with class imbalance" J Big Data (2019) 6:27]] 
 + 
 +=== Аннотация === 
 + 
 +Целью обзора является анализ существующих методов глубокого обучения для работы с несбалансированными данными. Несбалансированность понимается в смысле существенного различия числа объектов, принадлежащих различным классам. Эффективная классификация таких данных является важной областью исследований, поскольку сильная несбалансированность  естественно присуща многим реальным прикладным задачам, например, обнаружению мошенничества в финансовой сфере или обнаружению онкологических заболеваний. Стандартные методы обучения могут испытывать трудности при работе с сильно несбалансированными данными, связанные с тем, что они в основном учитывают признаки больших классов, а в крайних случаях могут вообще игнорировать класс меньшинства.  
 + 
 +Дисбаланс классов тщательно изучался в течение последних двух десятилетий с использованием традиционных моделей машинного обучения, то есть неглубокого обучения (см., например, M.Maalouf and T. B. Trafalis, Rare events and imbalanced datasets: an overview, Int. J. Data Mining, Modelling and Management, Vol. 3, No. 4, 2011). Несмотря на недавние достижения в области глубокого обучения и его растущую популярность, пока существует не очень много эмпирических исследований в области глубокого обучения с дисбалансом  классов. Учитывая высокую производительность  и эффективность использования глубоких нейронных сетей во многих сложных областях, исследование их применения для задач, содержащих высокий уровень дисбаланса классов, представляет большой интерес. 
 + 
 +Существующие работы, касающиеся дисбаланса классов и глубокого обучения, анализируются в обзоре с точки зрения эффективности глубокого обучения при применении к данным с несбалансированными классами. При отборе предпочтения отдавались работам, в которых обработка несбалансированных данных осуществлялась нейронными сетями, содержащими два или более скрытых слоя, а также работам, связанным с достаточно высокой степенью несбалансированности данных, с применением предлагаемой методики к различным наборам данных и предоставляющих сравнение с другими существующими методиками. Обсуждаются методика и экспериментальные результаты каждого исследования, а также предлагаются дополнительные сведения об их сильных и слабых сторонах. Особое внимание уделено: сложности данных, протестированным архитектурам сетей, интерпретации производительности, простоте использования, возможности применения для больших данных. Для сравнения различных методов используются такие общепринятые метрики как: Precision, Recall, Selectivity, F-Measure, Balanced Accuracy, area under the ROC curve (AUC) и др. 
 + 
 +Рассмотренные методы подразделяются на  
 +    * методы предварительной подготовки данных (Data-level methods), в частности 
 +        * random under-sampling (RUS), random over-sampling (ROS), dynamic sampling, two-phase learning; 
 +    * совершенствование алгоритмов обучения (Algorithm-level methods), в частности 
 +        * mean false error loss, focal loss, cost-sensitive deep neural network, very deep neural networks; 
 +    * методы, сочетающие оба подхода (Hybrid methods), в частности 
 +        * large margin local embedding, deep over-sampling. 
 + 
 +Несколько традиционных методов обработки данных с дисбалансом классов, например ROS и обучение с учетом затрат оказались применимыми и в глубоком обучении, в то же время и более продвинутые методы, которые используют специфические возможности обучения на основе нейронных сетей, показывают многообещающие результаты. Обзор завершается обсуждением текущих пробелов в изучении применения глубоких нейронных сетей для анализа несбалансированных данных с целью определения направлений будущих исследований. 
dlcp/biblio.txt · Last modified: 09/07/2021 08:26 by admin