====== Демичев23 ====== Название: \\ **Разработка и исследование способов совместного анализа мультимодальных экспериментальных данных на основе выделения существенных признаков методами глубокого обучения ** ===== Аннотация ===== В современную цифровую эпоху постоянно порождаются огромные и все увеличивающиеся объемы данных. Поэтому обработка и анализ получаемой информации является одной из наиболее важных и насущных задач. Часто эти данные поступают из различных источников, отражают различные стороны объектов или явлений и поэтому являются существенно неоднородными. Такие данные имеют разные типы и форматы, что очень сильно затрудняет их совместную обработку и анализ. В связи с этим, существует настоятельная потребность в разработке новых эффективных и совершенствовании существующих методов совместной обработки и анализа больших потоков разнородных, мультимодальных данных. Это является центральной научной проблемой, на решение которой направлен данный проект. Актуальность этой проблематики обусловлена многочисленными примерами важности таких методов в конкретных прикладных областях, например, в медицине, управлении процессами жизнедеятельности городов, климатических и экологических исследованиях, естественных науках и многих других. ++++Конкретной задачей| в рамках проблемы, на решение которой направлен проект, является разработка новых эффективных способов совместной обработки мультимодальных данных, которые будут апробированы на модельных и реальных данных из области гамма-астрономии, а именно данных, получаемых с помощью гибридной системы детекторов, регистрирующих широкие атмосферные ливни в эксперименте TAIGA. Мультимодальность означает, что полный набор данных состоит из нескольких подмножеств, каждое из которых содержит данные одного типа, а типы данных в разных подмножествах отличаются друг от друга. Важно отметить, что мультимодальность характерна в целом для экспериментов в области современной многоканальной астрономии, поскольку собираемая информация об изучаемых явлениях имеет не только очень большой объем, но и большое разнообразие по своей природе и характеристикам. Новизна предлагаемого проекта обусловлена новаторским методологическим подходом для решения этой задачи, а именно осуществлением объединения и совместного анализа не на уровне сырых экспериментальных данных, а после извлечения с помощью нейросетевых технологий их существенных признаков, которые отражают сущность явления, а не конкретный метод его регистрации. При этом будет поставлена задача максимально возможного согласования формата признаков, полученных из разных наборов данных. Таким образом, одна часть проекта будет посвящена выбору и оптимизации методов извлечения существенных признаков, то есть преобразования входного пространства в подпространство меньшей размерности, которое сохраняет большую часть релевантной информации, адекватной цели исследования. Важной частью исследования будет разработка методов интерпретации существенных признаков на языке прикладной области, основанных на машинном обучении, а также возможность управления этими признаками с помощью параметров из этой прикладной области. Вторая часть проекта будет посвящена разработке методов совместного анализа существенных признаков данных, полученных из разных источников. Для этого предполагается использовать различные методы, например, простая конкатенация, перенос или многозадачное обучение, использование рекуррентных сетей, совместное обучение. Решение поставленных задач и разработанные методы обеспечат ученых инструментарием для совместного анализа больших мультимодальных данных. Его эффективность будет подтверждена на примере задач гамма-астрономии, что, в свою очередь, создаст хороший задел для лучшего понимание процессов, происходящих во Вселенной. В силу общего характера решаемых задач, разработанные методы могут быть применены в других областях науки и техники, требующих комплексного анализа данных, поступающих по нескольким каналам. Таким образом, задачи, поставленные в проекте, являются актуальными, инновационными, масштабными и носят мультидисциплинарный характер. ++++ ===== Ожидаемые результаты ===== Основным результатом предлагаемого проекта будут новые эффективные нейросетевые методы на основе глубоко обучения и реализующий их комплекс программ, предназначенный для обработки и совместного анализа разнородных мультимодальных данных, полученных из различных источников. Частью этого набора методов и их реализаций будут методы отбора существенных признаков экспериментальных данных с помощью машинного обучения с последующей интерпретацией полученных признаков в терминах предметной области для обеспечения возможности их дальнейшего качественного анализа. Актуальность и значимость этого результата связана с тем, что хотя в сравнительно простых случаях выбор величин, характеризующих исследуемое явление, может оказаться естественным и даже очевидным, при исследовании и моделировании сложных систем сам выбор существенных признаков изучаемых явлений является очень сложным и неоднозначным. ++++Второй частью| этих методов и соответствующих программных реализаций будут методы обучения нейросетей на основе совместного использования тренировочных наборов признаков разнородных данных и последующего совместного анализа разнородных экспериментальных данных, полученных из различных источников. Все это должно позволить выделить интересующие исследователей характеристики явлений, которые не могут быть получены из анализа данных отдельных экспериментальных установок. Заметим, что решение таких задач методами машинного обучения является инновационным и будет реализовано впервые в мире. Результаты, полученные в ходе выполнения проекта, будут апробированы на реальных данных из области гамма- астрономии, в первую очередь на данных эксперимента TAIGA (Tunka Advanced Instrument for cosmic ray physics and Gamma Astronomy; https://taiga-experiment.info). В эксперименте TAIGA такой подход будет применен впервые. Массив анализируемых данных проекта TAIGA является гетерогенным и состоит из данных, получаемых с черенковских телескопов (Imaging Atmospheric Cherenkov Telescope; IACT), с широкоугольных детекторов с фиксацией времени прихода и временной развертки сигнала TAIGA-HiSCORE, а также с мюонных детекторов. Данные черенковских телескопов TAIGA-IACT и детекторов TAIGA-HiSCORE являются существенно разнотипными: в первом случае это изображения, получаемые камерами телескопов, а во втором – пространственно-временные характеристики сигналов с регистрацией их интенсивностей. Таким образом, успешное применение разработанных в рамках проекта методов для анализа разнородных данных эксперимента TAIGA убедительно продемонстрирует их возможности и практическую применимость. Необходимо подчеркнуть, что разработанные методы и их программная реализация, полученные для этого конкретного приложения, будут представлять большой самостоятельный научный интерес. В связи с этим в рамках проекта будет осуществлено всестороннее сравнительное исследование самих разработанных методов, а результаты представлены в виде значений соответствующих метрик и общих выводов. Хотя разработанные методы будут апробированы для задач астрофизики, они могут быть с успехом применены в других областях фундаментальной и прикладной науки, а также в высокотехнологичных отраслях экономики. В частности, такие методы найдут применение в медицине, управлении процессами жизнедеятельности городов, климатическими и экологическими исследованиями, в энергетике, анализе финансовых рынков, при дистанционном зондировании Земли, материаловедении и многих других областях. ++++ ===== Участники ===== * **Демичев Андрей Павлович, руководитель**. * Крюков Александр Павлович, ответственный исполнитель. * Журов Дмитрий Павлович, ответственный исполнитель. * Дубенская Юлия Юрьевна, ответственный исполнитель. * Гринюк Андрей Анатольевич, исполнитель. * Гресь Елизавета Олеговна, исполнитель. * Власкина Анна Александровна, исполнитель.