Differences

This shows you the differences between two versions of the page.

--- dlcp2026:program [09/06/2026 08:44] – [3. Применение графовых нейронных сетей для сегментации хитов в глубоководном нейтринном телескопе Baikal-GVD] admin
+++ dlcp2026:program [09/06/2026 08:45] (current) – [13. Метод автоматизированной обработки научных публикаций] admin
@@ Line 27: / Line 27: @@
-//**Хвостова Мария Олеговна (1)**, Артамонов Алексей Анатольевич(2),  Пряхина Дарья Игоревна \\ (1) Филиал МГУ в г. Дубне, (2) НИЯУ МИФИ, (3) ОИЯИ //
+//**Хвостова Мария Олеговна (1)**, Артамонов Алексей Анатольевич(2),  Пряхина Дарья Игоревна (3) \\ (1) Филиал МГУ в г. Дубне, (2) НИЯУ МИФИ, (3) ОИЯИ //
 В работе представлен метод автоматизированной обработки полнотекстовых научных публикаций в формате PDF, который выполняет анализ основных типов информации – таблиц, рисунков, текста. Таблицы и рисунки структурируются на уровне распознавания названий, извлечения и упорядочивания ячеек. Это позволяет преобразовать визуальные объекты в машиночитаемый формат для дальнейшего индексирования, а сохранение соответствующих областей документа-источника в виде изображений даёт возможность верифицировать извлечённые данные вручную. Текст анализируется по предикатно-аргументной модели. Аргументы, выполняют разные синтаксические роли – агент, пациенс, локатив, темпоратив, мера, инструмент, результат – и несут информацию об объектах, задействованных в эксперименте (материалы, оборудование и установки), условиях проведения эксперимента (место, время, параметры), количественных характеристиках. Предикаты устанавливают отношения между аргументами, благодаря чему формируются структурированные смысловые единицы, которые извлекаются с помощью набора продукционных правил. Атрибутирование источника осуществляется при извлечении ключевых библиографических сведений – авторов, названия, журнала и даты публикации, цифрового идентификатора . В работе используются: свёрточные нейронные сети для оптического распознавания символов и детекции структурных объектов на страницах публикации; трансформерная модель для морфо-синтаксического анализа предложений; языковая модель для извлечения неграмматичных данных; лингвистический анализатор на основе продукционных правил для грамматичных данных. Метод устойчив к вариативности визуально-структурной модели документа, не требует обучения на размеченных данных и может быть адаптирован для различных научно-технических дисциплин. Результаты ориентированы на практическое применение в наукометрических системах и базах знаний.