User Tools

Site Tools


dlcp2026:program

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
dlcp2026:program [09/06/2026 08:44] – [3. Применение графовых нейронных сетей для сегментации хитов в глубоководном нейтринном телескопе Baikal-GVD] admindlcp2026:program [09/06/2026 08:45] (current) – [13. Метод автоматизированной обработки научных публикаций] admin
Line 27: Line 27:
  
  
-//**Хвостова Мария Олеговна (1)**, Артамонов Алексей Анатольевич(2),  Пряхина Дарья Игоревна \\ (1) Филиал МГУ в г. Дубне, (2) НИЯУ МИФИ, (3) ОИЯИ //+//**Хвостова Мария Олеговна (1)**, Артамонов Алексей Анатольевич(2),  Пряхина Дарья Игоревна (3) \\ (1) Филиал МГУ в г. Дубне, (2) НИЯУ МИФИ, (3) ОИЯИ //
  
 В работе представлен метод автоматизированной обработки полнотекстовых научных публикаций в формате PDF, который выполняет анализ основных типов информации – таблиц, рисунков, текста. Таблицы и рисунки структурируются на уровне распознавания названий, извлечения и упорядочивания ячеек. Это позволяет преобразовать визуальные объекты в машиночитаемый формат для дальнейшего индексирования, а сохранение соответствующих областей документа-источника в виде изображений даёт возможность верифицировать извлечённые данные вручную. Текст анализируется по предикатно-аргументной модели. Аргументы, выполняют разные синтаксические роли – агент, пациенс, локатив, темпоратив, мера, инструмент, результат – и несут информацию об объектах, задействованных в эксперименте (материалы, оборудование и установки), условиях проведения эксперимента (место, время, параметры), количественных характеристиках. Предикаты устанавливают отношения между аргументами, благодаря чему формируются структурированные смысловые единицы, которые извлекаются с помощью набора продукционных правил. Атрибутирование источника осуществляется при извлечении ключевых библиографических сведений – авторов, названия, журнала и даты публикации, цифрового идентификатора . В работе используются: свёрточные нейронные сети для оптического распознавания символов и детекции структурных объектов на страницах публикации; трансформерная модель для морфо-синтаксического анализа предложений; языковая модель для извлечения неграмматичных данных; лингвистический анализатор на основе продукционных правил для грамматичных данных. Метод устойчив к вариативности визуально-структурной модели документа, не требует обучения на размеченных данных и может быть адаптирован для различных научно-технических дисциплин. Результаты ориентированы на практическое применение в наукометрических системах и базах знаний. В работе представлен метод автоматизированной обработки полнотекстовых научных публикаций в формате PDF, который выполняет анализ основных типов информации – таблиц, рисунков, текста. Таблицы и рисунки структурируются на уровне распознавания названий, извлечения и упорядочивания ячеек. Это позволяет преобразовать визуальные объекты в машиночитаемый формат для дальнейшего индексирования, а сохранение соответствующих областей документа-источника в виде изображений даёт возможность верифицировать извлечённые данные вручную. Текст анализируется по предикатно-аргументной модели. Аргументы, выполняют разные синтаксические роли – агент, пациенс, локатив, темпоратив, мера, инструмент, результат – и несут информацию об объектах, задействованных в эксперименте (материалы, оборудование и установки), условиях проведения эксперимента (место, время, параметры), количественных характеристиках. Предикаты устанавливают отношения между аргументами, благодаря чему формируются структурированные смысловые единицы, которые извлекаются с помощью набора продукционных правил. Атрибутирование источника осуществляется при извлечении ключевых библиографических сведений – авторов, названия, журнала и даты публикации, цифрового идентификатора . В работе используются: свёрточные нейронные сети для оптического распознавания символов и детекции структурных объектов на страницах публикации; трансформерная модель для морфо-синтаксического анализа предложений; языковая модель для извлечения неграмматичных данных; лингвистический анализатор на основе продукционных правил для грамматичных данных. Метод устойчив к вариативности визуально-структурной модели документа, не требует обучения на размеченных данных и может быть адаптирован для различных научно-технических дисциплин. Результаты ориентированы на практическое применение в наукометрических системах и базах знаний.
dlcp2026/program.txt · Last modified: by admin