Ученые впервые создадут интерактивную базу древнеславянских текстов с помощью технологий искусственного интеллекта
Коллаборация ученых Института русского языка им. В.В. Виноградова РАН, НИТУ "МИСиС", НИУ ВШЭ при поддержке Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы запустила масштабный проект по созданию с помощью технологий искусственного интеллекта и машинного обучения уникальной базы древнеславянских рукописных текстов - корпуса. Создание корпуса древнеславянского языка даст исследователям-лингвистам и историкам мощный инструмент для изучения всех современных национальных славянских языков и культур и станет уникальным ключом к пониманию их наследия.
Корпус - это структурированная база данных языка, информационно-справочная система, основанная на собрании текстов на определенном языке в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.
Древнеславянские тексты представляют собой многообразие рукописных памятников XI - XVII веков, фундамент всех современных национальных славянских языков и культур. Создание системного корпуса языка связано с трудоемкой, тонкой и кропотливой работой, требующей объединения усилий профессионалов из различных областей и, по мнению ученых, является задачей общенационального характера.
Иеромонах Родион (Ларионов), заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы:
"В настоящее время не существует корпуса рукописных славянских текстов, и его создание рассматривается учёными различных дисциплин как важная задача. Основной объем древнеславянских - древнерусских, болгарских, сербских текстов XI - XVII веков, которые дошли до нас - это несколько тысяч богослужебных рукописей. Язык меняется от века к веку. Для ученых важно понять, во-первых, почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой. Если анализировать и систематизировать человеческими ресурсами тот объем данных, который представляют собой древнеславянские рукописи - это астрономическая работа, которая растянулась бы на века, особенно, учитывая, что профессионалов, которые способны делать эту работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести это важную работу в обозримое время".
Искусственный интеллект позволит охватить весь этот гигантский массив данных, систематизировать и создать алгоритмы расстановки лингвистической разметки - главной характеристики корпуса. Именно она отличает корпус от простой библиотеки.
Проекты по использованию цифровых подходов к анализу культурного наследия активно развиваются в европейских странах и являются прекрасным примером междисциплинарного взаимодействия. В отношении языковых памятников, можно отметить два принципиальных направления работ - преобразование сканированных изображений в "машиночитаемый" вид и построение языковых моделей, упрощающих анализ и понимание текстов. Со славянскими текстами, написание букв (графем) которых отличается витиеватостью и широким использованием диакритических знаков, таких системных наработок еще не предпринималось.
Андрей Устюжанин, ведущий эксперт Центра инфраструктурного взаимодействия и партнёрства MegaScience НИТУ "МИСиС", руководитель Научно-учебной лаборатории методов анализа больших данных НИУ Высшей школы экономики:
"Естественный язык является ключевым полигоном для развития технологий ИИ. Именно благодаря этим технологиям задачи машинного перевода, построение диалоговых систем и задачи интерпретации текстов на естественном языке получили мощный толчок в последнее время. В некотором смысле, такой проект является мостиком от культуры прошлого к технологиям будущего. По нашему опыту междисциплинарных проектов не так важно заручиться самой продвинутой технологией, как заложить основы общения людей друг с другом - специалистов по языку со специалистами по искусственному интеллекту".
Первым этапом проекта станет оцифровка и разметка комплекса древнеславянских миней XI-XVII веков на древнерусском, болгарском и сербском языках - служебных церковных книг, содержащих распорядок служб всех дней церковного года, рукописи которых хранятся в собраниях Государственного исторического музея, Российской национальной и государственной библиотек, Российского государственного архива древних актов, Свято-Троицкой Сергиевой лавры.
+7 495 647-23-09
Справка о НИТУ "МИСиС"
НИТУ "МИСиС" - один из наиболее динамично развивающихся научно-образовательных центров страны. Находясь в числе лидеров технологического образования России, НИТУ "МИСиС" также представляет собой полноценный научный центр. Университет занимает ведущие позиции в мире в предметных рейтингах THE, QS и ARWU сразу по 13 направлениям, входя в топ-100 в категориях "Инжиниринг-Горное дело" (рейтинг QS) и "Инжиниринг-Металлургия" (рейтинг ARWU), в области материаловедения НИТУ "МИСиС" в группе 101+ лучших вузов (рейтинг QS).
Стратегическая цель НИТУ "МИСиС" к 2020 году укрепить лидерство по направлениям специализации: материаловедение, металлургия и горное дело, а также существенно усилить свои позиции в сфере био-, нанотехнологий и ИТ. В состав университета входит 10 институтов, 6 филиалов - четыре в России и два за рубежом. В НИТУ "МИСиС" учится более 22 000 обучающихся из 81 страны мира. В университете действуют более 30 научно-исследовательских лабораторий и 3 инжиниринговых центра мирового уровня, в которых работают ведущие российские и зарубежные ученые. НИТУ "МИСиС" успешно реализует совместные проекты с крупнейшими высокотехнологичными компаниями России и мира.