В Москве научили нейросети читать исторические документы
В январе 2023 года в Москве запустили совместную платформу столичного Главархива и «Яндекса» «Поиск по архивам». В ней с помощью нейросетей расшифровываются архивные записи со сложной орфографией XVIII — начала XX веков. О развитии проекта по внедрению технологий компьютерного зрения в сферу архивного дела в Международный день архивов рассказала заместитель мэра Москвы по вопросам социального развития Анастасия Ракова.
Искусственный интеллект научился за секунды находить в сложнейших исторических документах упоминания фамилий, имен, топонимов и любых других слов, что делает поиск информации о предках москвичей легче и быстрее, а также помогает в составлении генеалогического древа.
В распоряжении Комплекса социального развития Москвы уже была современная цифровая техника и огромный архив оцифрованных документов по истории семьи — именно эти материалы послужили основой для обучения искусственного интеллекта. Сейчас в базе сервиса представлено 4,5 миллиона образов архивных документов, а это более 9 миллионов страниц метрических книг, исповедных ведомостей, ревизских сказок
Анастасия Ракова
вице-мэр Москвы
Заммэра отметила, что новый сервис стал эффективным помощником для исследователей и архивистов. С момента его запуска пользователи нашли и изучили уже около пяти миллионов образов с текстовой расшифровкой — больше половины всех представленных на платформе материалов. Сервис по чтению старинных рукописей доступен абсолютно бесплатно. В нем можно искать по материалам наиболее популярных у москвичей двух столетий. Поиск доступен по каталогу или через строку поиска. Кроме того, есть фильтры по городам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями. При наведении курсора на нужный фрагмент он подсвечивается и на цифровой копии.
К эксперименту по внедрению искусственного интеллекта в архивы уже присоединились Московская, Оренбургская, Новгородская области, а также Республика Мордовия. Разработанные в Москве нейросети проанализировали порядка 1,7 миллиона электронных копий документов из региональных архивов.