В год 80-летия Великой Победы в Великой Отечественной войне в Самаре реализован цифровой проект «Книга Памяти г. о. Самара». На
сайте собраны поименные списки участников войны, которые вошли в печатные «Книги памяти Самарской области», а также информация о жителях Куйбышева, сведения о которых предоставлена родственниками через опросы учащихся школ.
Для обработки архивных материалов была выбрана ContentCapture, универсальная IDP-платформа от компании Content AI. Решение применяет передовые OCR- и NLP-технологии в интеграции с большими языковыми моделями (LLM) для высокоточного распознавания и извлечения данных из документов разного типа, в том числе слабоструктурированных и неструктурированных.
Проект реализуется под патронажем департамента опеки и попечительства Администрации городского округа Самара при участии ГБУ «Дворец ветеранов» и поддержке министерства цифрового развития и связи Самарской области.
«Сего дня цифровизация не только меняет облик нашей страны, но и позволяет нам сохранить память о тех, кто отдал свои жизни за нашу свободу. Современные технологии помогают сохранить ценные материалы (фотографии, документы, воспоминания ветеранов) для будущих поколений, а также сделать их доступными для всех. Благодаря «Книге памяти» каждый сможет не только узнать о подвиге своих предков и прочитать их истории, но и дополнить их новыми фактами и документами», - отметил заместитель председателя правительства – министр цифрового развития и связи Самарской области Виктор Злобич.
«На мой взгляд, очень важно, что в таком формате проект не завершится Днем Победы, а продолжит пополняться, долгие годы будет «живым» и по-настоящему народным. Сейчас собрана информация более чем о 55 тысячах бойцах, ушедших на фронт из Куйбышева и погибших в годы войны. Впереди еще много работы – предстоит опубликовать данные о тех участниках Великой Отечественной войны, которые ушли из жизни уже после Победы, тружеников тыла», – отметил глава Самары Иван Носков.
Партнером проекта стала российская компания-разработчик продуктов на базе искусственного интеллекта с использованием технологий распознавания текста Content AI (ООО «Контент ИИ»).
«Content AI продолжает поддерживать инициативы, направленные на сохранение исторической памяти, демонстрируя, как современные ИТ-решения служат благородным целям, а новейшие технологии становятся мостом между прошлым и будущим. Мы убеждены, что социальная ответственность бизнеса начинается с сохранения исторической правды, а патриотизм – с уважения к подвигу предков», - сообщила генеральный директор Content AI Светлана Дергачева.
В рамках проекта с помощью ContentCapture оцифрованы десятки тысяч записей из архивных книг. Дополнительно собраны и оцифрованы данные, предоставленные родственниками участников ВОВ. Особое внимание было уделено верификации данных, что позволило минимизировать возможные ошибки при обработке исторических документов.
Благодаря представленным инструментам по оцифровке текстов печатных «Книг памяти Самарской области» к сегодняшнему дню удалось перевести в цифру шесть томов и опубликовать информацию более чем о 55 000 воинах. Это пофамильные списки участников боевых действий, призванных на фронт через военкоматы Куйбышева и погибших в годы войны. Общий объем оцифрованных страниц составляет порядка 2 000.
Созданный на основе извлеченных данных поисковый каталог на сайте проекта дает возможность находить информацию о военнослужащих по различным критериям: дате рождения, месту призыва, службе и другим атрибутам.
Работа по наполнению электронной Книги Памяти продолжается. В дальнейшем планируется работа над оцифровкой томов, включающих данные о бойцах, погибших после окончания войны.
Автор: Редакция TLTgorod