6989

Студентам удалось расшифровать фрагмент древнего свитка, обугленного 2000 лет назад при извержении Везувия, с помощью машинного обучения

16 октября 2023

Двум студентам, участникам конкурса «Первые письма» проекта Vesuvius Challenge, удалось независимо друг от друга расшифровать фрагмент из геркуланумского папируса. Этому предшествовали работа и открытия других участников проекта.

Начало проекта

Геркуланумские папирусы — древние свитки, хранившиеся в библиотеке частной виллы вблизи Помпеи, — были погребены в пепле и лаве в результате извержения Везувия в 79 году нашей эры. Почти две тысячи лет эта единственная сохранившаяся библиотека античности оставалась под 20-метровым слоем вулканической грязи. В 1700-х годах их раскопали, но, хотя они в какой-то мере сохранились благодаря извержению, открыть и прочитать их невозможно: при неправильном обращении свитки превратились бы в пыль.

В 2019 году профессор Брент Силз из лаборатории EduceLab Университета Кентукки получил 3D-изображение геркуланумских свитков, создав трехмерные томограммы с разрешением до 4 мкм. Аспирант профессора Силса, Стивен Парсонс, работал над обнаружением чернил на КТ-сканах с помощью моделей машинного обучения и добился успеха в работе с отдельными фрагментами.

Это привлекло внимание технологических предпринимателей Ната Фридмана и Дэниела Гросса, которые организовали проект Vesuvius Challenge с конкурсом для ускорения этого прогресса. Они объявили открытый конкурс в марте 2023 году и наряду с главным призом в $700 тысяч объявили, что дадут несколько призов за разработку инструментов и методов с открытым исходным кодом.

В начале лета к команде изучавших свиток присоединились несколько аннотаторов. Они начали картировать трехмерную структуру свитка и к июлю сегментировали и виртуально «сплющили» сотни квадратных сантиметров папируса.

Не трещины, а чернила

В начале августа участник конкурса Кейси Хэндмер, архитектор ПО в Лаборатории реактивного движения NASA, сообщил в блоге о своем открытии «узора из трещин», похожего на следы чернил. Он обнаружил этот узор, глядя на сегментированные томограммы свитка в течение нескольких часов подряд. Стивен Парсонс и раньше видел прямые свидетельства наличия чернил в отделившихся кусочках папируса, но внутри свитка их еще не наблюдали. Кейси стал первым человеком за последние две тысячи лет, обнаружившим чернила и текст внутри нераспечатанного свитка.

Модель Люка Фарритора

После находки Хэндмера участники конкурса стали активно искать похожие трещины, но это оказалось сложной задачей. Студент колледжа и стажер SpaceX Люк Фарритор узнал о конкурсе «Везувий» из подкаста. Он увидел, что модель трещин Кейси обсуждается в Discord, и начал тренировать модель машинного обучения на изучение трещин. С каждой новой найденной трещинкой модель улучшалась. Фарритор нашел несколько десятков чернильных штрихов и несколько целых букв, которые можно было пометить и использовать в качестве обучающих данных.

Вскоре очертания начали складываться в буквы и стали похожи на настоящие слова. Тогда Фарритор подал заявку на участие в конкурсе «Первые письма», в рамках которого участники должны были найти не менее десяти букв на площади 4 кв. см. Вот поданная им работа:

Профессор Силс показал это изображение группе папирологов проекта Vesuvius Challenge — ученых, специализирующихся на дешифровке древних текстов, — и те сразу же смогли прочитать слово porphyras (πορφyραс), несмотря на то что буквы были нечеткими. Оно означает «пурпурный» и встречается в древних текстах довольно редко.

Каждый квадрат обозначает одно мнение специалиста. Зеленый: более 80% уверенности в том, какая это буква, желтый — 50–80% уверенности, красный — менее 50% уверенности

Модель Юссефа Надера

Тем временем другой участник конкурса, Юссеф Надер, египетский аспирант, изучающий биоробототехнику в Берлине, использовал другой подход. Вдохновленный результатами Хэндмера и Фарритора, он проанализировал работы победителей одного из конкурсов Kaggle по распознаванию чернил, в частности, изучил совершенствование подхода Стивена Парсонса (упомянутого выше) к машинному обучению на отдельных фрагментах. Юссеф также подал свою заявку на премию «Первые письма». Он увидел первые результаты Люка, которыми тот делился в Twitter и Discord, и решил сфокусироваться на той же области в рамках свитка. Он нашел похожие на буквы символы, присвоил им метки.

Модели, обученные на этих метках, были способны обнаруживать чернила внутри свитка. В итоге Юссефу удалось получить изображение, представленное ниже.

Папирологи пришли к выводу, что их догадки были верны, а также начали строить предположения о возможных словах выше (ανυοντα / ANYONTA, «достижение») и ниже (ομοιων / OMOIωN, «подобный»). Юссеф Надер получили приз в $10 тысяч.

Кроме того, модель Юссефа создала новое изображение свитка — значительное по размеру и четкости. На этом изображении хорошо видны четыре с половиной колонки текста, разделенные полями. Теперь видно гораздо больше букв, хотя не все из них можно сразу разобрать. Сейчас их изучают папирологи.

Нам очень нужна ваша помощь

Подпишитесь на регулярные пожертвования

Расследования

Репортажи

Аналитика