Old German Handwriting Transcription
Crafted by a von Pfeilitzer-Franck Descendant


Меня зовут Артём Васильев, по профессии я индустриальный журналист. Но вот уже более 15 лет параллельно работаю с немецкоязычными документами в архивах – сначала делал это в целях собственного генеалогического исследования, а затем и для других увлечённых людей. Мои исследовательские интересы и география охватывают, прежде всего, архивы Балтийских стран – Латвии, Эстонии, Литвы – и Германии.
Здесь и сейчас, однако, я предлагаю не услуги архивного поиска, а транскрипцию – то есть расшифровку рукописных документов, выполненных старым немецким почерком (Kurrentschrift, Sütterlin). Эти скрипты, в обиходе называемые готическими, непросто даются даже современным носителям немецкого языка, поскольку старая каллиграфия отличается от ныне принятой. Документы, которые вы можете транскрибировать с моим участием, могут быть из любых государственных, ведомственных архивов – или из вашего семейного.
которые ваши предки подавали в те или иные учреждения, описывая свои жизненные ситуации
зачастую содержат описания ярких сюжетов с участием родственников и даже могут помочь раскрыть их характеры
куда ваши предки обращались за официальным подтверждением сословной принадлежности
например, купчие или инвентари, могут содержать любопытные сведения бытового и хозяйственного характера
из фондов учебных заведений, мест военной или гражданской службы предков
и многое, многое другое.
Есть одно исключение – документы, за расшифровку которых не берусь: это короткие разрозненные записи из метрических книг (о крещении, конфирмации, венчании, смерти). Вы можете найти волонтёров, которые помогут вам прочитать такие записи бесплатно: достаточно набрать German Transcription в поиске, например, на Фейсбуке и разместить запрос в соответствующих группах, которые вы там найдёте. Если же вы хотите транскрибировать более солидный объём (полную страницу сплошного текста, несколько или множество листов документов), то, пожалуйста, смело обращайтесь ко мне.
В конце каждого календарного года я усаживаюсь на целый день за тестирование актуальных машинных и AI-решений конкретно для целей транскрипции немецкого куррентшрифта. Пробую все имеющиеся на рынке модели (обязательно в платных версиях, то есть с максимальным функционалом). Замеряю процент ошибок, а также время, которое уходит на загрузку, обработку и систематизацию результатов, и самое главное — затраты времени и сил на сверку с исходной рукописью и внесение исправлений.
На одинаковом материале с несложным и довольно аккуратным почерком имеющиеся решения (но только те, которые реально распознают текст, а не галлюцинируют) показали от 3% до 16% неверно распознанных слов, учитывая как грамматические искажения, так и абсолютно ошибочные прочтения. Такой процент эквивалентен ложным вхождениям в каждой третьей — каждой первой строке рукописного текста, что чувствительно искажает смысловую картину и делает материал в таком виде малопригодным даже для машинного перевода: если ошибки в служебных словах ещё можно исправить вручную или через AI, то появление слов или буквосочетаний, которых в исходном документе не было, ведёт к ложным трактовкам обстоятельств дела.
В конечном счёте, мой тест-драйв показал: время на обработку и правку результатов автоматической транскрипции несложного почерка, с выявлением и исправлением всех ошибок, примерно равно тому времени, которое я трачу на расшифровку этого же текста вручную (причём я довольно быстро печатаю на клавиатуре вслепую).
Тренировать собственную модель для ещё лучших результатов? Актуально в случае, когда перед вами крупный массив документов, написанных одним и тем же человеком. В архивных же делах, как правило, такая солянка из почерков, что внутри будут листы, с которыми индивидуально натренированная модель справится хорошо (то есть с парой процентов ошибок), а будут такие, где доля ошибочно распознанных слов — больше половины. По крайней мере, таков мой опыт — время, затрачиваемое на тренировку модели под конкретный корпус документов (в пределах нескольких десятков или даже пары сотен листов), превышает затраты времени на их самостоятельную ручную транскрипцию, причём сверки с внесением правок всё равно не избежать.
При построчной транскрипции важно удерживать в поле зрения контекст и смысловую линию всего документа, чего пока не обеспечивают машинные модели (а если использовать дополнительную AI-обработку по результатам машинной транскрипции, тогда AI галлюцинирует — произвольно меняет слова в тексте на похожие и придумывает то, чего в исходном документе не было; отследить такие сюрпризы вы не сможете никак, если сами куррентшрифт не читаете).
Важно учесть и специфику написания имён, географических названий, вышедших из употребления терминов, диалектных вариаций, которые встречаются в старой рукописи, созданной на определённой территории. На профессиональном уровне все эти задачи может решить пока только живой человек, владеющий навыком чтения старонемецких скриптов.
Наконец, без профессиональной транскрипции никак не обойтись, если вы планируете, сейчас или в будущем, делать публикацию на материале транскрибированных документов.
Поэтому мой ответ и рекомендации —
— наконец, если вы уже потратили время, нервы и, возможно, деньги, пробуя машинные и AI-средства, и пришли к выводу, что конкретно для ваших задач требуется экспертный ручной труд, —
Вы можете отправить мне фотокопии/сканы материалов по электронной почте (пожалуйста, не уменьшайте файлы, а пришлите изображения в максимально доступном исходном разрешении либо дайте прямую ссылку на скачивание папки/файлового архива из облачного хранилища), я оценю их читабельность и срок выполнения работы (обычно сразу берусь за почерки конца XVIII, XIX и XX веков, более ранние периоды – смотря по ситуации).
Вы можете писать мне на английском, немецком или русском языках. В принципе, можно отправить запрос и на любом другом языке, тогда я прочитаю его с помощью машинного перевода и отвечу так же, для вашего удобства.
Примерную стоимость вы можете оценить заранее сами: я беру по 0.10 евро за каждое прочитанное слово (это самая низкая ставка, какую я встречал среди коллег). В редком случае чрезвычайно оригинального или небрежного почерка, за который я всё же буду готов взяться, мы заранее согласуем повышающий коэффициент для тех или иных листов в вашем наборе документов. Если в тексте будут фрагменты, которые не удалось транскрибировать, или слова, в которых я не уверен, они будут исключены из оплаты.
Будучи носителем русского языка как родного, я также могу расшифровать для вас документы на русском (знаю, что для многих, чьи предки когда-то жили в России, это актуально). И хотя сайт посвящён транскрипции с немецкого, вы можете смело запросить у меня работу с русскоязычными документами, если это для вас актуально.
С добрыми пожеланиями,
Артём В. Васильев