Проект Transkribus — разработка нейросети для распознавания старинного рукописного текста

lesnik.bryma · 11 дек 2020

Доброго дня.

Данная программа предназначена для нейросети способной разобрать старинный рукописный текст.

https://readcoop.eu/transkribus/

Суть в том что создается обучаемая модель нейросети.

Загружается страница с текстом.
Программа размечает нераспознанные символы.

В области соответствия символам вводится соответствующие символы.
Пока нейросеть не обучится.

Это некоммерческий проект попробовать сделать свою нейросеть по сути может каждый.

К программе прелагаются инструкции по обучению нейросети.
Не много сложная двойная регистрация.

Первая для доступа в личный аккаунт.
Вторая письмо разработчикам с просьбой включить возможность обучить нейросеть.

Программа на английском, как и все инструкции.

Лично у меня пока не получилось обучить нейросеть.

P.S.
Некоторое время не решался публиковать, понимая что в будущем от этого многие люди потеряют работу.
Но так или иначе все документы будут оцифрованы или рассыпятся (, или выцветут чернила). И эти люди потеряют работу позже.
Я надеюсь, будет достаточно времени что бы перестроится.
Но в любом случае прошу прощения за все негативные последствия.

alkevk · 11 дек 2020

Замечательная новость! Вы думаете,что она быстро попадете а Беларуские архивы при этом руководстве???

lesnik.bryma · 11 дек 2020

alkevk сказал(а): ↑

Замечательная новость! Вы думаете,что она быстро попадете а Беларуские архивы при этом руководстве???
Нажмите, чтобы раскрыть...

Доброго дня.
Я скорее про работу частных генеалогов.

Но я может немного преувеличил.
Это ведь будет с момента создания нейросети.
А полная индексация всех документов может растянуться на долгий срок.

Тем более будут индексироваться
уже оцифрованныедокументы. Но их пока сравнительно мало.

Что касается архивов РБ.

Я думаю в будущем будет разрешена пользовательская съёмка документов (хотя бы платная, с платой за день, а не страницу).

kiessling · 11 дек 2020

lesnik.bryma сказал(а): ↑

Лично у меня пока не получилось обучить нейросеть.
Нажмите, чтобы раскрыть...

А на каком количестве документов пытались тренировать? На каких именно доках?
Это реально не так и просто, я занимаюсь подготовкой массивов данных, и как-то довольно скептично отношусь к тому, что нейросети заберут у людей работу)

Andzej · 11 дек 2020

Доброго времени суток.

Очень интригующая информация. По работе сталкивался с применением computer vision & image recognition, но там был уклон в алгоритмический подход, интересные точки и всякое такое. Нейронками не пользовался. По ощущениям, не думаю, что это прямо silver bullet для генеалогических изысканий. Па крайней мере сейчас и в ближайшие лет 5 - 10. Тут люди натренированные чужие почерка читают с трудом, бывает. Всё упрётся в разный почерк у рукописей. Я к тому, что зря вы перерживаете, что очень узкая когорта людей потеряет хлеб. Не потеряет. Просто потому, что в это не вбухивают столько денег как в автопилоты для авто. Вот части водителей нужно уже сейчас подумать, что они будут делать потом. Не потому что там уже прям прорыв, а потому что там уже закопано столько денег и тот кто вложил - ждёт результат.

Теперь касательно вашего опыта использования этого Транскрибуса. Я пробежал по how-to тамошнему и там пишут, что для тренировки нужно 25 - 75 страниц (5000 - 15000 слов). Сколько вы подсовывали в качестве массива для обучения?

И такой ещё вопрос, оно требует каких-то мощностей (видеокарта) для обучения, или там можно cpu ограничится?

И что-то я не совсем понял про платную подписку и кредиты их какие-то. Это если хочешь уже на обученной модели проприетарной что-то распознать или что-то другое имеется ввиду? Просто сделать свою модель и потом за её использование ещё что-то платить это как-то неестественно.

И там есть пассаж про то, что нужно разработчикам писать, если хочешь свою модель делать, чтобы они разлочили такую фичу. Это справедливо для скачанного клиента только, или то что у них в гите лежит тоже с залоченным функционалом?

Andzej · 11 дек 2020

Почитал там у них внимательнее.
Таки да, не важно какой моделью ты пользуешься, бесплатно распознать можно только 500 страниц. Одна плёнка с fs это больше 1000 кадров. А хотелось бы прямо деканатами метрики распознавать. Для поиска в тупиковых ветках.

Например у меня с Пакальнисом такой затык. По самым ранним ревизским сказкам всё что о нём удалось узнать, так это то, что он был записан приёмышем в одном из дворов не под своей фамилией. Ясен-красен, что так получилось потому что он был не местный и мог быть:

реально приёмным дитём (Но тогда не понятно почему фамилия из пепла восстала, через 10 лет. Естественно было бы думать, что за приёмным ребёнком фамилия принявшей семьи закрепится в начале XIX го века)

примаком (о чём бабушка мне и рассказывала, что он тут осел, потомучто женился; хотя устное предание возрастом почти в 200 лет может быть неточно, очень неточно).

И вот тут возникает желание понять, где ещё Пакальнисы жили. Судя по всему, это Литва современная. Я даже методом тыка, с прицелом на фамилию помещиков Козелл, нашёл в Литве имение каких-то Козелл, и там рядом нашёл таки такую фамилию. Но. Это вообще ни очём не говорит. Потому что я их ещё в нескольких местах нашёл. Как в 19 веке, так и в 20-м.
Нужен анализа метрик всех доступных за начало 19 века хотя бы восточной части Литвы. А это несколько жизней нужно потратить.
А вот этот Транскрибус помог бы, наверное. Эх...
Немного оффтопика было сейчас Накипело.

Ещё таки понял, что они модельки у себя на мощностях тренируют. Т.е. не локально. Это и плюс и минус. Плюс в том, что можно не иметь железа, а модельки тренить. Минус, модельки попользовать можно только у них. Что-то не нашёл там, чтобы можно было модели себе экспортировать. По-идее, главное то для распознавания это именно модель.

lesnik.bryma · 12 дек 2020

kiessling сказал(а): ↑

А на каком количестве документов пытались тренировать? На каких именно доках?
Это реально не так и просто, я занимаюсь подготовкой массивов данных, и как-то довольно скептично отношусь к тому, что нейросети заберут у людей работу)
Нажмите, чтобы раскрыть...

Доброго дня.
Я хотел ускорить процесс и вводил таблицы с примерами скорописи.

lesnik.bryma · 12 дек 2020

Andzej сказал(а): ↑

Почитал там у них внимательнее.
Таки да, не важно какой моделью ты пользуешься, бесплатно распознать можно только 500 страниц. Одна плёнка с fs это больше 1000 кадров. А хотелось бы прямо деканатами метрики распознавать. Для поиска в тупиковых ветках.

Например у меня с Пакальнисом такой затык. По самым ранним ревизским сказкам всё что о нём удалось узнать, так это то, что он был записан приёмышем в одном из дворов не под своей фамилией. Ясен-красен, что так получилось потому что он был не местный и мог быть:

реально приёмным дитём (Но тогда не понятно почему фамилия из пепла восстала, через 10 лет. Естественно было бы думать, что за приёмным ребёнком фамилия принявшей семьи закрепится в начале XIX го века)

примаком (о чём бабушка мне и рассказывала, что он тут осел, потомучто женился; хотя устное предание возрастом почти в 200 лет может быть неточно, очень неточно).

И вот тут возникает желание понять, где ещё Пакальнисы жили. Судя по всему, это Литва современная. Я даже методом тыка, с прицелом на фамилию помещиков Козелл, нашёл в Литве имение каких-то Козелл, и там рядом нашёл таки такую фамилию. Но. Это вообще ни очём не говорит. Потому что я их ещё в нескольких местах нашёл. Как в 19 веке, так и в 20-м.
Нужен анализа метрик всех доступных за начало 19 века хотя бы восточной части Литвы. А это несколько жизней нужно потратить.
А вот этот Транскрибус помог бы, наверное. Эх...
Немного оффтопика было сейчас Накипело.

Ещё таки понял, что они модельки у себя на мощностях тренируют. Т.е. не локально. Это и плюс и минус. Плюс в том, что можно не иметь железа, а модельки тренить. Минус, модельки попользовать можно только у них. Что-то не нашёл там, чтобы можно было модели себе экспортировать. По-идее, главное то для распознавания это именно модель.
Нажмите, чтобы раскрыть...

Доброго дня.
Совсем недавно не было платного доступа.

Если я правильно понимаю, то сейчас нет моделей в которые можно загрузить МК или РС.

Программа ставится на ПК.
Но там только интерфейс (как я понимаю).
Создается аккаунт и к нему привязывается вся информация все образцы которые вы загрузили и все модели.

Как я понимаю, чтобы обучить свою модель OCR. Нужно писать им и они сделают доступной функцию в вашем аккаунте.

У меня есть пошаговые инструкции для создания моделей, я их перевел программой. Могу попробовать сюда прикрепить.

Вопрос с почеркам я понимаю, поэтому я вначале планировал загрузить таблицы с примерами скорописи и примерами соединения скорописи АА, АБ, АВ итд.

Но может я всё делал не правильно.

Я вас понимаю, ведь у человека в 10 поколении около 512 прямых кровных предков.

А если со всеми родственниками. То тут полная индексация всех документов которые доступны.

Swissguard · 23 дек 2020

Вот тут можно посмотреть туториал их - меня мало впечатлил.

Цены очень не адеквартные для простых смертных - 30к страниц - 5760 € (0,192 за страницу). Цены явно сделаны для институций вроде европейских госархивов.

За последнии пару лет OCR для текстов хорошо продвинулось. пару минут поиска и нашел много опенсорсных решений (где-то оплата мощности только)
https://arthurflor23.medium.com/handwritten-text-recognition-using-tensorflow-2-0-f4352b7afe16
https://towardsdatascience.com/buil...ognition-system-using-tensorflow-2326a3487cd5
https://engmrk.com/handwritten-text-from-images-azure/

Но тут возникает проблема датасета. Для английского языка есть уже огромные наборы данных, вот к примеру, https://fki.tic.heia-fr.ch/databases/iam-handwriting-database
1539 скандированных страниц
115320 отдельных слов с пометками

Готовы ли мы создать такой датасет)

если да, то модель можно научить на 30-50 страницах, и тогда 5-10 лет метрик, написаных одним почерком, распознаются на ура, только успевай оперативку подкидывать)

lesnik.bryma · 30 дек 2020

Swissguard сказал(а): ↑

Вот тут можно посмотреть туториал их - меня мало впечатлил.

Цены очень не адеквартные для простых смертных - 30к страниц - 5760 € (0,192 за страницу). Цены явно сделаны для институций вроде европейских госархивов.

За последнии пару лет OCR для текстов хорошо продвинулось. пару минут поиска и нашел много опенсорсных решений (где-то оплата мощности только)
https://arthurflor23.medium.com/handwritten-text-recognition-using-tensorflow-2-0-f4352b7afe16
https://towardsdatascience.com/buil...ognition-system-using-tensorflow-2326a3487cd5
https://engmrk.com/handwritten-text-from-images-azure/

Но тут возникает проблема датасета. Для английского языка есть уже огромные наборы данных, вот к примеру, https://fki.tic.heia-fr.ch/databases/iam-handwriting-database
1539 скандированных страниц
115320 отдельных слов с пометками

Готовы ли мы создать такой датасет)

если да, то модель можно научить на 30-50 страницах, и тогда 5-10 лет метрик, написаных одним почерком, распознаются на ура, только успевай оперативку подкидывать)
Нажмите, чтобы раскрыть...

Доброго дня.
Спасибо за ссылки.
У меня немного другие инструкции. Не смог их пока выложить.

Мне кажется сколько бы не было почерков. Всё таки возможность написать букву или соединить букву ограниченное количество.

Если бы к примеру найти сборник таких соединений то, думаю можно было бы ускорить процесс.

Nick1983 · 6 янв 2021

kiessling сказал(а): ↑

А на каком количестве документов пытались тренировать? На каких именно доках?
Это реально не так и просто, я занимаюсь подготовкой массивов данных, и как-то довольно скептично отношусь к тому, что нейросети заберут у людей работу)
Нажмите, чтобы раскрыть...

Это перспектива нескольких лет. Квантовые компьютеры все будут делать за секунды.

Проект Transkribus — разработка нейросети для распознавания старинного рукописного текста

lesnik.bryma Местный

alkevk Мегапользователь

lesnik.bryma Местный

kiessling Мегапользователь

Andzej Администратор
Команда проекта

Andzej Администратор
Команда проекта

lesnik.bryma Местный

lesnik.bryma Местный

Swissguard Мегапользователь

lesnik.bryma Местный

Nick1983 Пользователь

Быстрый поиск

Проект Transkribus — разработка нейросети для распознавания старинного рукописного текста

lesnik.bryma Местный

alkevk Мегапользователь

lesnik.bryma Местный

kiessling Мегапользователь

Andzej Администратор Команда проекта

Andzej Администратор Команда проекта

lesnik.bryma Местный

lesnik.bryma Местный

Swissguard Мегапользователь

lesnik.bryma Местный

Nick1983 Пользователь

Andzej Администратор
Команда проекта

Andzej Администратор
Команда проекта