1. Уважаемый гость! Если во время регистрации на сайте возникли проблемы, сообщите о них, пожалуйста, сюда: mihail@vilejski-uezd.by Вам обязательно помогут!

Проект Transkribus — разработка нейросети для распознавания старинного рукописного текста

Тема в разделе "Каталоги, карты, ссылки на другие вебресурсы", создана пользователем lesnik.bryma, 11 дек 2020.

  1. lesnik.bryma

    lesnik.bryma Местный

    Регистрация:
    18 янв 2017
    Сообщения:
    38
    Симпатии:
    14
    Доброго дня.

    Данная программа предназначена для нейросети способной разобрать старинный рукописный текст.

    https://readcoop.eu/transkribus/

    Суть в том что создается обучаемая модель нейросети.

    Загружается страница с текстом.
    Программа размечает нераспознанные символы.

    В области соответствия символам вводится соответствующие символы.
    Пока нейросеть не обучится.

    Это некоммерческий проект попробовать сделать свою нейросеть по сути может каждый.

    К программе прелагаются инструкции по обучению нейросети.
    Не много сложная двойная регистрация.

    Первая для доступа в личный аккаунт.
    Вторая письмо разработчикам с просьбой включить возможность обучить нейросеть.

    Программа на английском, как и все инструкции.

    Лично у меня пока не получилось обучить нейросеть.

    P.S.
    Некоторое время не решался публиковать, понимая что в будущем от этого многие люди потеряют работу.
    Но так или иначе все документы будут оцифрованы или рассыпятся (, или выцветут чернила). И эти люди потеряют работу позже.
    Я надеюсь, будет достаточно времени что бы перестроится.
    Но в любом случае прошу прощения за все негативные последствия.
     
    yrl7423, Nata_Lia, Dia и ещё 1-му нравится это.
  2. alkevk

    alkevk Мегапользователь

    Регистрация:
    12 фев 2016
    Сообщения:
    544
    Фото & Видео:
    33
    Альбомы:
    1
    Симпатии:
    456
    Ищу:
    Алькевич, Церех, Лешкевич, Лапицкий,Яновский и др. , д. Стрыя,Гриневичи, Ходаки, Вилейского уезда
    Замечательная новость! Вы думаете,что она быстро попадете а Беларуские архивы при этом руководстве???
     
    Brisingi и Dia нравится это.
  3. lesnik.bryma

    lesnik.bryma Местный

    Регистрация:
    18 янв 2017
    Сообщения:
    38
    Симпатии:
    14
    Доброго дня.
    Я скорее про работу частных генеалогов.

    Но я может немного преувеличил.
    Это ведь будет с момента создания нейросети.
    А полная индексация всех документов может растянуться на долгий срок.

    Тем более будут индексироваться
    уже оцифрованныедокументы. Но их пока сравнительно мало.

    Что касается архивов РБ.

    Я думаю в будущем будет разрешена пользовательская съёмка документов (хотя бы платная, с платой за день, а не страницу).
     
  4. kiessling

    kiessling Мегапользователь

    Регистрация:
    3 июл 2016
    Сообщения:
    96
    Симпатии:
    180
    Ищу:
    Стрэж, Саковіч, Жыла, Жук, Міна
    География поисков:
    Навікі, Комсіна, Журыхі, Лыжычы, Лужы, Чарэмшыцы, Занарач, Калодзіна
    А на каком количестве документов пытались тренировать? На каких именно доках?
    Это реально не так и просто, я занимаюсь подготовкой массивов данных, и как-то довольно скептично отношусь к тому, что нейросети заберут у людей работу)
     
    blackash нравится это.
  5. Andzej

    Andzej Администратор
    Команда проекта

    Регистрация:
    10 июн 2015
    Сообщения:
    529
    Фото & Видео:
    2
    Альбомы:
    2
    Симпатии:
    943
    Ищу:
    Хвалько, Фарино,
    Пакальских,
    Мицкевич,
    Яцыно, Мацко,
    Галдыцкий,
    Хонявко, Гаранин,
    Олькович,
    Таустыка,
    Бондаронак,
    Мядзёлка
    География поисков:
    им. Княгинин (Васюльки, Половики), им. Бол.Сервеч (Гедевичи,Кумельщизна), им. Мядель (Новосёлки,Студеница), им. Кривичи (Здригаловичи)
    Доброго времени суток.

    Очень интригующая информация. По работе сталкивался с применением computer vision & image recognition, но там был уклон в алгоритмический подход, интересные точки и всякое такое. Нейронками не пользовался. По ощущениям, не думаю, что это прямо silver bullet для генеалогических изысканий. Па крайней мере сейчас и в ближайшие лет 5 - 10. Тут люди натренированные чужие почерка читают с трудом, бывает. Всё упрётся в разный почерк у рукописей. Я к тому, что зря вы перерживаете, что очень узкая когорта людей потеряет хлеб. Не потеряет. Просто потому, что в это не вбухивают столько денег как в автопилоты для авто. Вот части водителей нужно уже сейчас подумать, что они будут делать потом. Не потому что там уже прям прорыв, а потому что там уже закопано столько денег и тот кто вложил - ждёт результат.

    Теперь касательно вашего опыта использования этого Транскрибуса. Я пробежал по how-to тамошнему и там пишут, что для тренировки нужно 25 - 75 страниц (5000 - 15000 слов). Сколько вы подсовывали в качестве массива для обучения?

    И такой ещё вопрос, оно требует каких-то мощностей (видеокарта) для обучения, или там можно cpu ограничится?

    И что-то я не совсем понял про платную подписку и кредиты их какие-то. Это если хочешь уже на обученной модели проприетарной что-то распознать или что-то другое имеется ввиду? Просто сделать свою модель и потом за её использование ещё что-то платить это как-то неестественно.

    И там есть пассаж про то, что нужно разработчикам писать, если хочешь свою модель делать, чтобы они разлочили такую фичу. Это справедливо для скачанного клиента только, или то что у них в гите лежит тоже с залоченным функционалом?
     
    #5 Andzej, 11 дек 2020
    Последнее редактирование: 11 дек 2020
    kiessling нравится это.
  6. Andzej

    Andzej Администратор
    Команда проекта

    Регистрация:
    10 июн 2015
    Сообщения:
    529
    Фото & Видео:
    2
    Альбомы:
    2
    Симпатии:
    943
    Ищу:
    Хвалько, Фарино,
    Пакальских,
    Мицкевич,
    Яцыно, Мацко,
    Галдыцкий,
    Хонявко, Гаранин,
    Олькович,
    Таустыка,
    Бондаронак,
    Мядзёлка
    География поисков:
    им. Княгинин (Васюльки, Половики), им. Бол.Сервеч (Гедевичи,Кумельщизна), им. Мядель (Новосёлки,Студеница), им. Кривичи (Здригаловичи)
    Почитал там у них внимательнее.
    Таки да, не важно какой моделью ты пользуешься, бесплатно распознать можно только 500 страниц. Одна плёнка с fs это больше 1000 кадров. А хотелось бы прямо деканатами метрики распознавать. :) Для поиска в тупиковых ветках.

    Например у меня с Пакальнисом такой затык. По самым ранним ревизским сказкам всё что о нём удалось узнать, так это то, что он был записан приёмышем в одном из дворов не под своей фамилией. Ясен-красен, что так получилось потому что он был не местный и мог быть:
    • реально приёмным дитём (Но тогда не понятно почему фамилия из пепла восстала, через 10 лет. Естественно было бы думать, что за приёмным ребёнком фамилия принявшей семьи закрепится в начале XIX го века)
    • примаком (о чём бабушка мне и рассказывала, что он тут осел, потомучто женился; хотя устное предание возрастом почти в 200 лет может быть неточно, очень неточно).
    И вот тут возникает желание понять, где ещё Пакальнисы жили. Судя по всему, это Литва современная. Я даже методом тыка, с прицелом на фамилию помещиков Козелл, нашёл в Литве имение каких-то Козелл, и там рядом нашёл таки такую фамилию. Но. Это вообще ни очём не говорит. Потому что я их ещё в нескольких местах нашёл. Как в 19 веке, так и в 20-м.
    Нужен анализа метрик всех доступных за начало 19 века хотя бы восточной части Литвы. А это несколько жизней нужно потратить.
    А вот этот Транскрибус помог бы, наверное. Эх...
    Немного оффтопика было сейчас :) Накипело.

    Ещё таки понял, что они модельки у себя на мощностях тренируют. Т.е. не локально. Это и плюс и минус. Плюс в том, что можно не иметь железа, а модельки тренить. Минус, модельки попользовать можно только у них. Что-то не нашёл там, чтобы можно было модели себе экспортировать. По-идее, главное то для распознавания это именно модель.
     
    yrl7423 нравится это.
  7. lesnik.bryma

    lesnik.bryma Местный

    Регистрация:
    18 янв 2017
    Сообщения:
    38
    Симпатии:
    14
    Доброго дня.
    Я хотел ускорить процесс и вводил таблицы с примерами скорописи.
     
    #7 lesnik.bryma, 12 дек 2020
    Последнее редактирование: 12 дек 2020
  8. lesnik.bryma

    lesnik.bryma Местный

    Регистрация:
    18 янв 2017
    Сообщения:
    38
    Симпатии:
    14
    Доброго дня.
    Совсем недавно не было платного доступа.

    Если я правильно понимаю, то сейчас нет моделей в которые можно загрузить МК или РС.

    Программа ставится на ПК.
    Но там только интерфейс (как я понимаю).
    Создается аккаунт и к нему привязывается вся информация все образцы которые вы загрузили и все модели.

    Как я понимаю, чтобы обучить свою модель OCR. Нужно писать им и они сделают доступной функцию в вашем аккаунте.

    У меня есть пошаговые инструкции для создания моделей, я их перевел программой. Могу попробовать сюда прикрепить.

    Вопрос с почеркам я понимаю, поэтому я вначале планировал загрузить таблицы с примерами скорописи и примерами соединения скорописи АА, АБ, АВ итд.

    Но может я всё делал не правильно.

    Я вас понимаю, ведь у человека в 10 поколении около 512 прямых кровных предков.

    А если со всеми родственниками. То тут полная индексация всех документов которые доступны.
     
  9. Swissguard

    Swissguard Мегапользователь

    Регистрация:
    24 июл 2015
    Сообщения:
    60
    Симпатии:
    116
    Ищу:
    Адамович из Васюльков
    География поисков:
    Васюльки, Княгинено
    Вот тут можно посмотреть туториал их - меня мало впечатлил.

    Цены очень не адеквартные для простых смертных - 30к страниц - 5760 € (0,192 за страницу). Цены явно сделаны для институций вроде европейских госархивов.

    За последнии пару лет OCR для текстов хорошо продвинулось. пару минут поиска и нашел много опенсорсных решений (где-то оплата мощности только)
    https://arthurflor23.medium.com/handwritten-text-recognition-using-tensorflow-2-0-f4352b7afe16
    https://towardsdatascience.com/buil...ognition-system-using-tensorflow-2326a3487cd5
    https://engmrk.com/handwritten-text-from-images-azure/

    Но тут возникает проблема датасета. Для английского языка есть уже огромные наборы данных, вот к примеру, https://fki.tic.heia-fr.ch/databases/iam-handwriting-database
    1539 скандированных страниц
    115320 отдельных слов с пометками

    Готовы ли мы создать такой датасет)

    если да, то модель можно научить на 30-50 страницах, и тогда 5-10 лет метрик, написаных одним почерком, распознаются на ура, только успевай оперативку подкидывать)
     
    #9 Swissguard, 23 дек 2020
    Последнее редактирование: 23 дек 2020
    Сергей Гулецкий и Andzej нравится это.
  10. lesnik.bryma

    lesnik.bryma Местный

    Регистрация:
    18 янв 2017
    Сообщения:
    38
    Симпатии:
    14

    Доброго дня.
    Спасибо за ссылки.
    У меня немного другие инструкции. Не смог их пока выложить.

    Мне кажется сколько бы не было почерков. Всё таки возможность написать букву или соединить букву ограниченное количество.

    Если бы к примеру найти сборник таких соединений то, думаю можно было бы ускорить процесс.
     
  11. Nick1983

    Nick1983 Новый пользователь

    Регистрация:
    31 мар 2019
    Сообщения:
    26
    Симпатии:
    3
    Ищу:
    Пыск, Гулецкий
    География поисков:
    д. Бильцевичи, г. Вилейка
    Это перспектива нескольких лет. Квантовые компьютеры все будут делать за секунды.