Доброго дня. Данная программа предназначена для нейросети способной разобрать старинный рукописный текст. https://readcoop.eu/transkribus/ Суть в том что создается обучаемая модель нейросети. Загружается страница с текстом. Программа размечает нераспознанные символы. В области соответствия символам вводится соответствующие символы. Пока нейросеть не обучится. Это некоммерческий проект попробовать сделать свою нейросеть по сути может каждый. К программе прелагаются инструкции по обучению нейросети. Не много сложная двойная регистрация. Первая для доступа в личный аккаунт. Вторая письмо разработчикам с просьбой включить возможность обучить нейросеть. Программа на английском, как и все инструкции. Лично у меня пока не получилось обучить нейросеть. P.S. Некоторое время не решался публиковать, понимая что в будущем от этого многие люди потеряют работу. Но так или иначе все документы будут оцифрованы или рассыпятся (, или выцветут чернила). И эти люди потеряют работу позже. Я надеюсь, будет достаточно времени что бы перестроится. Но в любом случае прошу прощения за все негативные последствия.
Замечательная новость! Вы думаете,что она быстро попадете а Беларуские архивы при этом руководстве???
Доброго дня. Я скорее про работу частных генеалогов. Но я может немного преувеличил. Это ведь будет с момента создания нейросети. А полная индексация всех документов может растянуться на долгий срок. Тем более будут индексироваться уже оцифрованныедокументы. Но их пока сравнительно мало. Что касается архивов РБ. Я думаю в будущем будет разрешена пользовательская съёмка документов (хотя бы платная, с платой за день, а не страницу).
А на каком количестве документов пытались тренировать? На каких именно доках? Это реально не так и просто, я занимаюсь подготовкой массивов данных, и как-то довольно скептично отношусь к тому, что нейросети заберут у людей работу)
Доброго времени суток. Очень интригующая информация. По работе сталкивался с применением computer vision & image recognition, но там был уклон в алгоритмический подход, интересные точки и всякое такое. Нейронками не пользовался. По ощущениям, не думаю, что это прямо silver bullet для генеалогических изысканий. Па крайней мере сейчас и в ближайшие лет 5 - 10. Тут люди натренированные чужие почерка читают с трудом, бывает. Всё упрётся в разный почерк у рукописей. Я к тому, что зря вы перерживаете, что очень узкая когорта людей потеряет хлеб. Не потеряет. Просто потому, что в это не вбухивают столько денег как в автопилоты для авто. Вот части водителей нужно уже сейчас подумать, что они будут делать потом. Не потому что там уже прям прорыв, а потому что там уже закопано столько денег и тот кто вложил - ждёт результат. Теперь касательно вашего опыта использования этого Транскрибуса. Я пробежал по how-to тамошнему и там пишут, что для тренировки нужно 25 - 75 страниц (5000 - 15000 слов). Сколько вы подсовывали в качестве массива для обучения? И такой ещё вопрос, оно требует каких-то мощностей (видеокарта) для обучения, или там можно cpu ограничится? И что-то я не совсем понял про платную подписку и кредиты их какие-то. Это если хочешь уже на обученной модели проприетарной что-то распознать или что-то другое имеется ввиду? Просто сделать свою модель и потом за её использование ещё что-то платить это как-то неестественно. И там есть пассаж про то, что нужно разработчикам писать, если хочешь свою модель делать, чтобы они разлочили такую фичу. Это справедливо для скачанного клиента только, или то что у них в гите лежит тоже с залоченным функционалом?
Почитал там у них внимательнее. Таки да, не важно какой моделью ты пользуешься, бесплатно распознать можно только 500 страниц. Одна плёнка с fs это больше 1000 кадров. А хотелось бы прямо деканатами метрики распознавать. Для поиска в тупиковых ветках. Например у меня с Пакальнисом такой затык. По самым ранним ревизским сказкам всё что о нём удалось узнать, так это то, что он был записан приёмышем в одном из дворов не под своей фамилией. Ясен-красен, что так получилось потому что он был не местный и мог быть: реально приёмным дитём (Но тогда не понятно почему фамилия из пепла восстала, через 10 лет. Естественно было бы думать, что за приёмным ребёнком фамилия принявшей семьи закрепится в начале XIX го века) примаком (о чём бабушка мне и рассказывала, что он тут осел, потомучто женился; хотя устное предание возрастом почти в 200 лет может быть неточно, очень неточно). И вот тут возникает желание понять, где ещё Пакальнисы жили. Судя по всему, это Литва современная. Я даже методом тыка, с прицелом на фамилию помещиков Козелл, нашёл в Литве имение каких-то Козелл, и там рядом нашёл таки такую фамилию. Но. Это вообще ни очём не говорит. Потому что я их ещё в нескольких местах нашёл. Как в 19 веке, так и в 20-м. Нужен анализа метрик всех доступных за начало 19 века хотя бы восточной части Литвы. А это несколько жизней нужно потратить. А вот этот Транскрибус помог бы, наверное. Эх... Немного оффтопика было сейчас Накипело. Ещё таки понял, что они модельки у себя на мощностях тренируют. Т.е. не локально. Это и плюс и минус. Плюс в том, что можно не иметь железа, а модельки тренить. Минус, модельки попользовать можно только у них. Что-то не нашёл там, чтобы можно было модели себе экспортировать. По-идее, главное то для распознавания это именно модель.
Доброго дня. Совсем недавно не было платного доступа. Если я правильно понимаю, то сейчас нет моделей в которые можно загрузить МК или РС. Программа ставится на ПК. Но там только интерфейс (как я понимаю). Создается аккаунт и к нему привязывается вся информация все образцы которые вы загрузили и все модели. Как я понимаю, чтобы обучить свою модель OCR. Нужно писать им и они сделают доступной функцию в вашем аккаунте. У меня есть пошаговые инструкции для создания моделей, я их перевел программой. Могу попробовать сюда прикрепить. Вопрос с почеркам я понимаю, поэтому я вначале планировал загрузить таблицы с примерами скорописи и примерами соединения скорописи АА, АБ, АВ итд. Но может я всё делал не правильно. Я вас понимаю, ведь у человека в 10 поколении около 512 прямых кровных предков. А если со всеми родственниками. То тут полная индексация всех документов которые доступны.
Вот тут можно посмотреть туториал их - меня мало впечатлил. Цены очень не адеквартные для простых смертных - 30к страниц - 5760 € (0,192 за страницу). Цены явно сделаны для институций вроде европейских госархивов. За последнии пару лет OCR для текстов хорошо продвинулось. пару минут поиска и нашел много опенсорсных решений (где-то оплата мощности только) https://arthurflor23.medium.com/handwritten-text-recognition-using-tensorflow-2-0-f4352b7afe16 https://towardsdatascience.com/buil...ognition-system-using-tensorflow-2326a3487cd5 https://engmrk.com/handwritten-text-from-images-azure/ Но тут возникает проблема датасета. Для английского языка есть уже огромные наборы данных, вот к примеру, https://fki.tic.heia-fr.ch/databases/iam-handwriting-database 1539 скандированных страниц 115320 отдельных слов с пометками Готовы ли мы создать такой датасет) если да, то модель можно научить на 30-50 страницах, и тогда 5-10 лет метрик, написаных одним почерком, распознаются на ура, только успевай оперативку подкидывать)
Доброго дня. Спасибо за ссылки. У меня немного другие инструкции. Не смог их пока выложить. Мне кажется сколько бы не было почерков. Всё таки возможность написать букву или соединить букву ограниченное количество. Если бы к примеру найти сборник таких соединений то, думаю можно было бы ускорить процесс.