- Три выпуска от CHEK
- [+] Старые сообщения (11)
-
? Wesha@ - 04.04.2021 09:00
http://www.wesha.com/0/CHEK-0-600dpi.zip (tif, 400 MB, голый скан без какой-либо бработки)
¤
Остальные будут позже.
-
? Andrew Samara@ - 04.04.2021 14:23
Wesha, спасибо за сканы.
Про идею Voland о переводе в электронный вид не совсем понял для чего это надо. Кто-то будет это читать?
Сделать pdf с поиском по тексту и его копированием можно хоть сейчас, только не пойму разве это кому-то нужно?
-
? Wesha@ - 04.04.2021 14:26
Andrew, есть такое слово - антиквариат :)
-
? Andrew Samara@ - 04.04.2021 14:28
Wesha, да вроде бы новодел получится, если новый pdf делать с ремастером оригинала (если я правильно понял идею Voland).
-
? gid - 04.04.2021 17:43
[Про идею Voland о переводе в электронный вид не совсем понял для чего это надо.]
Просто чтобы была нормальная электронная версия журнала, с возможностью распечатки её на бумаге фанатами.
[Кто-то будет это читать?]
Мне бывает надо изредка.
[Сделать pdf с поиском по тексту и его копированием можно хоть сейчас]
Если б было можно хоть сейчас, то это уже было бы сделано.
Я бы и сделал бы, т.к. мне нужна возможность полнотекстового поиска по журналам (имеется в виду журнал ПК БК). Но останавливает меня отсутствие качественных сканов.
Распознавать имеющиеся в интернете djvu тяжело. Там потом слишком много вручную исправлять неправильно распознанный текст, и угадывать текст, оказавшийся под мусором.
Если первые несколько месяцев работы можно продержаться на энтузиазме, но потом уже как-то становится неохота.
-
? Wesha@ - 04.04.2021 20:31
http://www.wesha.com/0/CHEK-1-600dpi.zip
-
? Wesha@ - 04.04.2021 22:13
http://www.wesha.com/0/CHEK-2-600dpi.zip
¤
Все, забирайте все 3, чистите и всё такое
-
? gid - 05.04.2021 06:26
Forbidden
You don't have permission to access /0/CHEK-2-600dpi.zip on this server.
Не забирается.
-
? Andrew Samara@ - 05.04.2021 09:49
[Я бы и сделал бы, т.к. мне нужна возможность полнотекстового поиска по журналам]
ПК БК - большой журнал, одному не справиться. Нужны желающие поработать в файнридере. Со своей стороны, могу поучаствовать. Разделим один номер журнала пополам, а если присоединится кто-то еще, то на 3 или более частей.
Если у тебя есть заинтересованность, можно взять какой-то 1 номер журнала, любой, какой тебе больше нравится, и сделать его ремастер, хоть в индизайне, хоть в ворде. С иллюстрациями будет проблема, т.к. нужен художник, иначе будут те же плохо сканированные рисунки из журнала.
-
? gid - 05.04.2021 11:16
Пока не будет нормальных сканов, браться за это - мазохизм и пустая трата времени.
Я для себя из всех журналов выдернул страницы с содержаниями, чтобы хоть как-то ориентироваться, что где искать.
И вот эти содержания после файнридера ещё пришлось чуть ли не половину вручную переписывать.
-
? Wesha@ - 05.04.2021 15:06
@gid поправил, забирайте
-
? Andrew Samara@ - 05.04.2021 21:07
Ради интереса поупражнялся с djvu с сайта ретропц. В принципе, терпимо. Ожидал гораздо больше геморроя.
Набросал для примера 3 странички с содержанием номеров за 1995 год. В оригинале там были картинки обложек, но после djvu они такие страшные, что не обращайте внимание. Верстка черновая - вордовская табличка, немного облагородил с табуляцией перед номерами страниц и номера выделил жирным, чтобы было видно. В оригинале номера терялись в тексте содержания.
Ну и вот ссылка на маленькую pdf'ку на яде: https://disk.yandex.ru/i/MtaEZPTLnZkh2Q
-
? Andrew Samara@ - 06.04.2021 18:21
Так что, верстку кто-нибудь будет делать? Понемногу перегоняю статьи ПК БК, верстальщик бы сильно помог.
-
? gid - 06.04.2021 21:33
Не там вы такие вопросы задаёте. Этот форум читает 2 с половиной человека. И ни одного верстальщика.
Я например не умею, поэтому тексты, которые распознаю, оставляю простыми линейными текстами. Разве что под настроение некоторые простые рисунки вручную перерисовываю в векторном формате. Потому что не знаю ни одной проги, которая бы умела векторизовать из растра блок-схемы, диаграммы, электрические схемы и т.п. рисунки, состоящие из линий и символов.
Тут как обычно, работает принцип "хочешь, чтобы что-то было сделано, сделай сам".
-
? Andrew Samara@ - 07.04.2021 00:01
[Не там вы такие вопросы задаёте.]
Интерес к оцифровке ПК БК был только здесь. Потому здесь и спрашиваю, надеясь на помощь тех, кому это действительно нужно. В телеге не пишу, там наверное никому не интересно.
Работаю на номером 1'93, более половины уже в ворде. Рисовать не умею, поэтому рисунки и схемы будут "как есть".
Но как я уже писал выше - никому эта работа не нужна, по моему мнению.
-
? Wesha@ - 07.04.2021 00:09
Мне нужна, скажем, но у меня ситуация сейчас очень аховая.
-
? Andrew Samara@ - 07.04.2021 00:15
Кстати рассказываю хинт, может кому пригодится.
Для распознавания плохих сканов или djvu очень полезна функция обучения эталонов.
Процесс обучения муторный, занимает часы для пары страниц текста. Но! Дальнейшее распознавание с использованием полученного эталона дает очень хороший результат и получается почти чистый текст.
-
? gid - 07.04.2021 08:12
[Но как я уже писал выше - никому эта работа не нужна, по моему мнению]
По большому счёту да, спросом она пользоваться не будет. Результатом воспользуются 2-3 человека и всё.
¤
[очень полезна функция обучения эталонов]
А вот я ещё ни разу не смог обучить файнридер ничему хорошему. То ли я что-то неправильно делаю, то ли ещё что-то, но после обучения распознавание становится гораздо хуже, чем со стандартными эталонами. Файнридер начинает путать большие и маленькие буквы, границы букв перестаёт определять правильно, и вообще, становится гораздо больше неверно распознанных символов.
Особенно раздражает, что файридер никак не желает распознавать знак "¤", из-за чего приходится практически вручную перенабирать сканированные исходники на бейсике или ассемблере.
-
? Andrew Samara@ - 07.04.2021 08:58
[не смог обучить файнридер ничему хорошему]
По опыту скажу, что не все версии ридера работают хорошо. 15 версия, как выяснилось, не сохраняет результат обучения. То есть сидите вы, скажем, 2 часа, внимательно обучаете программу, отмечаете каждый символ - болд или италик, заглавный или строчный. И все вроде бы хорошо. Сохраняете эталон на диск. Запускаете распознавание страниц, а получается ерунда. Думаете, что происходит? Столько времени обучения, а ридер делает ошибки на тех же местах, что раньше? Открываете папку с сохраненным эталоном, а там вместо большого и умного эталона лежит тощий файлец. А всё потому, что ридер не сохранил и не запомнил ничего, что вы ему вдалбливали последние 2 часа и труд ваш пошел насмарку. Так как нужно у меня заработала только 14 версия.
-
? Wesha@ - 13.04.2021 11:55
Ну как, забрали сканы, можно убирать?
-
? gid - 13.04.2021 14:06
Я забрал. Можно.
На будущее (если кто-нибудь наткнётся на эту ветку), если кому-нибудь будет нужно, пишите сюда. Выложу.
- << Форум