anonymous@RULINUX.NET~# | Last login: 2024-11-14 21:01:16 |
Регистрация Вход | Новости | Разметка | Пользователи | Галерея | Форум | Статьи | Неподтвержденное | Трекер | Правила форума | F.A.Q. | Ссылки | Поиск |
Форум - Talks | [RSS] |
Представим, что хочу я получить какую-нибудь книжку в электронном виде, которая есть у меня в наличии, а в интернете практически отсутствует. Возникает такой вопрос - а как лучше всего это делать?
Сканер у меня есть, пусть и довольно унылый, но всё же. Отсканировать 600 страниц за какое-то время я смогу, это уже чисто механическая работа. Далее надо будет покрутить и порезать сканы, для этого, насколько я знаю, софт тоже существует, тот же unpaper. И ещё какой-то другой был, но, думаю, я как-нибудь найду (если кто подскажет - будет приятно).
А вот в каком формате всё это дело сканировать, как сжимать? Хочется минимум потерь при адекватном весе, так как книга, пусть и содержит цветные рисунки, всё же не требует какой-то жуткой детализации, лишь бы всё было красиво и аккуратно. Да, сканирование цветное, так надо.
Распознать, наверное, не получится - в тексте могут быть хитрые символы, да и программ под ляпих (других ОС не держим, увы) особо нет, из живых знаю только cuneiform и tesseract. Да и хотелось бы вёрстку сохранить, всякие врезки и т.д.
Есть tiff, который умеет и lossless, и lossy. Есть png, в котором тоже lossless и сжатие умеет - я как-то сканировал в нём, но уж больно тяжелые картинки получаются. Впрочем, есть индексированные png, вроде они поменьше. Есть и jpg - там вам и сжатие, и испорченные края букв, которые может заметить даже невнимательный человек. Наверное, больше ничего в плане формата картинок не придумать.
И всё бы хорошо, да ведь эти картинки надо будет превращать в pdf или djvu, так как сами картинки мне не особо нужны. А вот тут мои знания уже не очень хороши. В pdf есть какие-то image filters и всё такое, но я совсем не в курсе, будет ли меняться размер результата при разных исходниках. Зависит ли качество изображения и качество сжатия от исходного формата файла в случае с pdf? И вообще, как лучше всего сжимать pdf? Инструкции в интернете я видел, но вдруг тут у кого-нибудь есть опыт в этом деле.
Есть djvu, для которого авторы обещают жутко хорошее сжатие, но я никогда не создавал этих файлов, в отличие от pdf, так что даже не знаю, с какой стороны к этому подступаться, чтобы получить наилучшее качество при наилучшем сжатии.
И вообще, что в данном случае лучше, pdf или djvu?
SystemV(*) (2013-06-29 20:12:10)
Emacs-w3m/1.4.514 w3m/0.5.3
|
|
|
Скрыть
Re:Сканирование и оцифровка книг>Я формат pdf так и не осилил, сколько не пробовал получаются монстрообразные книжки
|
Скрыть
Re:Сканирование и оцифровка книг>И ещё какой-то другой был, но, думаю, я как-нибудь найду (если кто подскажет - будет приятно).
|
Скрыть
Re:Сканирование и оцифровка книгЕсли распознать не удастся - нет смысла и заморачиваться. По формату картинок - думаю, что для такого и гиф сойдёт. Если цветастые скриншоты помещаются в его 256 цветов, то скан книги - и подавно влезет. |
Bod(*)(2013-06-29 21:11:32)
Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7 |
Скрыть
Re:Сканирование и оцифровка книг>http://help.ubuntu.ru/fullcircle/27/scan_pdf_djvu
|
Скрыть
Re:Сканирование и оцифровка книг>По формату картинок - думаю, что для такого и гиф сойдёт. Если цветастые скриншоты помещаются в его 256 цветов, то скан книги - и подавно влезет.
|
Скрыть
Re:Сканирование и оцифровка книгПод венду на самом деле софта куда больше. Где то не могу найти линк. Большинство под вайном работает. Добросовестные там и кадрирование производят, и бинаризацию (картинки, как правило, оставляют цветными или в grayscale, добавляют OCR-слой и т.д. Bod(*)(2013-06-29 23:03:53)
Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7 |
Скрыть
Re:Сканирование и оцифровка книгПример одного сообщения, из которого можно понять алгоритм: Ну, раз вы занимаетесь обработкой сканов, вам это все должно быть известно. Возможно, мы просто используем разную терминологию? Bod(*)(2013-06-29 23:06:19)
Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7 |
Скрыть
Re:Сканирование и оцифровка книгМногое можно прочитать здесь (а если ещё и пройти по ссылкам..) Bod(*)(2013-06-29 23:09:14)
Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7 |
Скрыть
Re:Сканирование и оцифровка книгhttp://forum.ru-board.com/topic.cgi?forum=93&topic=1615&start=1280#15 Десять заповедей начинающего сканировщика Bod(*)(2013-06-29 23:11:16)
Отредактировано Bod по причине "не указана" Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7 |
Скрыть
Re:Сканирование и оцифровка книгПара ссылок на википедию: Bod(*)(2013-06-29 23:14:24)
Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7 |
Скрыть
Re:Сканирование и оцифровка книг1) Обрабатываешь сосканированные данные ScanTailor-ом. anonymous(*)(2013-06-30 17:21:49)
Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:21.0) Gecko/20100101 Firefox/21.0 |
Скрыть
Re:Сканирование и оцифровка книг>djvubind распознаёт текст
|
Скрыть
Re:Сканирование и оцифровка книг>http://ru.wikibooks.org/wiki/%D0%9E%D1%86%D0%B8%D1%84%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0%BF%D0%B5%D1%87%D0%B0%D1%82%D0%BD%D1%8B%D1%85_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2
Даже если у вас есть купленный вами бумажный экземпляр какой-либо книги, защищенной имущественным правом, закон запрещает вам изготавливать оцифрованную версию этой книги или хранить на своём компьютере где-либо взятую оцифрованную версию, если только вы сами не купили электронную книгу у издательства, дополнительно к бумажному экземпляру. Эти копирасты совсем того, судя по всему. |
|
|
|
Этот тред читают 4 пользователя: |
Анонимных: 4 Зарегистрированных: 0 |
Re:Сканирование и оцифровка книг
Я формат pdf так и не осилил, сколько не пробовал получаются монстрообразные книжки, хотя в целом так же предпочитаю pdf как более распространенный формат, пусть он и больше по обьему чем джву
Mozilla/5.0 (X11; Linux x86_64; rv:21.0) Gecko/20100101 Firefox/21.0