Автор | Сообщение |
|
Отправлено: 18.11.06 18:44. Заголовок: PDF vs DjVu
| |
Профиль
Цитата
Ответить
|
Ответов - 79
, стр:
1
2
All
[только новые]
|
|
|
Отправлено: 18.11.06 18:59. Заголовок: Re:
sashen За что-то любимый "книжниками" дебильнейший растровый формат, единственное достоинство — жмёт хорошо. Читается либо утилиткой, либо в браузере с соответствующим плагином. http://www.djvu-inf.narod.ru/#Programs
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 20:05. Заголовок: Re:
Steps Большое спасибо!
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 20:13. Заголовок: Re:
S.N.Morozoff, я может и плохое слово, но формат дурацкий не поэтому. В нем предусмотрена теоретическая возможность сохранения текстового (редактируемого) слоя, но я не видел НИ ОДНОЙ книги, в которой это было бы реализовано. А полноценный ПДФ позволяет… Даже СНМ, прости Господи, и то лучше этого угробища!
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 21:23. Заголовок: Re:
sashen пишет: цитата: | S.N.Morozoff, я может и плохое слово, но формат дурацкий не поэтому. В нем предусмотрена теоретическая возможность сохранения текстового (редактируемого) слоя, но я не видел НИ ОДНОЙ книги, в которой это было бы реализовано. |
|
Да она, по моему, и не теоретически предусмотрена. Просто на бесплатных программах не реализуется. А ими народ в основном и жмет. И потом: если уж тебя хватило распознать текст - зачем после этого жать в DjVu образы страниц? Кстати, скажи: какая примерно разница в размере между простым PDF и PDF с текстовым слоем?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 21:42. Заголовок: Re:
S.N.Morozoff Да в том-то и дело, что в инет-библиотеках не распознают, а сразу жмут в дежавю! А на кой ляд, спрашивается, электронная книга, из которой нельзя процитировать абзац? Про ПДФ скажу точно в понедельник — на моем буке это займет вечность Дело в том, что когда ты делаешь ПДФ текст у тебя ВСЕГДА можно редактировать. Подозреваю, что увеличение будет где-то на размер файла шрифта+текст в тхт. В ПДФе-то основная проблема в том, что он издательский, а стало быть графика высокого разрешения. Можно зато даунсэмплить, к примеру инет-версия моей газетенки укладывалась (с графикой) в 3 мега… Сейчас, всё-таки попробую (но не обещаю) поразвлекаться с книжками.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 22:04. Заголовок: Re:
S.N.Morozoff Вот смотри, лежат у меня две издательские книжки. Одна 300 страниц в ПДФе, весит чуть больше 5 метров. Вторая — 500 в дежавю, весит 14… Количество картинок в них примерно одинаковое. Разница в качестве (не в пользу дежавю) ЧУДОВИЩНАЯ! Итого, что мы видим: если книга сделана правильно, то ПДФ всегда будет меньше — не может даже пустой сжатый лист РАСТРА весить меньше сжатого ВЕКТОРА. Вся разница именно что в качестве иллюстраций — при одинаковом заданом объеме в ПДФ они будут более высокого качества… А еще Файн ДеЖаВю не признаёт, приходится извращаться. Я так "Распутина" делал. PS А зачем ты меня с sashenом перепутал?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 22:15. Заголовок: Re:
Steps пишет: цитата: | Да в том-то и дело, что в инет-библиотеках не распознают, а сразу жмут в дежавю! |
|
Это прежде всего быстрее. Скан - распознавание - сжатие или скан - сжатие, есть разница? цитата: | А на кой ляд, спрашивается, электронная книга, из которой нельзя процитировать абзац? |
|
Абзац - можно и перепечатать. А вообще книга нужна, чтобы ее читать. В этом смысле электронная книга просто заменяет бумажную. цитата: | Количество картинок в них примерно одинаковое. |
|
Дежавю исходно заточен под текст, а не под картинки. Во всяком случае, так утверждеют авторы. Вот ты знаешь, если брать газетный лист в черно-белом исполнении (2 цвета), то я потому и ушел от PDF, что у меня в среднем DjVu меньше PDF. Исключение - если есть большие фото, и то не всегда. И это при том, что PDF я делал 150dpi, а DjVu делаю - 300.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 22:20. Заголовок: Re:
Вот в следующий раз приеду, и покажу как это делается! Нет, если в ПДФ страницы книги заталкивать как КАРТИНКУ (есть у меня и такое непотребство), то можно и до гига дорасти… А насчет цитировоть — неправда Ваша. Мне на работе, к примеру, перепечатывать пару-тройку абзацев нерентабельно — рабочее место шефа точно за спиной! А на копипэйст времени надо реально меньше, поверь на слово!
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 22:23. Заголовок: Re:
я уже кажется писал когда-то про Latex. Если у вас есть некий текст (в ворде или что) его можно пропустить через простенькую програмку и загнать выход в pdf. Думаю что и размер ужметься по сравнению DjVu.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 22:25. Заголовок: Re:
Да чего там пропускать, ставишь в систаму драйвер печати в ПДФ и всё. А у нас на Маках и этого не надо…
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 22:28. Заголовок: Re:
понятно, имеется в виду если хочешь изменить форматирование по смоему усмотрению, рационально разместить картинки и тд.. Идательский тул !
| |
Профиль
Цитата
Ответить
|
|
|
Отправлено: 18.11.06 22:39. Заголовок: Re:
Да, кстати, предлагается все-таки считать электронными именно распознанные книги — тот же ДеЖаВю на КПК "это что-то особенного! (с)". А с монитора читать не всегда сподручно, даже в случае ноута. Не знаю, под текст затачивался дежавю или не под текст, но текстовых книг в нем я не видел ни одной! Чтобы выдернуть, скопировать, переслать там…
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 18.11.06 22:49. Заголовок: Re:
Steps пишет: цитата: | Вот в следующий раз приеду, и покажу как это делается! Нет, если в ПДФ страницы книги заталкивать как КАРТИНКУ (есть у меня и такое непотребство), то можно и до гига дорасти… |
|
Не вопрос. Покажи на газетном листе. цитата: | Не знаю, под текст затачивался дежавю или не под текст, но текстовых книг в нем я не видел ни одной! Чтобы выдернуть, скопировать, переслать там… |
|
Ты не понял. Речь идет о скане страницы с текстом, т.е. о голимом растре. Скан такой же по размеру страницы, но с картинкой весить будет больше. И чем больше занимает картинка по отношению к тексту, тем заметнее.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 01:04. Заголовок: Re:
S.N.Morozoff Я как раз всё понял! Понимаешь, можно же и в Ворд вставлять сканы на 1200 dpi, но это не будет являться ТЕКСТОВЫМ документом! А с твоей газетой скорее всего дело именно в алгоритме. Я-то про редактируемые тексты толкую, распознаные, а они ВСЕГДА будут компактнее…
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 06:21. Заголовок: Re:
Steps пишет: цитата: | Да, кстати, предлагается все-таки считать электронными именно распознанные книги |
| Несколько раз пытался получить распознанный текст в djvu -- ничего не получилось. Как это делается? Какие нужны программы?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 10:12. Заголовок: Re:
Steps пишет: цитата: | Я-то про редактируемые тексты толкую, распознаные, а они ВСЕГДА будут компактнее… |
|
Дык оно понятно. Но см. выше: "скан - сжатие" быстрее, чем "скан-распознавание-проверка-сжатие". assaur пишет: цитата: | Несколько раз пытался получить распознанный текст в djvu -- ничего не получилось. Как это делается? Какие нужны программы? |
|
Плагин позволяет сохранять сжатую страницу в BMP формат до 600dpi. Для этого при просмотре щелкнуть правой кнопкой на образе, выбрать "File", "Export to file".
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 15:20. Заголовок: Re:
кстати, да, я только сейчас заметил: читалка не позволяет копировать текст, а также может ехпортировать только в bmp. Ето что недостатки бесплатного плагина, или общая проблема DjVu ? Если второе, нахрена его использовать для электронных книг, если нельзя скопировать ?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 15:24. Заголовок: Re:
Так я о том и толкую — какая это, к чёрту, читалка, если она картинки кажет?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 15:29. Заголовок: Re:
те. такой формат, что не позволяет текстовое копирование , так ?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 15:41. Заголовок: Re:
Теоретически — позволяет, практически — см. мои посты выше. Никто этим просто не заморачивается, а в таком варианте единственный плюс дежавю — многостраничность. Джпегом можно и сильнее сплющить…
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 16:02. Заголовок: Re:
Имеющиеся сейчас программы сжатия в дежавю позволяют добавить текстовый слой из пакета Файнридера, но не позволяют при этом использовать правленный (в том числе в ФР) текст.
| |
Профиль
Цитата
Ответить
|
|
|
Отправлено: 19.11.06 17:24. Заголовок: Re:
Steps пишет: цитата: | Никто этим просто не заморачивается, |
|
Наконец-то! цитата: | Джпегом можно и сильнее сплющить… |
|
И JPEG я пробовал. DjVu лучшее. amyatishkin пишет: цитата: | Имеющиеся сейчас программы сжатия в дежавю позволяют добавить текстовый слой из пакета Файнридера, но не позволяют при этом использовать правленный (в том числе в ФР) текст. |
|
Что значит "правленный"? Поясните. Я текст распознал, естественно будут ошибки. Получается, если я правлю ошибки прямо в Ридере, я не могу такой "правленный" текст пристегнуть в качестве текстового слоя в DjVu-файл? И, кстати, программулину не подкинете, если это не DjVu Solo 3.1?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 18:15. Заголовок: Re:
А что "наконец-то"? Если формат, якобы заточенный под текст делает по умолчанию картинки, это хорошая разработка, да? В ПДФе чтобы перевести текст в картинку (когда нормальный документ делаешь, естественно) надо совершить неочевидные поступки, по умолчанию он БУДЕТ текстовый!!!!! Вот если бы для впихивания картинок в дежаве надо было бы как с ПДФом вошкаться, у меня и вопросов бы не было!
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 18:48. Заголовок: Re:
S.N.Morozoff пишет: цитата: | Что значит "правленный"? Поясните. Я текст распознал, естественно будут ошибки. Получается, если я правлю ошибки прямо в Ридере, я не могу такой "правленный" текст пристегнуть в качестве текстового слоя в DjVu-файл? |
| Да, программа привязывает буквы к месту и при правке усё съезжает. Подробно можно вот тут качнуть руководство в 0,5 мб Steps пишет: цитата: | А что "наконец-то"? Если формат, якобы заточенный под текст делает по умолчанию картинки, это хорошая разработка, да? В ПДФе чтобы перевести текст в картинку (когда нормальный документ делаешь, естественно) надо совершить неочевидные поступки, по умолчанию он БУДЕТ текстовый!!!!! Вот если бы для впихивания картинок в дежаве надо было бы как с ПДФом вошкаться, у меня и вопросов бы не было! |
| Вы, кажется, плохо поняли - формат ДежаВю заточен на аутентичное представление документов. А не каких-то книг, которые можно читать в текстовом виде. Если его использовать для электронного представления книг, то он обеспечивает в несколько раз лучшее сжатие, чем однобитный ТИФФ. В библиотеках он обычно используется для тех книг, где распознавание еще невозможно или невыгодно. Это могут быть книги, которые имеют большую техническую составляющую, в которых надо править каждую формулу, и этих формул несколько на страницу; книги, которые сканирующему некогда выправить и он отдает их для дальнейшей работы (как в этом случае); книги узкоспециальные, которые в лучшем случае могут потребоваться единицам, типа собрания сочинения Крупской; книги, где необходимо иметь уверенность в каждой точку и запятой, это и техническая литература, и академические ПСС классиков. Во всех этих случаях ПДФ может выдать или файл бОльшего в разы размера, или потребует на два порядка больше времени для изготовления, или даст искаженный образ книги. Я некоторую часть книг делаю в ДежаВю, но при этом не делаю текстового слоя, т.к. считаю 1) недостаточно распространены программы для его чтения и 2) есть неготовность пользователей для его использования. Вместо этого я часть книг (для которых текст еще имеет некторый смысл) снабжаю неправленным текстом. Кто-то это использует, кто-то нет.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 19:20. Заголовок: Re:
просто надо посмотреть преобразование типа..bmp-> txt , может такое и есть. По крайней мере через .pdf точно есть !
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 21:13. Заголовок: Re:
Steps пишет: цитата: | Если формат, якобы заточенный под текст делает по умолчанию картинки, это хорошая разработка, да? |
|
Вы, товарищ, сядьте на пол, Вам, товарищ, все равно. Ну где, где я говорил, что он заточен под текст, понимаемый как "распознанный текст"?! Объясняю в очередной раз. DjVu заточен, как правильно выразился выше Андрей: amyatishkin пишет: цитата: | формат ДежаВю заточен на аутентичное представление документов. |
|
Verstehen? Сканированный документ! Растр голимый, но с текстом, а не с картинкой! Без распознавания!!! Поскольку в документах большей частью предполагается текст или схемы, постольку именно такие документы DjVu жмет лучше всего. Под картинки какой-то другой аналог разработан, не помню как называется. Двоюродный брат DjVu, заточенный именно под сканированные картинки. amyatishkin пишет: цитата: | Подробно можно вот тут качнуть руководство в 0,5 мб |
|
Ага, спасибо. vlad пишет: цитата: | просто надо посмотреть преобразование типа..bmp-> txt , может такое и есть. |
|
Есть. Файнридер называется. :)
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 22:00. Заголовок: Re:
Вы мне, верстальщику, голову-то не морочьте! Текстовый документ это документ, в котором текст можно изменять. Всё. ЧТО на картинке — по…всёравно, это КАРТИНКА. Насчет аутентичности где-то соглашусь, где-то не особо… Отстойность дежавю компенсируется ИСКЛЮЧИТЕЛЬНО многостраничностью, "компрессоров" море. Аутентичнось… Оно бы если бы всё так, да только именно эту составляющую, боюсь, ув. amyatishkin только и видит, а остальным нужен ТУПОЙ МНОГОСТРАНИЧНЫЙ КОМПРЕССОР. СкриншотикоФФ накидать?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 22:29. Заголовок: Re:
Все графические форматы должны быть аутентичны, иначе, ето брак. Ошибка может быть исключительно в железе, те. в сканере, ИМХО. Другое дело, что попытка передалать картинку в текст несет в себе вероятность ошибки, так что.. если хотите железной надежности, нужно сохранять картинку, а не текст.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 22:41. Заголовок: Re:
Steps пишет: цитата: | Текстовый документ это документ, в котором текст можно изменять. Всё. ЧТО на картинке — по…всёравно, это КАРТИНКА. |
|
Да. Но DjVu заточен под сжатие сканов документов, СОДЕРЖАЩИХ ТЕКСТ. Если исходник такого документа, содержащий исключительно текст, называется не текстовым, то я не знаю, как еще объяснять. Steps пишет: цитата: | Отстойность дежавю компенсируется ИСКЛЮЧИТЕЛЬНО многостраничностью, "компрессоров" море. |
|
Еще раз. Газеты эта штука жмет существенно лучше, чем PDF. Многостраничные документы я не делаю. Так что не один Андрей. цитата: | остальным нужен ТУПОЙ МНОГОСТРАНИЧНЫЙ КОМПРЕССОР. |
|
Я уже сказал же: это - быстрее. В конце концов, так все же лучше, чем вообще никак.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 23:23. Заголовок: Re:
S.N.Morozoff пишет: цитата: | vlad пишет: цитата: просто надо посмотреть преобразование типа..bmp-> txt , может такое и есть. Есть. Файнридер называется. :) |
| вообше есть много бесплатных программ под задачу image-> txt. Здесь к прим: http://www.cfar.umd.edu/%7Ekia/ocr-faq.html потом всякие GOCR, jOCR , from GNU-project.. я правда не пользовался.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 19.11.06 23:43. Заголовок: Re:
У нас в стране все программы бесплатные… А Файнридер — лучшая из них.
| |
Профиль
Цитата
Ответить
|
|
|
Отправлено: 19.11.06 23:52. Заголовок: Re:
vlad пишет: цитата: | вообше есть много бесплатных программ под задачу image-> txt. |
|
Я имел в виду ФР, как представитель класса. Иначе я не представляю, как это еще сделать, если не набивать вручнуя. Завтра возьму страницу чего-нибудь, м.б. газеты A3 или книжки какой-нибудь и сделаю со скана PDF, DjVu, JPG и GIF в равном разрешении.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 00:02. Заголовок: Re:
Steps пишет: цитата: | У нас в стране все программы бесплатные… А Файнридер — лучшая из них. |
|
ну так, Россия впереди планеты всей !
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 16:50. Заголовок: Re:
Steps пишет: цитата: | единственный плюс дежавю — многостраничность. Джпегом можно и сильнее сплющить… |
|
Только что провел эксперимент. 99 страниц книжного текста, B&W, 400 dpi. Суммарный размер исходных tiff-файлов - 78,177 мБ. Размер rar-архива при сжатии best - 9,296 мБ. Размер djvu-файла - 0,725 мБ. Ни один jpeg с подобной степенью сжатия (1/108) нормально читаться не будет.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 17:23. Заголовок: Re:
Так. Анонсированные примеры. 1. Методика. а) Исходный текст - Microsoft Word, 1 страница. б) Исходный текст - Microsoft Word, 27 страниц. Для вариантов а) и б) делался: - PDF: прямо из Word через Adobe Acrobat 6.0 с возможностью поиска текста; - PDF: распечатка на принтере (HP LJ1100), сканирование в 300 dpi (Acer 3300U) и далее - кодирование образа (Adobe Acrobat 6.0); - DjVu: распечатка на принтере (HP LJ1100), сканирование в 300 dpi (Acer 3300U) и далее - кодирование образа (DjVu Solo 3.1). Для варианта а) делался дополнительно: - JPEG с качеством "0", 72 dpi (Adobe Photoshop CS); - GIF 8-ми цветный, 72 dpi (Adobe Photoshop CS). 2. Результаты. Вариант а) (одна страница): Страница в Microsoft Word (3023 знаков с пробелами) - 24,6 Kb PDF с возможностью поиска текста - 103,7 Kb PDF без возможности поиска текста (образ) - 78,2 Kb DjVu без возможности поиска текста - 9,6 Kb JPEG с качеством 0, 72 dpi - 47,8 Kb GIF (8 цветов), 72 dpi - 52,6 Kb Вариант б) (27 страниц): Текст в Microsoft Word (75938 знаков с пробелами) - 256,0 Kb PDF с возможностью поиска текста - 442 Kb PDF без возможности поиска текста (образ) - 1937,9 Kb DjVu без возможности поиска текста - 212,9 Kb
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 18:34. Заголовок: Re:
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 18:45. Заголовок: Re:
на мой дилетанский взгляд Ворд там "балуется" когда делает .pdf: уж больно растет размер: от 25 К исходника до прим 100 К pdf.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 18:48. Заголовок: Re:
vlad пишет: цитата: | на мой дилетанский взгляд Ворд там "балуется" когда делает .pdf: уж больно растет размер: от 25 К исходника до прим 100 К pdf. |
|
Возможно. Я тоже удивился. Steps'а подождем, он уже тут как тут.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 18:51. Заголовок: Re:
Вот второй пример интереснее, нес па? ИНДЕКСИРУЕМЫЙ документ и гАлимая картинка (накидаю скриншотов, будешь спорить!)
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 18:54. Заголовок: Re:
Steps пишет: цитата: | Вот второй пример интереснее, нес па? |
|
А первый чем тебе не интересен? цитата: | ИНДЕКСИРУЕМЫЙ документ и гАлимая картинка (накидаю скриншотов, будешь спорить!) |
|
Галимая, ага. Только ни распознавать, ни вычитывать, ни править не надо. А возьми машинописный текст - как с ним быть? Примеров тоже могу накидать.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 19:15. Заголовок: Re:
| |
Профиль
Цитата
Ответить
|
|
|
Отправлено: 20.11.06 19:30. Заголовок: Re:
Ну и, наконец, сводные уточненные результаты по первому примеру. Смотреть внимательно: DjVu с поиском текста включен в список. 2. Результаты. Вариант а) (одна страница): Страница в Microsoft Word (3023 знаков с пробелами) - 24,6 Kb PDF с возможностью поиска текста - 71,4 Kb PDF без возможности поиска текста (образ) - 78,2 Kb DjVu с возможностью поиска текста - 13,5 Kb DjVu без возможности поиска текста - 9,6 Kb JPEG с качеством 0, 72 dpi - 47,8 Kb GIF (8 цветов), 72 dpi - 52,6 Kb Вариант б) (27 страниц): Текст в Microsoft Word (75938 знаков с пробелами) - 256,0 Kb PDF с возможностью поиска текста - 392,4 Kb PDF без возможности поиска текста (образ) - 1937,9 Kb DjVu с возможностью поиска текста - 314,9 Kb DjVu без возможности поиска текста - 212,9 Kb
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 20:14. Заголовок: Re:
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 23:04. Заголовок: Re:
День добрый, панове! Бросьте вы спорить из-за ерунды. Отдайте Богу Богово, а кесарю - кесарево. Что DjVu, что Acrobat суть разные ИНСТРУМЕНТЫ для решения разных ЗАДАЧ. Кто книжки просто читает, и только читает, тому дежавю просто в кайф. А кто книжки и читает, и слушает, или "режет" из них текст, тому дежавю поперек горла. Сразу видать, что Steps текстовик. Мне тоже нужен распознанный текст для Говорилки (зрение, пардон, беречь приходится). Всех благ
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 23:14. Заголовок: Re:
AZ пишет: цитата: | Бросьте вы спорить из-за ерунды. |
|
Да разве ж это спор? Мы когда спорим (особенно очно) - таки пух и перья летят и нас растаскивать приходится. А это мы так, культурно общаемся.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 20.11.06 23:15. Заголовок: Re:
amyatishkin пишет: Я не эстет, но мне очень понравился результат. Жалко, что я 7-ю версию FineReider удалил. Там еще программка для распознавания есть, но для 7-й, а я совсем недавно 8-ю поставил.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 10:30. Заголовок: Re:
S.N.Morozoff www.elementmoscow.ru — возьми там ЛЮБОЙ майско-июньский номер. 16 полос А3, включая полноцвет, 3,5 мб. С РЕДАКТИРУЕМЫМ текстом. Качество картинок, конечно, не 300 дпи, но если в дедмишиной книжке 300, то мои 72 круче будут!
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 11:09. Заголовок: Re:
Это можно сделать. Но это будет долго, дорого и фигово сделано (c) анекдот. Дайте ему кто-нибудь скан книжки этак 1939 года страниц на 500 - пусть пдф делает.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 11:30. Заголовок: Re:
Steps пишет: цитата: | www.elementmoscow.ru — возьми там ЛЮБОЙ майско-июньский номер. 16 полос А3, включая полноцвет, 3,5 мб. С РЕДАКТИРУЕМЫМ текстом. Качество картинок, конечно, не 300 дпи, но если в дедмишиной книжке 300, то мои 72 круче будут! |
|
Еще раз. Меня больше всего интересует номер газеты "Социалистическое земледелие" от 25 июня 1941г. (4 полосы A2), переведенный в PDF с возможностью поиска текста. Редактирование не нужно. В DjVu это будет весить около 1,3-1,5 Mb с текстом. Желаешь заняться? Steps, ты никак не хочешь понять, что мир не состоит из одних только верстальщиков, как бы тебе этого не хотелось. Это раз. У людей в миру есть еще масса дел, кроме того, чтобы делать заново макет уже изданной на бумаге книжки. Это два. И три: если оно тебе так надо: почему ты сам этим не займешься? amyatishkin пишет: цитата: | Дайте ему кто-нибудь скан книжки этак 1939 года страниц на 500 - пусть пдф делает. |
|
Да не вопрос. Думаю, "Справочник по иностранным самолетам", издание ЦАГИ, 1939 год о 503 страницах вполне подойдет. Там и картинки, и таблицы, и схемы, и текст.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 11:54. Заголовок: Re:
Мир состоит из людей, которые (в идеале) если что-то делают, то лучше бы делали хорошо, а не "удобно" или "быстро". Кроме того, у меня нет в твердых копиях того, что СТОИТ переводить в электронку. Исключение — первый Жуков. Отсканируешь — займусь… Вот вы на меня набросились, право слово!
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 12:02. Заголовок: Re:
Steps пишет: цитата: | Мир состоит из людей, которые (в идеале) если что-то делают, то лучше бы делали хорошо, а не "удобно" или "быстро". |
|
Слово "хорошо" имеет много значений и оттенков. Например, "хорошо" - это оптимальный вариант для конкретного человека между быстротой и качеством или удобством. цитата: | Кроме того, у меня нет в твердых копиях того, что СТОИТ переводить в электронку. |
|
Так займись электронными, какие проблемы? Возьми нужную тебе книжку в DjVu и переведи в PDF. Хоть бы и Дедмишину. Сделай "хорошо", а не абы как. цитата: | Исключение — первый Жуков. Отсканируешь — займусь… |
|
Я? А давай мы как раз и проведем эксперимент: ты и отсканируешь, и сверстаешь, э? цитата: | Вот вы на меня набросились, право слово! |
|
Но ведь это ты сказал: Steps пишет: цитата: | За что-то любимый "книжниками" дебильнейший растровый формат, единственное достоинство — жмёт хорошо. |
|
а не мы.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 12:13. Заголовок: Re:
Тогда ждите вечность, мой MUSTEC быстрее не отсканирует. Э? А дедмишина книжка сохранена в роскошном, качественном, превосходящем всё и вся дежавю (видишь — исправился!) так, что вместо картинок без потери информативности можно ставить самую известную картину Малевича. Э?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 12:16. Заголовок: Re:
Steps пишет: цитата: | А дедмишина книжка сохранена в роскошном, качественном, превосходящем всё и вся дежавю (видишь — исправился!) так, что вместо картинок без потери информативности можно ставить самую известную картину Малевича. Э? |
|
Ну, фото в книжке в бумажном варианте не лучше, чем в газетах того времени, о котором книжка. Зато текст можно будет искать и даже редактировать.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 12:29. Заголовок: Re:
Steps пишет: цитата: | А дедмишина книжка сохранена в роскошном, качественном, превосходящем всё и вся дежавю (видишь — исправился!) так, что вместо картинок без потери информативности |
| Как то забывается Вами, что таких роскошных возможностей по скачиванию из интернета какие имеются у вас, лишены очень многие. Конечно это дело времени, но сейчас обязательно нужны форматы с приемлимым "весом".
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 12:56. Заголовок: Re:
assaur А у меня на работе вообще нет возможности… Разговор аккурат про то и идет, что ТЕКСТ меньше ЛЮБОЙ картинки. Иллюстрации — отдельно.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 13:03. Заголовок: Re:
Steps пишет: цитата: | А у меня на работе вообще нет возможности… Разговор аккурат про то и идет, что ТЕКСТ меньше ЛЮБОЙ картинки. Иллюстрации — отдельно. |
|
Ты на первый пример внимательно смотрел? Для одностраничного документа DjVu образ (хоть с поиском, хоть без) меньше того вордовского файла, из которого он сделан. Мы ведь не txt-файл рассматриваем, нам еще и оформление важно. Кроме того, сжатый DjVu 27-страничный текст отчета (с поиском) меньше, чем сделанный из ворда PDF, а без поиска - меньше самого исходного Вордовского файла. Так что текст не всегда меньше картинки, не всегда. Но может, я чего в PDF не понимаю? Хочешь, я тебе doc-файл с отчетом выложу, сам PDF сделаешь.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 13:26. Заголовок: Re:
Ворд избыточен… Если сравнивать, то с РТФ… В общем, давай до приезда отложим, а то мы как тот слепой еврей в анекдоте, про лебедя!
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 13:30. Заголовок: Re:
Steps пишет: цитата: | Ворд избыточен… Если сравнивать, то с РТФ… |
|
РТФ говоришь? А как ты отнесешься к тому, что конвертированный в РТФ все тот же текст отчета начал весить 372,6 Kb против 256,0 Вордовских? Тады картинка DjVu даже с текстом меньше. цитата: | В общем, давай до приезда отложим, |
|
Давай.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.11.06 17:25. Заголовок: Re:
елы-палы, да надо просто выложить где-нить рядом с книгой..FAQ, где между прочим написать: если хотите поиск DjVu делай то-то. Ехпорт в .bmp потом такой-то тул... я могу на досуге опробовать что-нит из GNU-project.
| |
Профиль
Цитата
Ответить
|
|
| администратор
|
Пост N: 123
|
|
Отправлено: 21.11.06 18:48. Заголовок: Re:
Кстати, т.к. в новой Милитере будет довольно-таки активно использоваться формат DjVu (с распознанным текстом), неплохо было воспользоваться случаем (этой темой) и определиться с лучшими -- вьювером, плугинами, конвертером, редактором, утилитами и т.д. Определить, т.с. полный комплект программ. Я последний год с djvu имел дело без его редактирования/преобразования, потому отстал от веяний.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 22.11.06 23:56. Заголовок: Re:
К вопросу о соотношении разных форматов неожиданно нашёлся концентрированный аргУмент со с. 159 любезно предоставленной ув. Диогеном книги Переслегина «Вторая мировая война между реальностями»: цитата: | Даже в июне Г. Гот жаловался, что русские фунтовые факты непригодны для колесных машин французского производства. |
| 2 Steps Вас этот «фунтовый факт» не убеждает в том, что лучше уж иметь точное изображение страницы без возможности поиска по тексту и цитирования двумя кнопками (особенно, если книга не новодел, а осталась от тех времён, когда редакторы/корректоры ещё не вымерли как динозавры), чем бороться по ходу чтения с глюками распознавания/вычитывания? С наилучшими пожеланиями, O’Bu.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 24.11.06 11:02. Заголовок: Re:
Да как Вам сказать… Где-то соглашусь, где-то нет. Скажем, в предельном случае лучше иметь дежавю, чем не иметь ничего вообще, особенно касаемо старых книг, но для новоделов-то! А про тексовый слой… Помните классическое "сделай вещь, которой может пользоваться любой дурак и только дураки ей пользоваться и будут!" Я ж не спорю, что в дежавю можно встроить текст, просто по умолчанию сия опция неактивирована, а следовательно, НИКТО НЕ ПАРИТСЯ! Для меня вообще вон долгое время fb2 был предпочтительнее всего, и что?
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 02.08.07 12:57. Заголовок: Re:
Народ вопрос. Отсканил сейчас сборники (Терра) Ставка 1941 и 1942 г. одий 400 стр. другой 600 стр. создаю в FR многостраничный тифф (300dpi ч/б ) и в DjVu Solo 3.1 пытаюсь пережать в DjVu, но Solo падает не создавая файл Что делать, раньше у меня получалось например я делал сборник ГШ 1941 http://www.alex800511.pochta.ru/GSH41
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 02.08.07 13:31. Заголовок: Re:
скорее Соло не переваривает большой объем импорта сразу, я такой объем делю на 2 операции
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 02.08.07 15:25. Заголовок: Re:
Volxov пишет: цитата: | создаю в FR многостраничный тифф (300dpi ч/б ) |
|
Вот это надо делать без сжатия, и можно одностраничными файлами попробовать. Мб не сразу упадет :)
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 02.08.07 22:10. Заголовок: Re:
Получилось!!! Сборник экспортировал в тиф 4-я кусками, а потом в по кускам в солло... файл получился 2,9 мБт
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 02.08.07 22:27. Заголовок: Re:
Volxov пишет: цитата: | Получилось!!! Сборник экспортировал в тиф 4-я кусками, а потом в по кускам в солло... файл получился 2,9 мБт |
| Как-то это все непонятно. Я думаю, что при такой степени сжатия, получатель может этот сборник только прочитать. Но сам сделать с ним уже ничего не сможет. Я иногда такие вещи скачиваю с целью перевода в Ворд. Но распознать не удается именно из-за большого сжатия. Хорошая вещь и упорная работа обесцениваются из-за невозможности поиска в тексте и копирования.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 02.08.07 23:07. Заголовок: Re:
У меня обычно без проблем распознается. Ес-но, надо в djvu 300 дпи и так же передать. На мелких шрифтах только баги есть.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 03.08.07 12:48. Заголовок: Re:
http://www.alex800511.pochta.ru/svgk1941.djvu assaur пишет: цитата: | Хорошая вещь и упорная работа обесцениваются из-за невозможности поиска в тексте и копирования. |
| будет вам ворд когда будет время... Но в ходе следственного эксперимента установлено, что экспортированные страницы из дэжавю прекрастно распознаются в файнридере
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 03.08.07 13:06. Заголовок: Re:
Угу, один человек сканит, чистит, жмёт в дежавю, выкладывает, потом другой качает, распознает, правит, экспортирует, перевыкладывает, потом еще FB2 делать… Есть в этом что-то неправильное. Не-не, лучше дежавю, чем вообще ничего, но мне, к примеру, из него перегонять практически невозможно, файн в эмуляторе не работает совсем… Был бы текстовый слой — можно было бы по запросам FB2 наделать, если кому надо, а вот распознавать не могу… А дежавю на КПК (как и PDF, впрочем) — такая жесть!
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 03.08.07 14:20. Заголовок: Re:
жесть, не жесть, а 700 стр. в 300 dpi отсканненых в 7,6 Мб загоняет и ето дело ЗЫ я готов сканить с распознованием, но дико лениво и в ближайшем рассмотрении нафиг никому ненадо в любительских целях пока ничего лучше djvu не придумано
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 03.08.07 14:27. Заголовок: Re:
Volxov пишет: цитата: | будет вам ворд когда будет время... Но в ходе следственного эксперимента установлено, что экспортированные страницы из дэжавю прекрастно распознаются в файнридере |
| Спасибо за работу. Насчет файнрийдера несколько раз нарывался и было очень обидно. А если Ваш распознается, то спасибо еще раз.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 03.08.07 15:10. Заголовок: Re:
цитата: | а 700 стр. в 300 dpi отсканненых в 7,6 Мб загоняет и ето дело |
| Загоняет-незагоняет, а читать на КПК невозможно никак совершенно совсем вовсе…
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 03.08.07 15:26. Заголовок: Re:
Дык фанридер и ПДФ неплохо распознает... Да и распознать, сформатировать, воткнуть картинки в ворде по объему куда экономичнее будет
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 22.09.07 17:16. Заголовок: Re:
Вопрос к знатокам формата Djvu: А со страницей, напечатанной в два краско-оттиска, он может справиться так, что останутся только эти два цвета (в моём случае чёрный и синий)? Если да, то каким образом? С наилучшими пожеланиями, O'Bu.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 22.09.07 18:06. Заголовок: Re:
У Ершова на форуме это разбиралось. Много возни в Фотошопе и прога DjVu Printer? типа того, в обчем.
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.10.07 10:58. Заголовок: Re:
Возвращаясь к нашим баранамформатам. У ABBYY на сайте написано, что ABBYY FineReader Engine 8.1 понимает djvu. Где сие чудо скачать можно, а то в djvu что-то много накопилось, надо в FB2 перегонять… Гугловые ссылки на простой Файн ведут…
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.10.07 11:18. Заголовок: Re:
прально там написано: FineReader Engine и FineReader - это разные продукты, ИМХО
| |
Профиль
Цитата
Ответить
|
|
Отправлено: 21.10.07 11:24. Заголовок: Re:
Это я понимаю, скачать гиде?
| |
Профиль
Цитата
Ответить
|
Ответов - 79
, стр:
1
2
All
[только новые]
|
|
|