Форум сайта
Новичкам о регистрации на форуме.
АвторСообщение





Пост N: 79
ссылка на сообщение  Отправлено: 18.11.06 18:44. Заголовок: PDF vs DjVu


Перенос разговора из темы Книги в электронных библиотеках.

Диоген пишет:

 цитата:
Книга В.Бешанова «Красный блицкриг» (формат djvu, размер файла 2.8 Мб) на Turbo Upload:

http://d.turboupload.com/d/1219918/redblitz.djvu.html


Чё за файл.
У меня ни WORD ни Adobe Reader его не отккрывают.
Подскажите чайнику!

Спасибо: 0 
Профиль Цитата Ответить
Ответов - 79 , стр: 1 2 All [только новые]







Пост N: 316
ссылка на сообщение  Отправлено: 18.11.06 18:59. Заголовок: Re:


sashen
За что-то любимый "книжниками" дебильнейший растровый формат, единственное достоинство — жмёт хорошо.
Читается либо утилиткой, либо в браузере с соответствующим плагином.
http://www.djvu-inf.narod.ru/#Programs

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить





Пост N: 80
ссылка на сообщение  Отправлено: 18.11.06 20:05. Заголовок: Re:


Steps
Большое спасибо!

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 317
ссылка на сообщение  Отправлено: 18.11.06 20:13. Заголовок: Re:


S.N.Morozoff, я может и плохое слово, но формат дурацкий не поэтому. В нем предусмотрена теоретическая возможность сохранения текстового (редактируемого) слоя, но я не видел НИ ОДНОЙ книги, в которой это было бы реализовано. А полноценный ПДФ позволяет… Даже СНМ, прости Господи, и то лучше этого угробища!

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5073
ссылка на сообщение  Отправлено: 18.11.06 21:23. Заголовок: Re:


sashen пишет:

 цитата:
S.N.Morozoff, я может и плохое слово, но формат дурацкий не поэтому. В нем предусмотрена теоретическая возможность сохранения текстового (редактируемого) слоя, но я не видел НИ ОДНОЙ книги, в которой это было бы реализовано.

Да она, по моему, и не теоретически предусмотрена. Просто на бесплатных программах не реализуется. А ими народ в основном и жмет. И потом: если уж тебя хватило распознать текст - зачем после этого жать в DjVu образы страниц?

Кстати, скажи: какая примерно разница в размере между простым PDF и PDF с текстовым слоем?

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить





Пост N: 318
ссылка на сообщение  Отправлено: 18.11.06 21:42. Заголовок: Re:


S.N.Morozoff Да в том-то и дело, что в инет-библиотеках не распознают, а сразу жмут в дежавю! А на кой ляд, спрашивается, электронная книга, из которой нельзя процитировать абзац? Про ПДФ скажу точно в понедельник — на моем буке это займет вечность Дело в том, что когда ты делаешь ПДФ текст у тебя ВСЕГДА можно редактировать. Подозреваю, что увеличение будет где-то на размер файла шрифта+текст в тхт. В ПДФе-то основная проблема в том, что он издательский, а стало быть графика высокого разрешения. Можно зато даунсэмплить, к примеру инет-версия моей газетенки укладывалась (с графикой) в 3 мега… Сейчас, всё-таки попробую (но не обещаю) поразвлекаться с книжками.

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить





Пост N: 319
ссылка на сообщение  Отправлено: 18.11.06 22:04. Заголовок: Re:


S.N.Morozoff
Вот смотри, лежат у меня две издательские книжки. Одна 300 страниц в ПДФе, весит чуть больше 5 метров. Вторая — 500 в дежавю, весит 14… Количество картинок в них примерно одинаковое. Разница в качестве (не в пользу дежавю) ЧУДОВИЩНАЯ! Итого, что мы видим: если книга сделана правильно, то ПДФ всегда будет меньше — не может даже пустой сжатый лист РАСТРА весить меньше сжатого ВЕКТОРА. Вся разница именно что в качестве иллюстраций — при одинаковом заданом объеме в ПДФ они будут более высокого качества… А еще Файн ДеЖаВю не признаёт, приходится извращаться. Я так "Распутина" делал.

PS А зачем ты меня с sashenом перепутал?

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5074
ссылка на сообщение  Отправлено: 18.11.06 22:15. Заголовок: Re:


Steps пишет:

 цитата:
Да в том-то и дело, что в инет-библиотеках не распознают, а сразу жмут в дежавю!

Это прежде всего быстрее. Скан - распознавание - сжатие или скан - сжатие, есть разница?


 цитата:
А на кой ляд, спрашивается, электронная книга, из которой нельзя процитировать абзац?

Абзац - можно и перепечатать. А вообще книга нужна, чтобы ее читать. В этом смысле электронная книга просто заменяет бумажную.


 цитата:
Количество картинок в них примерно одинаковое.

Дежавю исходно заточен под текст, а не под картинки. Во всяком случае, так утверждеют авторы.

Вот ты знаешь, если брать газетный лист в черно-белом исполнении (2 цвета), то я потому и ушел от PDF, что у меня в среднем DjVu меньше PDF. Исключение - если есть большие фото, и то не всегда. И это при том, что PDF я делал 150dpi, а DjVu делаю - 300.

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить





Пост N: 320
ссылка на сообщение  Отправлено: 18.11.06 22:20. Заголовок: Re:


Вот в следующий раз приеду, и покажу как это делается! Нет, если в ПДФ страницы книги заталкивать как КАРТИНКУ (есть у меня и такое непотребство), то можно и до гига дорасти…
А насчет цитировоть — неправда Ваша. Мне на работе, к примеру, перепечатывать пару-тройку абзацев нерентабельно — рабочее место шефа точно за спиной! А на копипэйст времени надо реально меньше, поверь на слово!

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2714
ссылка на сообщение  Отправлено: 18.11.06 22:23. Заголовок: Re:


я уже кажется писал когда-то про Latex. Если у вас есть некий текст (в ворде или что) его можно пропустить через простенькую програмку и загнать выход в pdf. Думаю что и размер ужметься по сравнению DjVu.

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 321
ссылка на сообщение  Отправлено: 18.11.06 22:25. Заголовок: Re:


Да чего там пропускать, ставишь в систаму драйвер печати в ПДФ и всё. А у нас на Маках и этого не надо…

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2715
ссылка на сообщение  Отправлено: 18.11.06 22:28. Заголовок: Re:


понятно, имеется в виду если хочешь изменить форматирование по смоему усмотрению, рационально разместить картинки и тд.. Идательский тул !

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 322
ссылка на сообщение  Отправлено: 18.11.06 22:39. Заголовок: Re:


Да, кстати, предлагается все-таки считать электронными именно распознанные книги — тот же ДеЖаВю на КПК "это что-то особенного! (с)". А с монитора читать не всегда сподручно, даже в случае ноута. Не знаю, под текст затачивался дежавю или не под текст, но текстовых книг в нем я не видел ни одной! Чтобы выдернуть, скопировать, переслать там…

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5075
ссылка на сообщение  Отправлено: 18.11.06 22:49. Заголовок: Re:


Steps пишет:

 цитата:
Вот в следующий раз приеду, и покажу как это делается! Нет, если в ПДФ страницы книги заталкивать как КАРТИНКУ (есть у меня и такое непотребство), то можно и до гига дорасти…

Не вопрос. Покажи на газетном листе.


 цитата:
Не знаю, под текст затачивался дежавю или не под текст, но текстовых книг в нем я не видел ни одной! Чтобы выдернуть, скопировать, переслать там…

Ты не понял. Речь идет о скане страницы с текстом, т.е. о голимом растре. Скан такой же по размеру страницы, но с картинкой весить будет больше. И чем больше занимает картинка по отношению к тексту, тем заметнее.

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить





Пост N: 323
ссылка на сообщение  Отправлено: 19.11.06 01:04. Заголовок: Re:


S.N.Morozoff
Я как раз всё понял! Понимаешь, можно же и в Ворд вставлять сканы на 1200 dpi, но это не будет являться ТЕКСТОВЫМ документом! А с твоей газетой скорее всего дело именно в алгоритме. Я-то про редактируемые тексты толкую, распознаные, а они ВСЕГДА будут компактнее…

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить



Пост N: 847
ссылка на сообщение  Отправлено: 19.11.06 06:21. Заголовок: Re:


Steps пишет:

 цитата:
Да, кстати, предлагается все-таки считать электронными именно распознанные книги


Несколько раз пытался получить распознанный текст в djvu -- ничего не получилось. Как это делается? Какие нужны программы?

"... в землянке спит Иван Кузмич..." Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5077
ссылка на сообщение  Отправлено: 19.11.06 10:12. Заголовок: Re:


Steps пишет:

 цитата:
Я-то про редактируемые тексты толкую, распознаные, а они ВСЕГДА будут компактнее…

Дык оно понятно. Но см. выше: "скан - сжатие" быстрее, чем "скан-распознавание-проверка-сжатие".

assaur пишет:

 цитата:
Несколько раз пытался получить распознанный текст в djvu -- ничего не получилось. Как это делается? Какие нужны программы?

Плагин позволяет сохранять сжатую страницу в BMP формат до 600dpi. Для этого при просмотре щелкнуть правой кнопкой на образе, выбрать "File", "Export to file".

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2718
ссылка на сообщение  Отправлено: 19.11.06 15:20. Заголовок: Re:


кстати, да, я только сейчас заметил: читалка не позволяет копировать текст, а также может ехпортировать только в bmp.
Ето что недостатки бесплатного плагина, или общая проблема DjVu ?
Если второе, нахрена его использовать для электронных книг, если нельзя скопировать ?

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 324
ссылка на сообщение  Отправлено: 19.11.06 15:24. Заголовок: Re:


Так я о том и толкую — какая это, к чёрту, читалка, если она картинки кажет?

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2719
ссылка на сообщение  Отправлено: 19.11.06 15:29. Заголовок: Re:


те. такой формат, что не позволяет текстовое копирование , так ?

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 325
ссылка на сообщение  Отправлено: 19.11.06 15:41. Заголовок: Re:


Теоретически — позволяет, практически — см. мои посты выше. Никто этим просто не заморачивается, а в таком варианте единственный плюс дежавю — многостраничность. Джпегом можно и сильнее сплющить…

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить





Пост N: 1288
ссылка на сообщение  Отправлено: 19.11.06 16:02. Заголовок: Re:


Имеющиеся сейчас программы сжатия в дежавю позволяют добавить текстовый слой из пакета Файнридера, но не позволяют при этом использовать правленный (в том числе в ФР) текст.

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5079
ссылка на сообщение  Отправлено: 19.11.06 17:24. Заголовок: Re:


Steps пишет:

 цитата:
Никто этим просто не заморачивается,

Наконец-то!


 цитата:
Джпегом можно и сильнее сплющить…

И JPEG я пробовал. DjVu лучшее.

amyatishkin пишет:

 цитата:
Имеющиеся сейчас программы сжатия в дежавю позволяют добавить текстовый слой из пакета Файнридера, но не позволяют при этом использовать правленный (в том числе в ФР) текст.

Что значит "правленный"? Поясните. Я текст распознал, естественно будут ошибки. Получается, если я правлю ошибки прямо в Ридере, я не могу такой "правленный" текст пристегнуть в качестве текстового слоя в DjVu-файл?

И, кстати, программулину не подкинете, если это не DjVu Solo 3.1?

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить





Пост N: 326
ссылка на сообщение  Отправлено: 19.11.06 18:15. Заголовок: Re:


А что "наконец-то"? Если формат, якобы заточенный под текст делает по умолчанию картинки, это хорошая разработка, да? В ПДФе чтобы перевести текст в картинку (когда нормальный документ делаешь, естественно) надо совершить неочевидные поступки, по умолчанию он БУДЕТ текстовый!!!!! Вот если бы для впихивания картинок в дежаве надо было бы как с ПДФом вошкаться, у меня и вопросов бы не было!

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить





Пост N: 1290
ссылка на сообщение  Отправлено: 19.11.06 18:48. Заголовок: Re:


S.N.Morozoff пишет:

 цитата:
Что значит "правленный"? Поясните. Я текст распознал, естественно будут ошибки. Получается, если я правлю ошибки прямо в Ридере, я не могу такой "правленный" текст пристегнуть в качестве текстового слоя в DjVu-файл?



Да, программа привязывает буквы к месту и при правке усё съезжает.

Подробно можно вот тут качнуть руководство в 0,5 мб

 цитата:
Slawa-614
4u4undr. Руководство для сканирования и создания DJVU-файлов научно-технических книг (pdf, v.1.03) [6.06.06]

Руководство:
http://download.nextmail.ru/3/v/a1730a77946b0842f3a784e58f73f485/tech.rar

с NataHaus



Steps пишет:

 цитата:
А что "наконец-то"? Если формат, якобы заточенный под текст делает по умолчанию картинки, это хорошая разработка, да? В ПДФе чтобы перевести текст в картинку (когда нормальный документ делаешь, естественно) надо совершить неочевидные поступки, по умолчанию он БУДЕТ текстовый!!!!! Вот если бы для впихивания картинок в дежаве надо было бы как с ПДФом вошкаться, у меня и вопросов бы не было!



Вы, кажется, плохо поняли - формат ДежаВю заточен на аутентичное представление документов. А не каких-то книг, которые можно читать в текстовом виде.
Если его использовать для электронного представления книг, то он обеспечивает в несколько раз лучшее сжатие, чем однобитный ТИФФ.
В библиотеках он обычно используется для тех книг, где распознавание еще невозможно или невыгодно.
Это могут быть книги, которые имеют большую техническую составляющую, в которых надо править каждую формулу, и этих формул несколько на страницу;
книги, которые сканирующему некогда выправить и он отдает их для дальнейшей работы (как в этом случае);
книги узкоспециальные, которые в лучшем случае могут потребоваться единицам, типа собрания сочинения Крупской;
книги, где необходимо иметь уверенность в каждой точку и запятой, это и техническая литература, и академические ПСС классиков.
Во всех этих случаях ПДФ может выдать или файл бОльшего в разы размера, или потребует на два порядка больше времени для изготовления, или даст искаженный образ книги.

Я некоторую часть книг делаю в ДежаВю, но при этом не делаю текстового слоя, т.к. считаю 1) недостаточно распространены программы для его чтения и 2) есть неготовность пользователей для его использования.
Вместо этого я часть книг (для которых текст еще имеет некторый смысл) снабжаю неправленным текстом. Кто-то это использует, кто-то нет.

Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2720
ссылка на сообщение  Отправлено: 19.11.06 19:20. Заголовок: Re:


просто надо посмотреть преобразование типа..bmp-> txt , может такое и есть.
По крайней мере через .pdf точно есть !

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5081
ссылка на сообщение  Отправлено: 19.11.06 21:13. Заголовок: Re:


Steps пишет:

 цитата:
Если формат, якобы заточенный под текст делает по умолчанию картинки, это хорошая разработка, да?

Вы, товарищ, сядьте на пол, Вам, товарищ, все равно. Ну где, где я говорил, что он заточен под текст, понимаемый как "распознанный текст"?! Объясняю в очередной раз. DjVu заточен, как правильно выразился выше Андрей:

amyatishkin пишет:

 цитата:
формат ДежаВю заточен на аутентичное представление документов.

Verstehen? Сканированный документ! Растр голимый, но с текстом, а не с картинкой! Без распознавания!!! Поскольку в документах большей частью предполагается текст или схемы, постольку именно такие документы DjVu жмет лучше всего. Под картинки какой-то другой аналог разработан, не помню как называется. Двоюродный брат DjVu, заточенный именно под сканированные картинки.

amyatishkin пишет:

 цитата:
Подробно можно вот тут качнуть руководство в 0,5 мб

Ага, спасибо.

vlad пишет:

 цитата:
просто надо посмотреть преобразование типа..bmp-> txt , может такое и есть.

Есть. Файнридер называется. :)

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить





Пост N: 327
ссылка на сообщение  Отправлено: 19.11.06 22:00. Заголовок: Re:


Вы мне, верстальщику, голову-то не морочьте! Текстовый документ это документ, в котором текст можно изменять. Всё. ЧТО на картинке — по…всёравно, это КАРТИНКА. Насчет аутентичности где-то соглашусь, где-то не особо… Отстойность дежавю компенсируется ИСКЛЮЧИТЕЛЬНО многостраничностью, "компрессоров" море. Аутентичнось… Оно бы если бы всё так, да только именно эту составляющую, боюсь, ув. amyatishkin только и видит, а остальным нужен ТУПОЙ МНОГОСТРАНИЧНЫЙ КОМПРЕССОР. СкриншотикоФФ накидать?

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2721
ссылка на сообщение  Отправлено: 19.11.06 22:29. Заголовок: Re:


Все графические форматы должны быть аутентичны, иначе, ето брак.
Ошибка может быть исключительно в железе, те. в сканере, ИМХО.
Другое дело, что попытка передалать картинку в текст несет в себе вероятность ошибки, так что.. если хотите железной надежности, нужно сохранять картинку, а не текст.

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5083
ссылка на сообщение  Отправлено: 19.11.06 22:41. Заголовок: Re:


Steps пишет:

 цитата:
Текстовый документ это документ, в котором текст можно изменять. Всё. ЧТО на картинке — по…всёравно, это КАРТИНКА.

Да. Но DjVu заточен под сжатие сканов документов, СОДЕРЖАЩИХ ТЕКСТ. Если исходник такого документа, содержащий исключительно текст, называется не текстовым, то я не знаю, как еще объяснять.

Steps пишет:

 цитата:
Отстойность дежавю компенсируется ИСКЛЮЧИТЕЛЬНО многостраничностью, "компрессоров" море.

Еще раз. Газеты эта штука жмет существенно лучше, чем PDF. Многостраничные документы я не делаю. Так что не один Андрей.


 цитата:
остальным нужен ТУПОЙ МНОГОСТРАНИЧНЫЙ КОМПРЕССОР.

Я уже сказал же: это - быстрее. В конце концов, так все же лучше, чем вообще никак.

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2722
ссылка на сообщение  Отправлено: 19.11.06 23:23. Заголовок: Re:


S.N.Morozoff пишет:

 цитата:
vlad пишет:

цитата:
просто надо посмотреть преобразование типа..bmp-> txt , может такое и есть.

Есть. Файнридер называется. :)


вообше есть много бесплатных программ под задачу image-> txt.
Здесь к прим:
http://www.cfar.umd.edu/%7Ekia/ocr-faq.html

потом всякие GOCR, jOCR , from GNU-project.. я правда не пользовался.

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 328
ссылка на сообщение  Отправлено: 19.11.06 23:43. Заголовок: Re:


У нас в стране все программы бесплатные… А Файнридер — лучшая из них.

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5085
ссылка на сообщение  Отправлено: 19.11.06 23:52. Заголовок: Re:


vlad пишет:

 цитата:
вообше есть много бесплатных программ под задачу image-> txt.

Я имел в виду ФР, как представитель класса. Иначе я не представляю, как это еще сделать, если не набивать вручнуя.

Завтра возьму страницу чего-нибудь, м.б. газеты A3 или книжки какой-нибудь и сделаю со скана PDF, DjVu, JPG и GIF в равном разрешении.

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2725
ссылка на сообщение  Отправлено: 20.11.06 00:02. Заголовок: Re:


Steps пишет:

 цитата:
У нас в стране все программы бесплатные… А Файнридер — лучшая из них.

ну так, Россия впереди планеты всей !

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 632
ссылка на сообщение  Отправлено: 20.11.06 16:50. Заголовок: Re:


Steps пишет:
 цитата:
единственный плюс дежавю — многостраничность. Джпегом можно и сильнее сплющить…

Только что провел эксперимент. 99 страниц книжного текста, B&W, 400 dpi. Суммарный размер исходных tiff-файлов - 78,177 мБ. Размер rar-архива при сжатии best - 9,296 мБ. Размер djvu-файла - 0,725 мБ. Ни один jpeg с подобной степенью сжатия (1/108) нормально читаться не будет.

Велика Россия, а отступать некуда – позади Берингов пролив... Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5092
ссылка на сообщение  Отправлено: 20.11.06 17:23. Заголовок: Re:


Так. Анонсированные примеры.

1. Методика.
а) Исходный текст - Microsoft Word, 1 страница.
б) Исходный текст - Microsoft Word, 27 страниц.

Для вариантов а) и б) делался:
- PDF: прямо из Word через Adobe Acrobat 6.0 с возможностью поиска текста;
- PDF: распечатка на принтере (HP LJ1100), сканирование в 300 dpi (Acer 3300U) и далее - кодирование образа (Adobe Acrobat 6.0);
- DjVu: распечатка на принтере (HP LJ1100), сканирование в 300 dpi (Acer 3300U) и далее - кодирование образа (DjVu Solo 3.1).

Для варианта а) делался дополнительно:
- JPEG с качеством "0", 72 dpi (Adobe Photoshop CS);
- GIF 8-ми цветный, 72 dpi (Adobe Photoshop CS).

2. Результаты.
Вариант а) (одна страница):
Страница в Microsoft Word (3023 знаков с пробелами) - 24,6 Kb
PDF с возможностью поиска текста - 103,7 Kb
PDF без возможности поиска текста (образ) - 78,2 Kb
DjVu без возможности поиска текста - 9,6 Kb
JPEG с качеством 0, 72 dpi - 47,8 Kb
GIF (8 цветов), 72 dpi - 52,6 Kb

Вариант б) (27 страниц):
Текст в Microsoft Word (75938 знаков с пробелами) - 256,0 Kb
PDF с возможностью поиска текста - 442 Kb
PDF без возможности поиска текста (образ) - 1937,9 Kb
DjVu без возможности поиска текста - 212,9 Kb

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5093
ссылка на сообщение  Отправлено: 20.11.06 18:34. Заголовок: Re:


И другой пример.

Сканированная глава из книги (16 разворотов).

PDF с возможностью поиска текста - 498,4 Kb
DjVu без возможности поиска текста - 235,1 Kb

В данном случае я просто распознал главу в ФР с сохранением всех атрибутов, перекинул в MS Word и дал команду сваять PDF. Вычитыванием и правкой, естественно, не заморачивался, специальных настроек Acrobat'у не давал - решил подождать, пока Steps приедет и покажет.

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2746
ссылка на сообщение  Отправлено: 20.11.06 18:45. Заголовок: Re:


на мой дилетанский взгляд Ворд там "балуется" когда делает .pdf: уж больно растет
размер: от 25 К исходника до прим 100 К pdf.

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5094
ссылка на сообщение  Отправлено: 20.11.06 18:48. Заголовок: Re:


vlad пишет:

 цитата:
на мой дилетанский взгляд Ворд там "балуется" когда делает .pdf: уж больно растет
размер: от 25 К исходника до прим 100 К pdf.

Возможно. Я тоже удивился. Steps'а подождем, он уже тут как тут.

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить





Пост N: 329
ссылка на сообщение  Отправлено: 20.11.06 18:51. Заголовок: Re:


Вот второй пример интереснее, нес па? ИНДЕКСИРУЕМЫЙ документ и гАлимая картинка (накидаю скриншотов, будешь спорить!)

Дураки — доминантная раса. Спасибо: 0 
Профиль Цитата Ответить





Пост N: 5095
ссылка на сообщение  Отправлено: 20.11.06 18:54. Заголовок: Re:


Steps пишет:

 цитата:
Вот второй пример интереснее, нес па?

А первый чем тебе не интересен?


 цитата:
ИНДЕКСИРУЕМЫЙ документ и гАлимая картинка (накидаю скриншотов, будешь спорить!)

Галимая, ага. Только ни распознавать, ни вычитывать, ни править не надо. А возьми машинописный текст - как с ним быть? Примеров тоже могу накидать.

Я верю в законы природы. Все остальное меняется.
--------------------------------------------------------------
ВНИМАНИЕ, ФЛЕШ-МОБ!!!
Требую объявления моратория на обсуждение книг В.Суворова-Резуна на форуме!!!
Всем, кто меня поддерживает, просьба добавить эту строку в свою подпись.
Спасибо: 0 
Профиль Цитата Ответить
Ответов - 79 , стр: 1 2 All [только новые]
Ответ:
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Имя, пароль:      зарегистрироваться    
Тему читают:
- участник сейчас на форуме
- участник вне форума
Все даты в формате GMT  3 час. Хитов сегодня: 6
Права: смайлы да, картинки да, шрифты да, голосования нет
аватары да, автозамена ссылок вкл, премодерация вкл, правка нет