Форум сайта
Новичкам о регистрации на форуме.
АвторСообщение



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:07. Заголовок: проблемы OCR


Очень нужен мастер-класс по OCR. Я впервые этим занялась, у меня естессно тьма вопросов, и мне как-то неудобно грузить этим делом форум. То есть я могу, конечно, эти вопросы задать, ну начать по-крайней мере. Но 100% каждый ответ вызовет еще вопрос, и т.п. В связи с этим:

1) есть ли где хороший (душевный :) ФАК по ОКРу?
2) может быть какая нть добрая душа согласится поконсультировать меня в личной переписке?

Пока что первый вопрос самый простой. Где бы взять нормальный Finereader, или может быть другую подобную программу. Собсно у меня был замечательный, восхитительный ФР 3.0 - 20 мегов места занимает, памяти практисски не жрет, а пашет как трактор. И языки все понимает, даже такой интересный (и самый полезный!) язык как «русско-английский». Но увы, оказалось что он плохо крякнут, и когда у него вышел срок, он начал резать строки через одну при попытке сейвить файлы. Фот, комп у меня старый, диск весь забит, новую тяжеленную версию 7 ставить реально некуда (да и зачем, если 3 вполне годится). Кроме того, другие версии, боюсь, тоже будут криво крякнуты, ибо ABBYY славится отличной защитой. В общем, дайте плиз совет: какой программой/версией вы пользуетесь и где ее взять? Я собсно и купить могла бы лицензионную, раз уж на то пошло - но они ессно предлагают огроменного слонища 7.0, который просто раздавит своей тушей весь мой скромный компик :(. А всё кроме 7.0 «политика компании» им продавать запрещает. Прикиньте, я им позвонила, описала проблему, так они решили сделать исключение и пойти навстречу: лично мне продать версию 4.0 за $129 :).

Фот, такая грустная история.. И это только первый из вопросов...

А зато. Если вы мне поможете, то я вам начну материалы давать :). У меня уже куча мечтаний, что я хотела бы поокрить, было б чем...

Спасибо: 0 
Цитата Ответить
Ответов - 49 , стр: 1 2 All [только новые]





Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:11. Заголовок: Re: проблемы OCR


Эээ.. вы не думайте, что это только мечтания - я уже половину «Нюрнбергского дневника» Гильберта отсканила и все опечатки вычитала. И тут такой облом :(.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:15. Заголовок: Re: Snarka


Самое простое: приехать и поучиться. Хотите? Есть возможность. Вы ведь, как я понимаю, в Москве? Мыло я указал (наконец-то не забыл после очередной переучтановки системы!) - напишите. Этот вопрос вполне решаемый.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:50. Заголовок: Re: S.N.Morozoff


Вопросы по железу не глядя рассматривать сложно. Reader 7.0 я и сам не пользую. Обхожусь пятым, но есть и четвертый. Оба, само собой, работают нормально :) Мне, однако, из PDF ничего распознавать не надо.

Вообще по железу могу сказать такую вещь: На Intel Pentium Pro (был такой агрегат!) 200MHz (256Kb кэша 2 уровня на частоте ядра) на плате уровня FX-чипсета под управлением Windows NT 4.0 Workstation стоит 5-й ридер и вполне работает в смысле скорости. Это не Athlon1200, конечно, но работать вполне себе можно. Память: SIMM 72pin, 64Mb.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:52. Заголовок: Re: проблемы OCR


Огромное спасибо за быстрый ответ! :) Я вам мыло напишу.


Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 04:04. Заголовок: Re: проблемы OCR


вот тут посмотрите, может поможет что-то.

http://www.amyat.narod.ru/faq/faq.html

Каждая следующая версия ФР работает в несколько раз чище предыдущей. По крайней мере меньше 5 версии ставить не советую. У меня она занимала ~50мб.

Как вариант дОбычи копии ФР - ставится демоверсия и вся работа делаетс за сколько там ограничение стоит (было 15 часов или 15 запусков). Для продолжения работы придется систему с нуля переставлять.

Кряки 4/5/6 где-то должны быть.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 05:39. Заголовок: Re: проблемы OCR


Спасибо! Правда, хороший ФАК (и даже с макросами).
Насчет кряков - пока попробую воспользоваться любезным предложением г-на Морозофф :).

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 10:19. Заголовок: Re: проблемы OCR


Хочу отметить, что после 15.XII я реанимирую раздел по подготовке текстов. Там будет учтен многолетний (sic!) опыт, естественно -- не только мой, в том числе очень полезные заметки А. Мятишкина, Змия, других товарищей (в т.ч. по djvu). Раздел будет разбит на две части -- собственно советы по оцифровке, общие, так сказать, и конкретно технологическая цепочка для Милитеры (понятно, что можно использовать и для других сайтов, занимающихся тем же).

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 11:23. Заголовок: Re: Snarka


Из собственного опыта: краком нужно воспользоваться ДО ТОГО, как истечет демо-срок. Никакие попытки сделать это после - ни к чему не привели (вариант переустановить систему не рассматривался). Единственно, что помогло, - это поставить другую версию. Система ее не знает, и все как бы начинается сначала.
Может, умельцы редактировать системный регистр могли бы подсказать что-то другое.
А вообще - не чурайтесь новых версий FR. Каждая из них делает меньше ошибок при распознавании, чемпредыдущая.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 15:08. Заголовок: Re: Snarka


Здравствуйте!
Надежный кряк с инструкцией для 6-й версии могу выслать хоть сейчас. Ситуации Вашей можно только посочувствовать. Железо надо конечно улучшать. В принципе не так уж много и надо. Процессор - ок. 400 Мгц, винт 2 Гб.
Всего доброго.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 15:32. Заголовок: Re: assaur


Кряк надежный можно мне отослать? Для коллекции: хоть и не пользую, но мало ли когда что пригодится?!. Не срочно, конечно, а как не лень будет.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 10:52. Заголовок: Re: проблемы OCR


А что на http://www.forum.ru-board.com/ сложно найти соответствующий кряк ? до сих пор там находилось все что было нужно.
У меня сейчас стоит 7ой файнридер с русским модулем - 80метров на диске занимает (инсталятор 40 +10метров до языков и пр.).
Запускал правда всего пару раз - текст распознал отлично , вот только часть рисунков тоже решил прогнать как текст ( или схемы ) очень коряво выходит . Щас буду задачник по физике сканить ( нужно по учебе ) чувствую подучусь.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 12:15. Заголовок: Re: bdfy


цитата
Запускал правда всего пару раз - текст распознал отлично
Во-во :))). Пару раз. Вы запустите 30 раз, а потом и посмотрим, насколько ваш кряк хорош. В том и проблема со всеми кряками продуктов ABBYY, с Лингвами разных версий у меня была та же история. Пжалста, и в инете кряки, и на дисках-сборниках везде эти программы валяются. И ставятся, и работают... некоторое время.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 12:44. Заголовок: Re: Snarka


Это точно. Защита у них неплохая.

Нет таких крепостей, которые не взяли бы большевики...

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 20:58. Заголовок: Re: проблемы OCR


Snarka
Вот лингво9 у меня точно стоит сполгода безпроблем и запускаю я его каждый день . Кряк рубородовский как раз.
Как максимум этот самый файнридер может стучаться на свой сервер пока вы в инете и проверять валидность серийника ( промт так делает , адманчер , лингво + еще куча прог) . Я правда пока не замечал этого , но файер все равно подобного не допустит :D Так что рекомендую Outpost,ZoneAlarm и тп

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 23:28. Заголовок: Re: проблемы OCR


ОК, спасибо, при случае вашу наводку попробую :)

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 14.12.04 04:38. Заголовок: Re: Snarka


Возможно детский лепет, но на время сканирования отключаю антивирус и программа начинает себя вести очень прилично.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 14.12.04 13:49. Заголовок: Re: assaur


Честно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду...

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 14.12.04 15:24. Заголовок: Re: S.N.Morozoff


Тонкостей не знаю. Где-что конфликтует определить не могу, но при включенном антивирусе отключался сканер. И не помогала даже переустановка программы сканера и «файна».

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 14.12.04 15:26. Заголовок: Re: assaur


Любопытно!..

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 04:41. Заголовок: Re: проблемы OCR


S.N.Morozoff пишет:
цитата
Честно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду...

Вот вчитался внимательно в инстукцию к крэку:
3. Во время работы с Finereader’ом при включённом резидентном стороже SpIDer Guard антивируса DrWeb возможно зависание системы в момент сохранения документов по не зависящим от лоадера причинам.
У меня , правда висло при сканировании.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 10:29. Заголовок: Re: проблемы OCR


Самый лучший FineReader, на мой взгляд, этой 6-й без кряка, он ставиться, работает и не жужжит. Вообще никаких проблем.

цитата
Честно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду...

Это, наверное каспер, а доктор вэб работает не заметно, пока не нарвется на большой архив.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 11:17. Заголовок: Re: проблемы OCR


Посоветйте арнтивирус!
Очень не доволен Касперским, пробовал ставить Norton - вообще «труба». Есть какой нибудь надежный и ненадоедливый?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 12:40. Заголовок: Re: assaur


Dr. Web нормально работает. Это до 4.31 версии. Потом 4.32 начал денег просить, и я впросто в 4.31 переписываю базы от нового.


Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 17:12. Заголовок: Re: amyatishkin


Doctor Web.
Касперского, говорят, ежели настроить!.. У меня ни разу не получилось его настроить так, чтобы он перестал тормозить.
Но вообще-то я давно уже не ставлю антивирус в резидентах. А нерезидентно - да все равно, вообщем-то, какой. Просто к DrWeb я давно привык.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 22:01. Заголовок: Re: S.N.Morozoff


Андрею и Сергею.
Спасибо за совет!

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 26.12.04 06:47. Заголовок: Re: проблемы OCR


ребяты - работал с фаняридерами с 4 по 7 все крякнутые естественно. Что-то таких траблов не видел пахали и пахали. Не вру у мужика одного слетал 6 при переходе на новый год. Систему не надо переустанавливать - в реестре его вычистить надо он там вроде в одном месте все пишет в папку свою ее и грохаете в реестре. Где-то на болванах все эти версии есть - если очень нужно можно передать. 7 конечно лучше 4 но в основном на сложных местах - типа таблицы жрет лучше. Еще учтите что если шрифт идет с обычного листа А4 то можно сканировать с 200 дпи а мелкий шрифт и 400 может потребовать. Весьма полезна уборка мусора и подчистка ластиком всякой бяки (например снос черноты по центру и краям скана заметно уменьшает размер) нужно также подправлять разметку - фаня иногда мудрит особливо при наличии картинок и грязи

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 26.12.04 18:39. Заголовок: Re: constantin


Все так, конечно. Но все-таки это отличная программа!
Кстати 6 и 7 версии иногда и заголовки пропускают. О таблицах и не говорю, - я обычно их выделяю текстовым блоком, затем правый щелчок и «анализ таблицы». Не совсем удобно, но зато наверняка. Хотя и это требует дополнительной обработки.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 26.12.04 18:53. Заголовок: Re: assaur


А таблицы помечаю как таблицы и потом прочерчиваю отдельно каждую вартикальную и горизонтальную линии. Кроме габаритных, естественно.
Фокусы типа одна общая «шапка» на две колонки потом приходится делать вручную.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 26.12.04 19:23. Заголовок: Re: проблемы OCR


Ответ неверный.
Самое хитрое - есть на вкладке «Распознавание» в опциях у таблиц галки «нет объединенных ячеек» и «одна строка в ячейке».
Потом остается объединять строки (просто стащить линий в соседнюю ячейку) и ячейки (выделяется несколько, правый клик и объединить ячейки)
А настоящие проблемы появляются, когда в таблице сделано заполнение строки точками - ФР ее на распознает. Приходиться или ластиком вытирать точки, или поверх таблицы кидать еще один текстовый блок и из него вытаскивать текст по ячейкам.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 06:00. Заголовок: Re: проблемы OCR


amyatishkin пишет:
цитата
Потом остается объединять строки (просто стащить линий в соседнюю ячейку) и ячейки (выделяется несколько, правый клик и объединить ячейки)


Вот это я и назвал «делать вручную», имея в виду - уже в Ворде.

А в самом файнридере проходит выделение блоков «рисунок» или «текст» в отдельных ячейках таблицы. И даже комбинация текста с рисунками. Так я передавал в Ворд всякого рода специальные символы, имеющиеся в оригинале.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 11:09. Заголовок: Re: проблемы OCR


amyatishkin , каждая новая версия доктора вэба требует новый ключ, даже если переходить с 4,31а на 4,31b в этом и есть его неудобство, хоть бери да покупай. Кстати у меня где-то был ключ к 4.32а, если надо могу выслать.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 17:07. Заголовок: Re: проблемы OCR


MacShley пишет:
цитата
А в самом файнридере проходит выделение блоков «рисунок» или «текст» в отдельных ячейках таблицы. И даже комбинация текста с рисунками. Так я передавал в Ворд всякого рода специальные символы, имеющиеся в оригинале.

Очень интересно! А вот такой случай (чаще встречается в старых книга): в одной из вертикальных граф идет перечисление
431 шап
765 шап
434 иап
2 гиап
далее все это обобщается справа одной общей фигурной скобкой. Это как-то можно отразить в тексте?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 17:34. Заголовок: Re: проблемы OCR


assaur пишет:
цитата
Очень интересно! А вот такой случай (чаще встречается в старых книга): в одной из вертикальных граф идет перечисление

Вертикальная черта, чтоб пришлась на скобку, а потом делать объединение ячеек по правой кнопке мауса.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 23:00. Заголовок: Re: assaur


Я бы сделал так:
скобку объявить картинкой;
в Ворде межстрочный интервал соответствующего такста подогнать под размер скобки или размер картинки со скобкой под высоту текста.

ИЛИ:

объявить картинкой все вместе: и скобку, и текст, который она объединяет. Я так делал, когда сканировал большие рисунки со многими надписями. Это делалось для перевода, который должен был сохранять верстку страницы. Большая возня при этом - заменять надписи их переводом с использованием textbox’ов

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 28.12.04 22:28. Заголовок: Re: Zealot


А в чем неудобство? Покамест дополнительные базы данных для версии 4.32 вполне ложатся на версию 4.30 - на хрена козе баян? В смысле, зачем обновлять версию?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 28.12.04 22:35. Заголовок: Re: constantin


Для мелкого шрифта неплохо помогает также сканирование с увеличением. Особливо касается тех, у кого сканер с верхним пределом в 300dpi. Ставим масштаб в 150% (а вообще из опыта и размера шрифта) и все вполне проходит.

К скану же. Основная рабочая лошадка моя для текстов - HP Scanjet IIP образца 1991г. Великий аппарат! Цвета он не поддерживает (только grayscale), разрешение верхнее - 300 dpi. И контроллер к нему нужен. Но орел!.. Купили его года три назад, как хлам (контроллер дороже вышел в итоге), но с тех пор я на него молюсь.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 28.12.04 22:47. Заголовок: Re: Zealot


Отставить проверку архивов!

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 28.12.04 22:48. Заголовок: Re: assaur


Это называется «Прочтите же, наконец, инструкцию!» Анекдот такой есть.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 29.12.04 09:10. Заголовок: Re: S.N.Morozoff


Сколько, интересно, такое чудо стоило в 1991 году? 10-20 штук баксов?
И какая скорость сканирования выходит?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 29.12.04 16:00. Заголовок: Re: amyatishkin


Вот сколько он тогда стоил - не скажу, но думаю, первые тысячи гриновых. Все же не А3. А купили мы его за $10, потому как хлам, хотя и рабочий. Контроллер к нему (новый, кстати, TEKRAM то ли 370, то ли 390, обошелся в примерно $20).

Про скорость сканирования: время сканирования всей области (немного больше, чем А4) в двухцветном режиме (Black&White) при масштабе 100% и разрешении 300dpi - ровно 14 секунд (от момента нажатия на кнопку «Scan», т.е с подготовкой и без возврата лампы в исходное положение - только что специально замерил). Разворот книги как правило несколько меньше А4, так что получается даже побыстрее - секунд 10-12. Размер файла формата TIFF 5.0 при этом - 1,1 Mb (при сканировании реальных книг - меньше мегабайта из-за размера).

Сканер вообще сделан грамотно - прижим очень прилично обеспечивается крышкой. Очень легко расположить разворот ровно. На худой конец, в сочетании с двумя аккумуляторами для UPS (прижим разворота) - начисто отпадает чернота по краям страницы даже при плохом переплете.

Для примера: не так давно сканил обещанные Hoaxer’у брошюры (всего три): 32 стр., 72 стр., 81 стр. и одну (32 стр.) для себя. Уложился за час с небольшим. Войдя в раж сканирования, решил добить начатую раньше стенограмму процесса Ф.Г. Пауэрса, 1960г. издания (оставалось еще 180 стр.). Еще за час с небольшим сделал (переплет здорово мешал, пришлось расшивать).

В общем, классная машинка.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 29.12.04 16:06. Заголовок: Re: amyatishkin


И все равно: таблица - это беда...

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 29.12.04 21:49. Заголовок: Re: constantin


Не, они работают, если сломаны грамотно. Тут вся проблема изначально была в этом. Сейчас работает 4.0 и все нормально вроде как. Просто бывают Дистрибутивы и дистрибутивы...

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.02.05 15:20. Заголовок: Re: проблемы OCR


------› Мятишкину
Андрей!
Прошу поделиться с обществом своей технологией работы.
Лично у меня проблема такая: есть сканы (tiff, серый, - разворот весит около 8 Мб).
На винте вся книга около 4 Гб.
Хранить все на винчестере не хочу, писать на RV в tiff тоже не устраивает (для меня это много и еще боюсь запутаться при делении на куски для записи).
Как перевести все это пакетом в Djvu (способ нащупал, но не знаю какие характеристики нужно вводить, чтобы получить хорошее качество)? Имиджей 20 я перевел, получил пакет в том числе и с файлом directory, вроде то что надо, но уж слишком долго все это конвертируется. Подскажите, пожалуйста, что нибудь для ускорения процесса.
А еще лучше приведите всю технологическую цепочку, хотя бы кратко. На amyat.narod.ru подробностей не нашел.
Вот еще что: в книге много схем и картинок (почти на каждой странице). Перевод в djvu лишает возможности обработать ее в FotoShop?
Всего доброго.
Петр.


Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.02.05 23:13. Заголовок: Re: проблемы OCR


Имеются ввиду сканы книг?
Сканиться в серый ТИФФ 300дпи (ну или по потребности – мелкий шрифт лучше в 400). Края страниц при этом обрезаются.
Если есть желание сохранить такое на СД, то конвертится в JPG, качество 92 в 100-бальной шкале. Т.е. я при таком качестве потерь не вижу, и потому так сохраняю. Ес-но, это только сохранение файлов – работать-то надо все равно с ТИФФ. Конвертится через ACDSee.

Картинки загоняются в Файнридер, причем без разрезания страниц, но с переводом в ч/б.

Далее для приготовления сканов может оказаться несколько вариантов содержания и качества материала:
1)Просто текст + схемы без штриховки
2)Схемы со штриховкой, гравюры, т.п.
3)Фотографии

Первый вариант – картинки из Файнридера сохраняются как ТИФФы, единственная проблема – черная полоса по сгибу. Полоску ручками убираем в Фотошопе – желательно вытащить пару кнопок (или клавиш), чтобы можно было выделить – одним кликом очистить – одним кликом сохранить и закрыть. Заодно можно почистить мелкие помарки. В принципе это автоматизируется, но ручками проще и надежней.
Проблемы получаются, когда Файнридеру не удается самостоятельно выделить текст - приходиться ручками переводить в Фотошопе. Брать серый исходник и, отрегулировав яркость/контрастность/кривые, перевести в ч/б (там вариант должен быть «50%уровень черного»). В результате получается то, что должен был выдать Файнридер, только ручками.

Штриховка/гравюры – Файнридер их портит, но не всегда. Можно сделать по первому варианту, но страницы с такими гравюрами проверить и при неудачной обработке сделать вручную. (Ес-но, выбирать тут надо из количества этих гравюр)
А можно автоматически сделать пакетный перевод Фотошопом из серого в ч/б. Надо выбрать несколько страниц, на них протестировать действие перевода в ч/б (можно и регулировку яркости добавить), а потом обработать весь пакет. Потом опять таки – полоска сгиба убирается, помарки чистятся.
Но это более сложный вариант получается, поэтому через Файнридер в ч/б предпочтительней.

Далее – через пакетирование Фотошопом режем ч/б картинки пополам, т.е. делаются два действия, которые отрезают левую и правую половинку. Сохранение идет в разные директории. Потом ACDSee переименовываем файлы с левой страницей в *1, а с правой в *2, сливаем в одну директорию и делаем нормальную нумерацию соответственно номерам страниц.
Резать лучше через Фотошоп, т.к. он реже обрезает текст, чем резка страниц в Файнридере.

Далее – можете учесть такой момент, что при добавлении страницы в пакет Файнридера делается выравнивание страниц. (Ес-но, в схемы, чертежи и т.п. вещи это вносит искажения. Ваше дело – учитывать это при работе или нет – можно все делать в обход Файнридера). Лично я считаю выравнивание оч. полезным делом и после получения одиночных страниц еще раз прогоняю через Файнридер, чтобы он их попробовал выровнять. Т.е. сделать еще пакет – добавить страницы – сохранить изображения.

На выходе получаем скан в ч/б в ТИФФ без сжатия, примерно 500 кб на страницу.

Перевод в DjVu. Кидаем одну страницу в DjVu Solo, потом через Edit – Insert Pages добавляем остальные (все сразу, комп тщательно думает). Бывает путаница между первой и последней добавленной страницами, надо проверять. Потом сохраняем в DjVu, на вопросы отвечаем «Bundled» (одним файлом) и «Bitonal». Сохраняется (точнее пакует) долго.

Получается файл DjVu ч/б, одним куском. Если надо что-то из него вытащить – приходиться сохранять по одной странице в BMP. Если нужен просто файл для работы, без эстетических претензий – можно существенно упростить, сразу Файнридер и в DjVu.

Ну и книжка с фотами. DjVu эти фоты шибко портит, так что ценные желательно давать отдельно. Несколько фот можно с проблемами воткнуть в DjVu, не ухудшив качество получаемой книги, но, если их много – проще сделать книгу по второму варианту (фоты выйдут как при ксероксе), а фотографии дать отдельно.
А)сделать страницы с фотами в сером. Делается из серых ТИФФ, в DjVu Solo отвечать вместо Bitonal - Scanned. Минусы такие, что фон страницы практически всегда получается серым, размываются буквы текста, и – может при сжатии ошибиться с буквой – например вместо И будет Н.
Б)Муторный способ – берется вариант страницы в ч/б и в сером. Фота выделяется по границам и копируется в ч/б вариант (конечно, вначале ч/б переводиться в оттенки серого, чтобы нормально вставилось). И в DjVu переводиться из такого файла.
Я обычно делаю отдельно DjVu файл в ч/б и в сером (с отдельными страницами). Потом они сливаются и страницы в сером загоняются на нужные места.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.02.05 23:41. Заголовок: Re: amyatishkin


Большое спасибо.
Петр.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.02.05 00:45. Заголовок: Re: проблемы OCR


Да, в обновлении на сайте было про вытаскивание из фйла DjVu страниц - через XnView вполне работает. Вообще, этот XnView очень неплохая програмулина, единственно, что было хуже, чем в ACDSee - сортировка по размеру изображения. Сейчас это есть.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 15.04.05 23:18. Заголовок: Re: amyatishkin


amyatishkin пишет:
цитата
Перевод в DjVu. Кидаем одну страницу в DjVu Solo, потом через Edit – Insert Pages добавляем остальные (все сразу, комп тщательно думает). Бывает путаница между первой и последней добавленной страницами, надо проверять. Потом сохраняем в DjVu, на вопросы отвечаем «Bundled» (одним файлом) и «Bitonal».


Использовал DjVu Solo 3.1
Страницы изначально были отсканированы в tiff bitmap 300dpi. При создании djvu на некоторые страницы Solo ругалось: «Invalid G4/MMR Data». Пробовал картинку слегка подправить в фотошопе, ничего не меняется. Как с этим бороться?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 16.04.05 00:28. Заголовок: Re: проблемы OCR


По моему, это так ругается на сжатые страницы. Возможно, часть тифф была в варианте WIN или МАС.
Я в таких случаях делаю дополнительное конвертирование в ACDSee - вариант TIFF без сжатия и 300 dpi. Полученное обычно съедобно. Еще м.б. бага с пустыми страницами - но Solo по другому тогда ругается.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 16.04.05 17:34. Заголовок: Re: проблемы OCR


---› Смолянин

›Страницы изначально были отсканированы в tiff bitmap 300dpi. При создании djvu на некоторые страницы Solo ›ругалось: «Invalid G4/MMR Data». Пробовал картинку слегка подправить в фотошопе, ничего не меняется. Как с ›этим бороться?

Так обычно происходит, когда человек пытается вогнать в DjVu Solo имиджи из пакета Файнридера, особенно старых версий. ФР как-то хитро их сжимает, тифы. Раньше я поступал просто -- пропускал пакет через Фотошоп (делал простенькую action -- типа открыть, перевести в серый, закрыть и сохранить), а потом они без проблем грузились в Solo.

Сейчас вместо бесплатного Solo сделан весьма и весьма платный DocumentExpress. Вроде бы он у меня есть. И еще мне прислали несколько новых программ, надо разобраться...

Ещё см. http://www.cqham.ru/djvu_print.htm

Спасибо: 0 
Цитата Ответить
Ответов - 49 , стр: 1 2 All [только новые]
Ответ:
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Имя, пароль:      зарегистрироваться    
Тему читают:
- участник сейчас на форуме
- участник вне форума
Все даты в формате GMT  3 час. Хитов сегодня: 31
Права: смайлы да, картинки да, шрифты да, голосования нет
аватары да, автозамена ссылок вкл, премодерация вкл, правка нет