Форум сайта
Новичкам о регистрации на форуме.
АвторСообщение



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:07. Заголовок: проблемы OCR


Очень нужен мастер-класс по OCR. Я впервые этим занялась, у меня естессно тьма вопросов, и мне как-то неудобно грузить этим делом форум. То есть я могу, конечно, эти вопросы задать, ну начать по-крайней мере. Но 100% каждый ответ вызовет еще вопрос, и т.п. В связи с этим:

1) есть ли где хороший (душевный :) ФАК по ОКРу?
2) может быть какая нть добрая душа согласится поконсультировать меня в личной переписке?

Пока что первый вопрос самый простой. Где бы взять нормальный Finereader, или может быть другую подобную программу. Собсно у меня был замечательный, восхитительный ФР 3.0 - 20 мегов места занимает, памяти практисски не жрет, а пашет как трактор. И языки все понимает, даже такой интересный (и самый полезный!) язык как «русско-английский». Но увы, оказалось что он плохо крякнут, и когда у него вышел срок, он начал резать строки через одну при попытке сейвить файлы. Фот, комп у меня старый, диск весь забит, новую тяжеленную версию 7 ставить реально некуда (да и зачем, если 3 вполне годится). Кроме того, другие версии, боюсь, тоже будут криво крякнуты, ибо ABBYY славится отличной защитой. В общем, дайте плиз совет: какой программой/версией вы пользуетесь и где ее взять? Я собсно и купить могла бы лицензионную, раз уж на то пошло - но они ессно предлагают огроменного слонища 7.0, который просто раздавит своей тушей весь мой скромный компик :(. А всё кроме 7.0 «политика компании» им продавать запрещает. Прикиньте, я им позвонила, описала проблему, так они решили сделать исключение и пойти навстречу: лично мне продать версию 4.0 за $129 :).

Фот, такая грустная история.. И это только первый из вопросов...

А зато. Если вы мне поможете, то я вам начну материалы давать :). У меня уже куча мечтаний, что я хотела бы поокрить, было б чем...

Спасибо: 0 
Цитата Ответить
Ответов - 49 , стр: 1 2 All [только новые]





Не зарегистрирован
ссылка на сообщение  Отправлено: 29.12.04 16:06. Заголовок: Re: amyatishkin


И все равно: таблица - это беда...

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 29.12.04 21:49. Заголовок: Re: constantin


Не, они работают, если сломаны грамотно. Тут вся проблема изначально была в этом. Сейчас работает 4.0 и все нормально вроде как. Просто бывают Дистрибутивы и дистрибутивы...

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.02.05 15:20. Заголовок: Re: проблемы OCR


------› Мятишкину
Андрей!
Прошу поделиться с обществом своей технологией работы.
Лично у меня проблема такая: есть сканы (tiff, серый, - разворот весит около 8 Мб).
На винте вся книга около 4 Гб.
Хранить все на винчестере не хочу, писать на RV в tiff тоже не устраивает (для меня это много и еще боюсь запутаться при делении на куски для записи).
Как перевести все это пакетом в Djvu (способ нащупал, но не знаю какие характеристики нужно вводить, чтобы получить хорошее качество)? Имиджей 20 я перевел, получил пакет в том числе и с файлом directory, вроде то что надо, но уж слишком долго все это конвертируется. Подскажите, пожалуйста, что нибудь для ускорения процесса.
А еще лучше приведите всю технологическую цепочку, хотя бы кратко. На amyat.narod.ru подробностей не нашел.
Вот еще что: в книге много схем и картинок (почти на каждой странице). Перевод в djvu лишает возможности обработать ее в FotoShop?
Всего доброго.
Петр.


Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.02.05 23:13. Заголовок: Re: проблемы OCR


Имеются ввиду сканы книг?
Сканиться в серый ТИФФ 300дпи (ну или по потребности – мелкий шрифт лучше в 400). Края страниц при этом обрезаются.
Если есть желание сохранить такое на СД, то конвертится в JPG, качество 92 в 100-бальной шкале. Т.е. я при таком качестве потерь не вижу, и потому так сохраняю. Ес-но, это только сохранение файлов – работать-то надо все равно с ТИФФ. Конвертится через ACDSee.

Картинки загоняются в Файнридер, причем без разрезания страниц, но с переводом в ч/б.

Далее для приготовления сканов может оказаться несколько вариантов содержания и качества материала:
1)Просто текст + схемы без штриховки
2)Схемы со штриховкой, гравюры, т.п.
3)Фотографии

Первый вариант – картинки из Файнридера сохраняются как ТИФФы, единственная проблема – черная полоса по сгибу. Полоску ручками убираем в Фотошопе – желательно вытащить пару кнопок (или клавиш), чтобы можно было выделить – одним кликом очистить – одним кликом сохранить и закрыть. Заодно можно почистить мелкие помарки. В принципе это автоматизируется, но ручками проще и надежней.
Проблемы получаются, когда Файнридеру не удается самостоятельно выделить текст - приходиться ручками переводить в Фотошопе. Брать серый исходник и, отрегулировав яркость/контрастность/кривые, перевести в ч/б (там вариант должен быть «50%уровень черного»). В результате получается то, что должен был выдать Файнридер, только ручками.

Штриховка/гравюры – Файнридер их портит, но не всегда. Можно сделать по первому варианту, но страницы с такими гравюрами проверить и при неудачной обработке сделать вручную. (Ес-но, выбирать тут надо из количества этих гравюр)
А можно автоматически сделать пакетный перевод Фотошопом из серого в ч/б. Надо выбрать несколько страниц, на них протестировать действие перевода в ч/б (можно и регулировку яркости добавить), а потом обработать весь пакет. Потом опять таки – полоска сгиба убирается, помарки чистятся.
Но это более сложный вариант получается, поэтому через Файнридер в ч/б предпочтительней.

Далее – через пакетирование Фотошопом режем ч/б картинки пополам, т.е. делаются два действия, которые отрезают левую и правую половинку. Сохранение идет в разные директории. Потом ACDSee переименовываем файлы с левой страницей в *1, а с правой в *2, сливаем в одну директорию и делаем нормальную нумерацию соответственно номерам страниц.
Резать лучше через Фотошоп, т.к. он реже обрезает текст, чем резка страниц в Файнридере.

Далее – можете учесть такой момент, что при добавлении страницы в пакет Файнридера делается выравнивание страниц. (Ес-но, в схемы, чертежи и т.п. вещи это вносит искажения. Ваше дело – учитывать это при работе или нет – можно все делать в обход Файнридера). Лично я считаю выравнивание оч. полезным делом и после получения одиночных страниц еще раз прогоняю через Файнридер, чтобы он их попробовал выровнять. Т.е. сделать еще пакет – добавить страницы – сохранить изображения.

На выходе получаем скан в ч/б в ТИФФ без сжатия, примерно 500 кб на страницу.

Перевод в DjVu. Кидаем одну страницу в DjVu Solo, потом через Edit – Insert Pages добавляем остальные (все сразу, комп тщательно думает). Бывает путаница между первой и последней добавленной страницами, надо проверять. Потом сохраняем в DjVu, на вопросы отвечаем «Bundled» (одним файлом) и «Bitonal». Сохраняется (точнее пакует) долго.

Получается файл DjVu ч/б, одним куском. Если надо что-то из него вытащить – приходиться сохранять по одной странице в BMP. Если нужен просто файл для работы, без эстетических претензий – можно существенно упростить, сразу Файнридер и в DjVu.

Ну и книжка с фотами. DjVu эти фоты шибко портит, так что ценные желательно давать отдельно. Несколько фот можно с проблемами воткнуть в DjVu, не ухудшив качество получаемой книги, но, если их много – проще сделать книгу по второму варианту (фоты выйдут как при ксероксе), а фотографии дать отдельно.
А)сделать страницы с фотами в сером. Делается из серых ТИФФ, в DjVu Solo отвечать вместо Bitonal - Scanned. Минусы такие, что фон страницы практически всегда получается серым, размываются буквы текста, и – может при сжатии ошибиться с буквой – например вместо И будет Н.
Б)Муторный способ – берется вариант страницы в ч/б и в сером. Фота выделяется по границам и копируется в ч/б вариант (конечно, вначале ч/б переводиться в оттенки серого, чтобы нормально вставилось). И в DjVu переводиться из такого файла.
Я обычно делаю отдельно DjVu файл в ч/б и в сером (с отдельными страницами). Потом они сливаются и страницы в сером загоняются на нужные места.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.02.05 23:41. Заголовок: Re: amyatishkin


Большое спасибо.
Петр.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.02.05 00:45. Заголовок: Re: проблемы OCR


Да, в обновлении на сайте было про вытаскивание из фйла DjVu страниц - через XnView вполне работает. Вообще, этот XnView очень неплохая програмулина, единственно, что было хуже, чем в ACDSee - сортировка по размеру изображения. Сейчас это есть.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 15.04.05 23:18. Заголовок: Re: amyatishkin


amyatishkin пишет:
цитата
Перевод в DjVu. Кидаем одну страницу в DjVu Solo, потом через Edit – Insert Pages добавляем остальные (все сразу, комп тщательно думает). Бывает путаница между первой и последней добавленной страницами, надо проверять. Потом сохраняем в DjVu, на вопросы отвечаем «Bundled» (одним файлом) и «Bitonal».


Использовал DjVu Solo 3.1
Страницы изначально были отсканированы в tiff bitmap 300dpi. При создании djvu на некоторые страницы Solo ругалось: «Invalid G4/MMR Data». Пробовал картинку слегка подправить в фотошопе, ничего не меняется. Как с этим бороться?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 16.04.05 00:28. Заголовок: Re: проблемы OCR


По моему, это так ругается на сжатые страницы. Возможно, часть тифф была в варианте WIN или МАС.
Я в таких случаях делаю дополнительное конвертирование в ACDSee - вариант TIFF без сжатия и 300 dpi. Полученное обычно съедобно. Еще м.б. бага с пустыми страницами - но Solo по другому тогда ругается.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 16.04.05 17:34. Заголовок: Re: проблемы OCR


---› Смолянин

›Страницы изначально были отсканированы в tiff bitmap 300dpi. При создании djvu на некоторые страницы Solo ›ругалось: «Invalid G4/MMR Data». Пробовал картинку слегка подправить в фотошопе, ничего не меняется. Как с ›этим бороться?

Так обычно происходит, когда человек пытается вогнать в DjVu Solo имиджи из пакета Файнридера, особенно старых версий. ФР как-то хитро их сжимает, тифы. Раньше я поступал просто -- пропускал пакет через Фотошоп (делал простенькую action -- типа открыть, перевести в серый, закрыть и сохранить), а потом они без проблем грузились в Solo.

Сейчас вместо бесплатного Solo сделан весьма и весьма платный DocumentExpress. Вроде бы он у меня есть. И еще мне прислали несколько новых программ, надо разобраться...

Ещё см. http://www.cqham.ru/djvu_print.htm

Спасибо: 0 
Цитата Ответить
Ответов - 49 , стр: 1 2 All [только новые]
Ответ:
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Имя, пароль:      зарегистрироваться    
Тему читают:
- участник сейчас на форуме
- участник вне форума
Все даты в формате GMT  3 час. Хитов сегодня: 26
Права: смайлы да, картинки да, шрифты да, голосования нет
аватары да, автозамена ссылок вкл, премодерация вкл, правка нет