Форум сайта
Новичкам о регистрации на форуме.
АвторСообщение



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:07. Заголовок: проблемы OCR


Очень нужен мастер-класс по OCR. Я впервые этим занялась, у меня естессно тьма вопросов, и мне как-то неудобно грузить этим делом форум. То есть я могу, конечно, эти вопросы задать, ну начать по-крайней мере. Но 100% каждый ответ вызовет еще вопрос, и т.п. В связи с этим:

1) есть ли где хороший (душевный :) ФАК по ОКРу?
2) может быть какая нть добрая душа согласится поконсультировать меня в личной переписке?

Пока что первый вопрос самый простой. Где бы взять нормальный Finereader, или может быть другую подобную программу. Собсно у меня был замечательный, восхитительный ФР 3.0 - 20 мегов места занимает, памяти практисски не жрет, а пашет как трактор. И языки все понимает, даже такой интересный (и самый полезный!) язык как «русско-английский». Но увы, оказалось что он плохо крякнут, и когда у него вышел срок, он начал резать строки через одну при попытке сейвить файлы. Фот, комп у меня старый, диск весь забит, новую тяжеленную версию 7 ставить реально некуда (да и зачем, если 3 вполне годится). Кроме того, другие версии, боюсь, тоже будут криво крякнуты, ибо ABBYY славится отличной защитой. В общем, дайте плиз совет: какой программой/версией вы пользуетесь и где ее взять? Я собсно и купить могла бы лицензионную, раз уж на то пошло - но они ессно предлагают огроменного слонища 7.0, который просто раздавит своей тушей весь мой скромный компик :(. А всё кроме 7.0 «политика компании» им продавать запрещает. Прикиньте, я им позвонила, описала проблему, так они решили сделать исключение и пойти навстречу: лично мне продать версию 4.0 за $129 :).

Фот, такая грустная история.. И это только первый из вопросов...

А зато. Если вы мне поможете, то я вам начну материалы давать :). У меня уже куча мечтаний, что я хотела бы поокрить, было б чем...

Спасибо: 0 
Цитата Ответить
Ответов - 49 , стр: 1 2 All [только новые]





Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:11. Заголовок: Re: проблемы OCR


Эээ.. вы не думайте, что это только мечтания - я уже половину «Нюрнбергского дневника» Гильберта отсканила и все опечатки вычитала. И тут такой облом :(.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:15. Заголовок: Re: Snarka


Самое простое: приехать и поучиться. Хотите? Есть возможность. Вы ведь, как я понимаю, в Москве? Мыло я указал (наконец-то не забыл после очередной переучтановки системы!) - напишите. Этот вопрос вполне решаемый.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:50. Заголовок: Re: S.N.Morozoff


Вопросы по железу не глядя рассматривать сложно. Reader 7.0 я и сам не пользую. Обхожусь пятым, но есть и четвертый. Оба, само собой, работают нормально :) Мне, однако, из PDF ничего распознавать не надо.

Вообще по железу могу сказать такую вещь: На Intel Pentium Pro (был такой агрегат!) 200MHz (256Kb кэша 2 уровня на частоте ядра) на плате уровня FX-чипсета под управлением Windows NT 4.0 Workstation стоит 5-й ридер и вполне работает в смысле скорости. Это не Athlon1200, конечно, но работать вполне себе можно. Память: SIMM 72pin, 64Mb.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 09.12.04 17:52. Заголовок: Re: проблемы OCR


Огромное спасибо за быстрый ответ! :) Я вам мыло напишу.


Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 04:04. Заголовок: Re: проблемы OCR


вот тут посмотрите, может поможет что-то.

http://www.amyat.narod.ru/faq/faq.html

Каждая следующая версия ФР работает в несколько раз чище предыдущей. По крайней мере меньше 5 версии ставить не советую. У меня она занимала ~50мб.

Как вариант дОбычи копии ФР - ставится демоверсия и вся работа делаетс за сколько там ограничение стоит (было 15 часов или 15 запусков). Для продолжения работы придется систему с нуля переставлять.

Кряки 4/5/6 где-то должны быть.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 05:39. Заголовок: Re: проблемы OCR


Спасибо! Правда, хороший ФАК (и даже с макросами).
Насчет кряков - пока попробую воспользоваться любезным предложением г-на Морозофф :).

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 10:19. Заголовок: Re: проблемы OCR


Хочу отметить, что после 15.XII я реанимирую раздел по подготовке текстов. Там будет учтен многолетний (sic!) опыт, естественно -- не только мой, в том числе очень полезные заметки А. Мятишкина, Змия, других товарищей (в т.ч. по djvu). Раздел будет разбит на две части -- собственно советы по оцифровке, общие, так сказать, и конкретно технологическая цепочка для Милитеры (понятно, что можно использовать и для других сайтов, занимающихся тем же).

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 11:23. Заголовок: Re: Snarka


Из собственного опыта: краком нужно воспользоваться ДО ТОГО, как истечет демо-срок. Никакие попытки сделать это после - ни к чему не привели (вариант переустановить систему не рассматривался). Единственно, что помогло, - это поставить другую версию. Система ее не знает, и все как бы начинается сначала.
Может, умельцы редактировать системный регистр могли бы подсказать что-то другое.
А вообще - не чурайтесь новых версий FR. Каждая из них делает меньше ошибок при распознавании, чемпредыдущая.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 15:08. Заголовок: Re: Snarka


Здравствуйте!
Надежный кряк с инструкцией для 6-й версии могу выслать хоть сейчас. Ситуации Вашей можно только посочувствовать. Железо надо конечно улучшать. В принципе не так уж много и надо. Процессор - ок. 400 Мгц, винт 2 Гб.
Всего доброго.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 10.12.04 15:32. Заголовок: Re: assaur


Кряк надежный можно мне отослать? Для коллекции: хоть и не пользую, но мало ли когда что пригодится?!. Не срочно, конечно, а как не лень будет.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 10:52. Заголовок: Re: проблемы OCR


А что на http://www.forum.ru-board.com/ сложно найти соответствующий кряк ? до сих пор там находилось все что было нужно.
У меня сейчас стоит 7ой файнридер с русским модулем - 80метров на диске занимает (инсталятор 40 +10метров до языков и пр.).
Запускал правда всего пару раз - текст распознал отлично , вот только часть рисунков тоже решил прогнать как текст ( или схемы ) очень коряво выходит . Щас буду задачник по физике сканить ( нужно по учебе ) чувствую подучусь.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 12:15. Заголовок: Re: bdfy


цитата
Запускал правда всего пару раз - текст распознал отлично
Во-во :))). Пару раз. Вы запустите 30 раз, а потом и посмотрим, насколько ваш кряк хорош. В том и проблема со всеми кряками продуктов ABBYY, с Лингвами разных версий у меня была та же история. Пжалста, и в инете кряки, и на дисках-сборниках везде эти программы валяются. И ставятся, и работают... некоторое время.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 12:44. Заголовок: Re: Snarka


Это точно. Защита у них неплохая.

Нет таких крепостей, которые не взяли бы большевики...

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 20:58. Заголовок: Re: проблемы OCR


Snarka
Вот лингво9 у меня точно стоит сполгода безпроблем и запускаю я его каждый день . Кряк рубородовский как раз.
Как максимум этот самый файнридер может стучаться на свой сервер пока вы в инете и проверять валидность серийника ( промт так делает , адманчер , лингво + еще куча прог) . Я правда пока не замечал этого , но файер все равно подобного не допустит :D Так что рекомендую Outpost,ZoneAlarm и тп

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 12.12.04 23:28. Заголовок: Re: проблемы OCR


ОК, спасибо, при случае вашу наводку попробую :)

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 14.12.04 04:38. Заголовок: Re: Snarka


Возможно детский лепет, но на время сканирования отключаю антивирус и программа начинает себя вести очень прилично.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 14.12.04 13:49. Заголовок: Re: assaur


Честно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду...

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 14.12.04 15:24. Заголовок: Re: S.N.Morozoff


Тонкостей не знаю. Где-что конфликтует определить не могу, но при включенном антивирусе отключался сканер. И не помогала даже переустановка программы сканера и «файна».

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 14.12.04 15:26. Заголовок: Re: assaur


Любопытно!..

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 04:41. Заголовок: Re: проблемы OCR


S.N.Morozoff пишет:
цитата
Честно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду...

Вот вчитался внимательно в инстукцию к крэку:
3. Во время работы с Finereader’ом при включённом резидентном стороже SpIDer Guard антивируса DrWeb возможно зависание системы в момент сохранения документов по не зависящим от лоадера причинам.
У меня , правда висло при сканировании.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 10:29. Заголовок: Re: проблемы OCR


Самый лучший FineReader, на мой взгляд, этой 6-й без кряка, он ставиться, работает и не жужжит. Вообще никаких проблем.

цитата
Честно говоря, не осознал, какая связь. Антивирус в резидентах существенно тормозит систему (потому его в принципе на резидента не вешаю) - это есть, а вот чтобы на кряках сказывался?.. Или что-то другое имелось в виду...

Это, наверное каспер, а доктор вэб работает не заметно, пока не нарвется на большой архив.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 11:17. Заголовок: Re: проблемы OCR


Посоветйте арнтивирус!
Очень не доволен Касперским, пробовал ставить Norton - вообще «труба». Есть какой нибудь надежный и ненадоедливый?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 12:40. Заголовок: Re: assaur


Dr. Web нормально работает. Это до 4.31 версии. Потом 4.32 начал денег просить, и я впросто в 4.31 переписываю базы от нового.


Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 17:12. Заголовок: Re: amyatishkin


Doctor Web.
Касперского, говорят, ежели настроить!.. У меня ни разу не получилось его настроить так, чтобы он перестал тормозить.
Но вообще-то я давно уже не ставлю антивирус в резидентах. А нерезидентно - да все равно, вообщем-то, какой. Просто к DrWeb я давно привык.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 25.12.04 22:01. Заголовок: Re: S.N.Morozoff


Андрею и Сергею.
Спасибо за совет!

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 26.12.04 06:47. Заголовок: Re: проблемы OCR


ребяты - работал с фаняридерами с 4 по 7 все крякнутые естественно. Что-то таких траблов не видел пахали и пахали. Не вру у мужика одного слетал 6 при переходе на новый год. Систему не надо переустанавливать - в реестре его вычистить надо он там вроде в одном месте все пишет в папку свою ее и грохаете в реестре. Где-то на болванах все эти версии есть - если очень нужно можно передать. 7 конечно лучше 4 но в основном на сложных местах - типа таблицы жрет лучше. Еще учтите что если шрифт идет с обычного листа А4 то можно сканировать с 200 дпи а мелкий шрифт и 400 может потребовать. Весьма полезна уборка мусора и подчистка ластиком всякой бяки (например снос черноты по центру и краям скана заметно уменьшает размер) нужно также подправлять разметку - фаня иногда мудрит особливо при наличии картинок и грязи

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 26.12.04 18:39. Заголовок: Re: constantin


Все так, конечно. Но все-таки это отличная программа!
Кстати 6 и 7 версии иногда и заголовки пропускают. О таблицах и не говорю, - я обычно их выделяю текстовым блоком, затем правый щелчок и «анализ таблицы». Не совсем удобно, но зато наверняка. Хотя и это требует дополнительной обработки.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 26.12.04 18:53. Заголовок: Re: assaur


А таблицы помечаю как таблицы и потом прочерчиваю отдельно каждую вартикальную и горизонтальную линии. Кроме габаритных, естественно.
Фокусы типа одна общая «шапка» на две колонки потом приходится делать вручную.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 26.12.04 19:23. Заголовок: Re: проблемы OCR


Ответ неверный.
Самое хитрое - есть на вкладке «Распознавание» в опциях у таблиц галки «нет объединенных ячеек» и «одна строка в ячейке».
Потом остается объединять строки (просто стащить линий в соседнюю ячейку) и ячейки (выделяется несколько, правый клик и объединить ячейки)
А настоящие проблемы появляются, когда в таблице сделано заполнение строки точками - ФР ее на распознает. Приходиться или ластиком вытирать точки, или поверх таблицы кидать еще один текстовый блок и из него вытаскивать текст по ячейкам.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 06:00. Заголовок: Re: проблемы OCR


amyatishkin пишет:
цитата
Потом остается объединять строки (просто стащить линий в соседнюю ячейку) и ячейки (выделяется несколько, правый клик и объединить ячейки)


Вот это я и назвал «делать вручную», имея в виду - уже в Ворде.

А в самом файнридере проходит выделение блоков «рисунок» или «текст» в отдельных ячейках таблицы. И даже комбинация текста с рисунками. Так я передавал в Ворд всякого рода специальные символы, имеющиеся в оригинале.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 11:09. Заголовок: Re: проблемы OCR


amyatishkin , каждая новая версия доктора вэба требует новый ключ, даже если переходить с 4,31а на 4,31b в этом и есть его неудобство, хоть бери да покупай. Кстати у меня где-то был ключ к 4.32а, если надо могу выслать.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 17:07. Заголовок: Re: проблемы OCR


MacShley пишет:
цитата
А в самом файнридере проходит выделение блоков «рисунок» или «текст» в отдельных ячейках таблицы. И даже комбинация текста с рисунками. Так я передавал в Ворд всякого рода специальные символы, имеющиеся в оригинале.

Очень интересно! А вот такой случай (чаще встречается в старых книга): в одной из вертикальных граф идет перечисление
431 шап
765 шап
434 иап
2 гиап
далее все это обобщается справа одной общей фигурной скобкой. Это как-то можно отразить в тексте?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 17:34. Заголовок: Re: проблемы OCR


assaur пишет:
цитата
Очень интересно! А вот такой случай (чаще встречается в старых книга): в одной из вертикальных граф идет перечисление

Вертикальная черта, чтоб пришлась на скобку, а потом делать объединение ячеек по правой кнопке мауса.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.12.04 23:00. Заголовок: Re: assaur


Я бы сделал так:
скобку объявить картинкой;
в Ворде межстрочный интервал соответствующего такста подогнать под размер скобки или размер картинки со скобкой под высоту текста.

ИЛИ:

объявить картинкой все вместе: и скобку, и текст, который она объединяет. Я так делал, когда сканировал большие рисунки со многими надписями. Это делалось для перевода, который должен был сохранять верстку страницы. Большая возня при этом - заменять надписи их переводом с использованием textbox’ов

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 28.12.04 22:28. Заголовок: Re: Zealot


А в чем неудобство? Покамест дополнительные базы данных для версии 4.32 вполне ложатся на версию 4.30 - на хрена козе баян? В смысле, зачем обновлять версию?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 28.12.04 22:35. Заголовок: Re: constantin


Для мелкого шрифта неплохо помогает также сканирование с увеличением. Особливо касается тех, у кого сканер с верхним пределом в 300dpi. Ставим масштаб в 150% (а вообще из опыта и размера шрифта) и все вполне проходит.

К скану же. Основная рабочая лошадка моя для текстов - HP Scanjet IIP образца 1991г. Великий аппарат! Цвета он не поддерживает (только grayscale), разрешение верхнее - 300 dpi. И контроллер к нему нужен. Но орел!.. Купили его года три назад, как хлам (контроллер дороже вышел в итоге), но с тех пор я на него молюсь.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 28.12.04 22:47. Заголовок: Re: Zealot


Отставить проверку архивов!

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 28.12.04 22:48. Заголовок: Re: assaur


Это называется «Прочтите же, наконец, инструкцию!» Анекдот такой есть.

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 29.12.04 09:10. Заголовок: Re: S.N.Morozoff


Сколько, интересно, такое чудо стоило в 1991 году? 10-20 штук баксов?
И какая скорость сканирования выходит?

Спасибо: 0 
Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 29.12.04 16:00. Заголовок: Re: amyatishkin


Вот сколько он тогда стоил - не скажу, но думаю, первые тысячи гриновых. Все же не А3. А купили мы его за $10, потому как хлам, хотя и рабочий. Контроллер к нему (новый, кстати, TEKRAM то ли 370, то ли 390, обошелся в примерно $20).

Про скорость сканирования: время сканирования всей области (немного больше, чем А4) в двухцветном режиме (Black&White) при масштабе 100% и разрешении 300dpi - ровно 14 секунд (от момента нажатия на кнопку «Scan», т.е с подготовкой и без возврата лампы в исходное положение - только что специально замерил). Разворот книги как правило несколько меньше А4, так что получается даже побыстрее - секунд 10-12. Размер файла формата TIFF 5.0 при этом - 1,1 Mb (при сканировании реальных книг - меньше мегабайта из-за размера).

Сканер вообще сделан грамотно - прижим очень прилично обеспечивается крышкой. Очень легко расположить разворот ровно. На худой конец, в сочетании с двумя аккумуляторами для UPS (прижим разворота) - начисто отпадает чернота по краям страницы даже при плохом переплете.

Для примера: не так давно сканил обещанные Hoaxer’у брошюры (всего три): 32 стр., 72 стр., 81 стр. и одну (32 стр.) для себя. Уложился за час с небольшим. Войдя в раж сканирования, решил добить начатую раньше стенограмму процесса Ф.Г. Пауэрса, 1960г. издания (оставалось еще 180 стр.). Еще за час с небольшим сделал (переплет здорово мешал, пришлось расшивать).

В общем, классная машинка.

Спасибо: 0 
Цитата Ответить
Ответов - 49 , стр: 1 2 All [только новые]
Ответ:
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Имя, пароль:      зарегистрироваться    
Тему читают:
- участник сейчас на форуме
- участник вне форума
Все даты в формате GMT  3 час. Хитов сегодня: 21
Права: смайлы да, картинки да, шрифты да, голосования нет
аватары да, автозамена ссылок вкл, премодерация вкл, правка нет