Форум сайта
Новичкам о регистрации на форуме.
АвторСообщение





Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 04:48. Заголовок: Для занимающихся цифровкой книг


Ознакомился с одной многообещающей программой для ловли ошибок в текстах. Она не для вычитки, а для проверки слов, которые могут быть неудачно распознаны, но при этом есть в словаре (танки-тапки). Проверка идет по несколько параноидальному списку Змия. Проверять надо уже готовый текст. Форматы - rtf, txt, но rtf несколько упрощенный, так что лучше проверять один файл, а правку призводить в другом в Ворде.

Отсюда можно скачать программу:

OcrCleaner

Вот форумы, где она обсуждается:

the-ebook.org

OCR форум

Пользование:
автор:
--------------
Сама программка небольшая (~100кб). Но я на вский случай сделал полный установочный пакет, включив туда все библиотеки. Поэтому пакет получился 2.1 мб

...

Работать с программкой просто. Она при открытии сразу же лоадит файл со Змиевыми словами. А тебе надо только загрузить книгу и нажать "check". С остальными опциями, думаю, сам разберешься: они вроде бы очевидные. Но если что-то будет непонятно - спрашивай.

Если захочешь делать свои файлы с плохими словами, надо соблюдать два правила.
1. Каждое слово должно быть на своей строке.
2. Кодировка - windows-1251.
Новые файлы с плохими словами рекомендуется помещать в поддиректорию SpellCheckFiles: если пользователь нажал "load" (это загрузка своих файлов с плохими словами), то программа показывает эту поддиректорию.

Ну вроде бы все. Надеюсь, что программка поможет в твоем нелегком труде на благо ебучной комьюнити.
---------------

Спасибо: 0 
Профиль Цитата Ответить
Ответов - 37 [только новые]





Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 13:33. Заголовок: Re:


Ув. amyatishkin !
я тут начал переписку с Hoaxer-om на предмет его "любимой" книги Paul Leverkuehn.
Задержка вышла с адресом вашего ftp-servera, куда можно бы положить материал.
Hoaxer обешал, но так и Не прислал, видимо по причине зaнятости.
Может вы узнаете..при случае.. "как быть и что делать" с ftp ?

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 14:12. Заголовок: Re:


фтп вообще накрылся. Книжка сильно объемная, или что?
Если проблем для Вас с закачкой нет, можете куда-нибудь на http://zalil.ru/
и сылку выслать.

Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 14:42. Заголовок: Re:


ну да..после скана в .bmp- файли первые 10 разворотов уже на 5 МB потянули.
у меня нету soft-a, преобразуешего результати скана в техтовые файли (полагаю здесь происходит большая редукция) я не знаю стоит ли 'закачивать' в исходном виде..

Спасибо: 0 
Профиль Цитата Ответить
Noose
Ursus maritimus juv.




Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 15:22. Заголовок: Re:


vlad пишет:
цитата
у меня нету soft-a, преобразуешего результати скана в техтовые файли (полагаю здесь происходит большая редукция)
Да, редукция действительно происходит...
<offtop>Плохо все-таки жить в Буржуйляндии - и софта не найти, и денег за него хотят...
Приезжал ко мне году в 99-м старый знакомый, уехавших в восьмидесятых в Америку: увидев коллекцию сидюков с софтом, аж с лица сбледнел. А когда я ему эти сидюки подарил (мне не жалко, возле метро еще куплю:) - сначала обрадовался, а потом задумался про таможню... Но ничего, провез и пользовал. Может, и до сих пор пользует...</offtop>

Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 15:49. Заголовок: Re:


ну да: "и знаем, и любим, и пользуемся". У меня тоже есть небольшая "коллекция", только совсем по другому "профилю". Все эти ..Photoshopi, Freemakeri i Textwriteri.. я никогда Не использовал- Не нужны были.. бывает же Такое

Спасибо: 0 
Профиль Цитата Ответить
Noose
Ursus maritimus juv.




Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 16:01. Заголовок: Re:


vlad - ну тогда ладно...
Finereader'a бы Вам... Но ведь двести мегов, собака - у меня нет такого ftp...


Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 16:17. Заголовок: Re:


vlad пишет:
цитата
Все эти ..Photoshopi
Зачем Вам Фотошоп? Для того что-бы конвертнуть изображение из *.bmp в *.jpg достаточно программ для просмотра, типа ACDSee.

Помни: пока ты сидишь в Интернете - китайцы размножаются! Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 18:47. Заголовок: Re:


vlad

Поясните, что за качество в книге? А вообще, вы знаете, как сканировать?

Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 19:36. Заголовок: Re:


amyatishkin пишет:
цитата
А вообще, вы знаете, как сканировать?

ну да, казалось бы, положил в сkанер, подкрутил разрешение чтоб еще читалось да и готово.
Нo, вообще я уж с месяц назад (или более) посилaл пример страници Hoaxer-u;
он сказал: пойдет. Я решил продолжать в томже направлении.
ОК, я могу все слить..думаю с десяток файлов "набежит" на 50 MB..
Только как для вас: не "сложно" ли будет забирать ?

amyatishkin пишет:
цитата
Поясните, что за качество в книге?

Готический шрифт


Michail Tz пишет:
цитата
Finereader'a бы Вам... Но ведь двести мегов, собака - у меня нет такого ftp...

У меня тоже, уви

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 20:21. Заголовок: Re:


vlad

И все-таки, параметры сканирования? dpi, сколько цветов. Если цвета два, то TIFF с LZW хорошо сожмет. Сканер мне сканит лист формата А4 размером в 1,12Mb при 300dpi. Это TIFF без LZW. После конвертации в TIFF с LZW на выходе имеется тот же файл, но размером 372kb.

Я верю в законы природы. Все остальное меняется. Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 21:15. Заголовок: Re:


Параметри такие: resolution: 300 dpi , 2 цвета, (bmp-fail) на разворот А4 набегает..
между 200 и 300 кB.
Но!- есть фотки, 25 штук на книгу, те. на десяток разворотов прим. 1 фотка.
Tк. сканирую с копий (сканер Не плоский) то делаю со 128-бит, т.е. виход получается тянет на
2 MB (с хвостиком)
Ну вот, в результате и набегает под 5 MB на 10 разворотов

Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 22:43. Заголовок: Re:


vlad пишет:
цитата
bmp-fail
Это самый "тяжелый" формат. Переводите или в JPG или TIFF с LZW-компрессией.

Помни: пока ты сидишь в Интернете - китайцы размножаются! Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 23:04. Заголовок: Re:


спасибо, вы могли б присоветовать еще какую програмку типa.. Viewer.. для конвертирования.
Я видел наверху ACDSee; буду искат Осликом, но ежли не найдет, что есче есть ?

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 23:12. Заголовок: Re:


vlad пишет:
цитата
Я видел наверху ACDSee; буду искат Осликом, но ежли не найдет, что есче есть ?
ACDSee могу выслать на мыло вместе с ломалкой или даже проще - дам скачать. Весить будет мега полтора-два. Версия 2.42, не 7.0, но в LZW конвертит.

Я верю в законы природы. Все остальное меняется. Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 23.11.05 23:28. Заголовок: Re:


положите на http://zalil.ru/
, please и напишите ссилку; или ссилка где у вас лежит

кстати стaндартний MS Imaging конвертит (Оказивается) в .tif из .bmp но редукция при етом копеечная

Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 24.11.05 00:14. Заголовок: Re:


thanks !
кстати, инструкцию можно стереть наверное- ужe скопировал

Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 24.11.05 00:50. Заголовок: Re:


попробовал конвертировать.. да эффект имеется: в 3 раза редуцирует!
v .tif-format s LZW..

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 24.11.05 00:52. Заголовок: Re:


vlad пишет:
цитата
попробовал конвертировать.. да эффект имеется: в 3 раза редуцирует!
Примерно так и должно быть, зависит от содержимого файла. Хорошо работает только на двухцветных сканах. На картинках в серой шкале или в индексированных цветах эффекта не будет. Но хоть текст сожмете. :)

Я верю в законы природы. Все остальное меняется. Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 15:12. Заголовок: Re:


Всеже JPEG лучше чем TIFF даже с LZW. Я сканирую фотки с 8-Бит grey-scale разрешением. Так что на виходе получайу гиганские bmp-файли по 2-5 MB. Если я для компрессии пользуюсь TIF с LZW, то получаю где-то половинную редукцию. Ежли беру JPEG с установкой качества гдето 50%.. то редукция получается около 5-6 раз.
Разница есть.

Насколько я понимаю в "колбасе" в JPEG уже входит и LZW, и Другие програмние штучки,
но .. кроме качества Viever позволяет установит есче другие параметри, типа..
Optimized huffman code, smooothing
Ето только так, для "красоты", или ?

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 15:51. Заголовок: Re:


Когда в серой шкале делаешь, LZW не так оптимистичен, как для bitmap.

Но основное отличие TIFF с LZW от JPEG в том, что у первого при сжатии не теряется качество. Алгоритм сжатия в JPEG устроен так, что выбрасывает из изображения всякие мелочи и за счет этого сокращает размер файла. Очень похоже на сжатие в mp3 звука. LZW сжатие из файла ничего не выбрасывает.

Я верю в законы природы. Все остальное меняется. Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 17:10. Заголовок: Re:


а вот как он теряет качество: вот что интересно.. Я- то думал, он просто "прореживает" картинку, вибрасывая сколько-там, пикселей. Но выходит что Нет: посмотрел на
bmp-оригинал и jpeg-копию-пиксели одни и теже, но "обший вес" сильно оличаeтся

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 17:15. Заголовок: Re:


vlad пишет:
цитата
bmp-оригинал и jpeg-копию-пиксели одни и теже, но "обший вес" сильно оличаeтся
А mp3 в 320 kbps на слух сильно отличается от wav-файла?

Сколько помню, одна из особенностей алгоритма JPEG сжатия в том, что несколько близких по цвету пикселей объявляются пикселями одного цвета, что позволяет кодировать информацию о четырех соседних пикселях как об одном. На глаз это действительно не очень заметно, но что-то все же пропадает. С учетом того, что WEB-публикация убьет качество намного сильнее, думаю, что можно делать и JPEG.

Я верю в законы природы. Все остальное меняется. Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 17:24. Заголовок: Re:


да, в етом слысле LZW-компрессия наиболее "чистый" метод. Алгоритм в общем неплохо описан.. и понятен. Но к сожалению катинки после него все равно большие остаются.
А так .. JPEG.. я распечатал: разобрать еще можно

Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 19:09. Заголовок: Re:


Двухбитовый TIF не имеет антиальязинг (сглаживание), поэтому мелкий шрифт может сильно искажаться, что плохо для автораспознавания текста.

Помни: пока ты сидишь в Интернете - китайцы размножаются! Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 19:21. Заголовок: Re:


Энциклоп пишет:
цитата
мелкий шрифт может сильно искажаться
А насколько мелкий?

Я верю в законы природы. Все остальное меняется. Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 19:59. Заголовок: Re:


в моем представлении "чистый" ТIF - это растровая графика, но информация запоминается не по-элементно, а будто бы блоками.
Т.е. "ухищрений и трюков" вроде .. smoothing , anti-aliasing .. в нем нету.
Другое дело- JPEG , который по-сути является одним из способов компрессии,

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 20:45. Заголовок: Re:


Вот тут по форматам. JPEG там довольно подробно описан, чуть ли не математически дан алгоритм Дискретно Косинусоидального Преобразования.

http://edu.internet-academy.org.ge/courses/introduction_to_speciality_2/com_gr/graphics/formats/

Я верю в законы природы. Все остальное меняется. Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 21:23. Заголовок: Re:


можно немного иронии по поводу статьи ? : )
Судя по super-заумному описанию, JPEG - просто преобразование Фурье, при котором массив пикселей раскладивается в ряд по синусам/kосинусам.. но при этом запоминают толко Фурье -коэффициенты.
Ясно теперь как регулируется качество: путем ограничение на число коэффициентов.

По-этому и получается..что после применения алгоритма в прямом и обратном направлении, полученое изображение Вообще Не будет сoвпадать с исходним. Известний эффект.. в теории сигналов, к примеру, когда 2-х кратное применение Фурье преобразования дает ..автокорреляционную функцию заместо исходного сигнала.

Так что вообще-то фотка записанная в формате JPEG.. и просмотренная из этого формата будет слегка отличатся от оригинала.. но это- так, лирика

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 21:37. Заголовок: Re:


vlad пишет:
цитата
Судя по super-заумному описанию, JPEG - просто преобразование Фурье,
Ну что Вы! Ну что это такое - "преобразование Фурье", смеетесь что ли?.. Это ж второй курс института, если не первый. Это не по взрослому. А вот "Дискретно Косинусоидальное Преобразование." (все слова с больших) - эт да! Эт я понимаю! :))

Я верю в законы природы. Все остальное меняется. Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 21:41. Заголовок: Re:


ну да, "энергия пикселей"

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 21:43. Заголовок: Re:


Таки да!

А какая у пикселя может быть энергия - вот вопрос! По идее в растровой графике энергия может быть только потенциальная. А вот в векторной!!! :))))

Я верю в законы природы. Все остальное меняется. Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 27.11.05 21:52. Заголовок: Re:


да уж.. про векторную.. даже Стррашно подумать

Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 15.01.06 19:59. Заголовок: Re:


ув amyatishkin !

Я отсканировал примерно половину книги: хочу вам послать-
пусть Хоахер поглядит- может что переделать надо.
"Вес" этой половину где-то 12 MB ,
думаю разбить на порции по 5-6 MB это нормально ?

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 15.01.06 20:38. Заголовок: Re:


vlad

Мне посылать пока ничего не надо, лучше Хоаксеру - когда он свяжется с вами. Для просмотра качества можно кусочек в мегабайт заслать мне или на тот же http://zalil.ru/ положить.


Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 15.01.06 21:41. Заголовок: Re:


ОК, ловите 1MB-fail тестовый:

http://slil.ru/22510049

Спасибо: 0 
Профиль Цитата Ответить





Не зарегистрирован
ссылка на сообщение  Отправлено: 15.01.06 23:26. Заголовок: Re:


Вроде нормально. Но я эту готику не понимаю. М.б. кто лучше разбирается?

А так делайте дальше, если Хоаксеру будут интересны полкнижки - он сам свяжется.

ЗЫ. Не знаю, какой программой жали, но ACDSee в формате TIFF Group 4 размер делает меньше в 1,5 раза.

Спасибо: 0 
Профиль Цитата Ответить



Не зарегистрирован
ссылка на сообщение  Отправлено: 16.01.06 00:11. Заголовок: Re:


этим и жал: TIFF+ LZW-compression
а да, попробовал поменять опцию на Group 4- действительно в 1.5 раза меньше !-
thanks

Спасибо: 0 
Профиль Цитата Ответить
Ответ:
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Имя, пароль:      зарегистрироваться    
Тему читают:
- участник сейчас на форуме
- участник вне форума
Все даты в формате GMT  3 час. Хитов сегодня: 37
Права: смайлы да, картинки да, шрифты да, голосования нет
аватары да, автозамена ссылок вкл, премодерация вкл, правка нет