Автор | Сообщение |
|
Отправлено: 23.11.05 04:48. Заголовок: Для занимающихся цифровкой книг
Ознакомился с одной многообещающей программой для ловли ошибок в текстах. Она не для вычитки, а для проверки слов, которые могут быть неудачно распознаны, но при этом есть в словаре (танки-тапки). Проверка идет по несколько параноидальному списку Змия. Проверять надо уже готовый текст. Форматы - rtf, txt, но rtf несколько упрощенный, так что лучше проверять один файл, а правку призводить в другом в Ворде. Отсюда можно скачать программу: OcrCleaner Вот форумы, где она обсуждается: the-ebook.org OCR форум Пользование: автор: -------------- Сама программка небольшая (~100кб). Но я на вский случай сделал полный установочный пакет, включив туда все библиотеки. Поэтому пакет получился 2.1 мб ... Работать с программкой просто. Она при открытии сразу же лоадит файл со Змиевыми словами. А тебе надо только загрузить книгу и нажать "check". С остальными опциями, думаю, сам разберешься: они вроде бы очевидные. Но если что-то будет непонятно - спрашивай. Если захочешь делать свои файлы с плохими словами, надо соблюдать два правила. 1. Каждое слово должно быть на своей строке. 2. Кодировка - windows-1251. Новые файлы с плохими словами рекомендуется помещать в поддиректорию SpellCheckFiles: если пользователь нажал "load" (это загрузка своих файлов с плохими словами), то программа показывает эту поддиректорию. Ну вроде бы все. Надеюсь, что программка поможет в твоем нелегком труде на благо ебучной комьюнити. ---------------
|
|
Профиль
Цитата
Ответить
|
Ответов - 37
[только новые]
|
|
|
Отправлено: 23.11.05 13:33. Заголовок: Re:
Ув. amyatishkin ! я тут начал переписку с Hoaxer-om на предмет его "любимой" книги Paul Leverkuehn. Задержка вышла с адресом вашего ftp-servera, куда можно бы положить материал. Hoaxer обешал, но так и Не прислал, видимо по причине зaнятости. Может вы узнаете..при случае.. "как быть и что делать" с ftp ?
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 14:12. Заголовок: Re:
фтп вообще накрылся. Книжка сильно объемная, или что? Если проблем для Вас с закачкой нет, можете куда-нибудь на http://zalil.ru/ и сылку выслать.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 14:42. Заголовок: Re:
ну да..после скана в .bmp- файли первые 10 разворотов уже на 5 МB потянули. у меня нету soft-a, преобразуешего результати скана в техтовые файли (полагаю здесь происходит большая редукция) я не знаю стоит ли 'закачивать' в исходном виде..
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 15:22. Заголовок: Re:
vlad пишет: цитата у меня нету soft-a, преобразуешего результати скана в техтовые файли (полагаю здесь происходит большая редукция)
Да, редукция действительно происходит... <offtop>Плохо все-таки жить в Буржуйляндии - и софта не найти, и денег за него хотят... Приезжал ко мне году в 99-м старый знакомый, уехавших в восьмидесятых в Америку: увидев коллекцию сидюков с софтом, аж с лица сбледнел. А когда я ему эти сидюки подарил (мне не жалко, возле метро еще куплю:) - сначала обрадовался, а потом задумался про таможню... Но ничего, провез и пользовал. Может, и до сих пор пользует...</offtop>
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 15:49. Заголовок: Re:
ну да: "и знаем, и любим, и пользуемся". У меня тоже есть небольшая "коллекция", только совсем по другому "профилю". Все эти ..Photoshopi, Freemakeri i Textwriteri.. я никогда Не использовал- Не нужны были.. бывает же Такое
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 16:01. Заголовок: Re:
vlad - ну тогда ладно... Finereader'a бы Вам... Но ведь двести мегов, собака - у меня нет такого ftp...
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 16:17. Заголовок: Re:
vlad пишет: цитата Все эти ..Photoshopi
Зачем Вам Фотошоп? Для того что-бы конвертнуть изображение из *.bmp в *.jpg достаточно программ для просмотра, типа ACDSee.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 18:47. Заголовок: Re:
vlad Поясните, что за качество в книге? А вообще, вы знаете, как сканировать?
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 19:36. Заголовок: Re:
amyatishkin пишет: цитата А вообще, вы знаете, как сканировать?
ну да, казалось бы, положил в сkанер, подкрутил разрешение чтоб еще читалось да и готово. Нo, вообще я уж с месяц назад (или более) посилaл пример страници Hoaxer-u; он сказал: пойдет. Я решил продолжать в томже направлении. ОК, я могу все слить..думаю с десяток файлов "набежит" на 50 MB.. Только как для вас: не "сложно" ли будет забирать ? amyatishkin пишет: цитата Поясните, что за качество в книге?
Готический шрифт Michail Tz пишет: цитата Finereader'a бы Вам... Но ведь двести мегов, собака - у меня нет такого ftp...
У меня тоже, уви
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 20:21. Заголовок: Re:
vlad И все-таки, параметры сканирования? dpi, сколько цветов. Если цвета два, то TIFF с LZW хорошо сожмет. Сканер мне сканит лист формата А4 размером в 1,12Mb при 300dpi. Это TIFF без LZW. После конвертации в TIFF с LZW на выходе имеется тот же файл, но размером 372kb.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 21:15. Заголовок: Re:
Параметри такие: resolution: 300 dpi , 2 цвета, (bmp-fail) на разворот А4 набегает.. между 200 и 300 кB. Но!- есть фотки, 25 штук на книгу, те. на десяток разворотов прим. 1 фотка. Tк. сканирую с копий (сканер Не плоский) то делаю со 128-бит, т.е. виход получается тянет на 2 MB (с хвостиком) Ну вот, в результате и набегает под 5 MB на 10 разворотов
|
|
Профиль
Цитата
Ответить
|
|
|
Отправлено: 23.11.05 22:43. Заголовок: Re:
vlad пишет: цитата bmp-fail
Это самый "тяжелый" формат. Переводите или в JPG или TIFF с LZW-компрессией.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 23:04. Заголовок: Re:
спасибо, вы могли б присоветовать еще какую програмку типa.. Viewer.. для конвертирования. Я видел наверху ACDSee; буду искат Осликом, но ежли не найдет, что есче есть ?
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 23:12. Заголовок: Re:
vlad пишет: цитата Я видел наверху ACDSee; буду искат Осликом, но ежли не найдет, что есче есть ?
ACDSee могу выслать на мыло вместе с ломалкой или даже проще - дам скачать. Весить будет мега полтора-два. Версия 2.42, не 7.0, но в LZW конвертит.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 23.11.05 23:28. Заголовок: Re:
положите на http://zalil.ru/ , please и напишите ссилку; или ссилка где у вас лежит кстати стaндартний MS Imaging конвертит (Оказивается) в .tif из .bmp но редукция при етом копеечная
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 24.11.05 00:14. Заголовок: Re:
thanks ! кстати, инструкцию можно стереть наверное- ужe скопировал
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 24.11.05 00:50. Заголовок: Re:
попробовал конвертировать.. да эффект имеется: в 3 раза редуцирует! v .tif-format s LZW..
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 24.11.05 00:52. Заголовок: Re:
vlad пишет: цитата попробовал конвертировать.. да эффект имеется: в 3 раза редуцирует!
Примерно так и должно быть, зависит от содержимого файла. Хорошо работает только на двухцветных сканах. На картинках в серой шкале или в индексированных цветах эффекта не будет. Но хоть текст сожмете. :)
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 15:12. Заголовок: Re:
Всеже JPEG лучше чем TIFF даже с LZW. Я сканирую фотки с 8-Бит grey-scale разрешением. Так что на виходе получайу гиганские bmp-файли по 2-5 MB. Если я для компрессии пользуюсь TIF с LZW, то получаю где-то половинную редукцию. Ежли беру JPEG с установкой качества гдето 50%.. то редукция получается около 5-6 раз. Разница есть. Насколько я понимаю в "колбасе" в JPEG уже входит и LZW, и Другие програмние штучки, но .. кроме качества Viever позволяет установит есче другие параметри, типа.. Optimized huffman code, smooothing Ето только так, для "красоты", или ?
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 15:51. Заголовок: Re:
Когда в серой шкале делаешь, LZW не так оптимистичен, как для bitmap. Но основное отличие TIFF с LZW от JPEG в том, что у первого при сжатии не теряется качество. Алгоритм сжатия в JPEG устроен так, что выбрасывает из изображения всякие мелочи и за счет этого сокращает размер файла. Очень похоже на сжатие в mp3 звука. LZW сжатие из файла ничего не выбрасывает.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 17:10. Заголовок: Re:
а вот как он теряет качество: вот что интересно.. Я- то думал, он просто "прореживает" картинку, вибрасывая сколько-там, пикселей. Но выходит что Нет: посмотрел на bmp-оригинал и jpeg-копию-пиксели одни и теже, но "обший вес" сильно оличаeтся
|
|
Профиль
Цитата
Ответить
|
|
|
Отправлено: 27.11.05 17:15. Заголовок: Re:
vlad пишет: цитата bmp-оригинал и jpeg-копию-пиксели одни и теже, но "обший вес" сильно оличаeтся
А mp3 в 320 kbps на слух сильно отличается от wav-файла? Сколько помню, одна из особенностей алгоритма JPEG сжатия в том, что несколько близких по цвету пикселей объявляются пикселями одного цвета, что позволяет кодировать информацию о четырех соседних пикселях как об одном. На глаз это действительно не очень заметно, но что-то все же пропадает. С учетом того, что WEB-публикация убьет качество намного сильнее, думаю, что можно делать и JPEG.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 17:24. Заголовок: Re:
да, в етом слысле LZW-компрессия наиболее "чистый" метод. Алгоритм в общем неплохо описан.. и понятен. Но к сожалению катинки после него все равно большие остаются. А так .. JPEG.. я распечатал: разобрать еще можно
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 19:09. Заголовок: Re:
Двухбитовый TIF не имеет антиальязинг (сглаживание), поэтому мелкий шрифт может сильно искажаться, что плохо для автораспознавания текста.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 19:21. Заголовок: Re:
Энциклоп пишет: цитата мелкий шрифт может сильно искажаться
А насколько мелкий?
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 19:59. Заголовок: Re:
в моем представлении "чистый" ТIF - это растровая графика, но информация запоминается не по-элементно, а будто бы блоками. Т.е. "ухищрений и трюков" вроде .. smoothing , anti-aliasing .. в нем нету. Другое дело- JPEG , который по-сути является одним из способов компрессии,
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 20:45. Заголовок: Re:
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 21:23. Заголовок: Re:
можно немного иронии по поводу статьи ? : ) Судя по super-заумному описанию, JPEG - просто преобразование Фурье, при котором массив пикселей раскладивается в ряд по синусам/kосинусам.. но при этом запоминают толко Фурье -коэффициенты. Ясно теперь как регулируется качество: путем ограничение на число коэффициентов. По-этому и получается..что после применения алгоритма в прямом и обратном направлении, полученое изображение Вообще Не будет сoвпадать с исходним. Известний эффект.. в теории сигналов, к примеру, когда 2-х кратное применение Фурье преобразования дает ..автокорреляционную функцию заместо исходного сигнала. Так что вообще-то фотка записанная в формате JPEG.. и просмотренная из этого формата будет слегка отличатся от оригинала.. но это- так, лирика
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 21:37. Заголовок: Re:
vlad пишет: цитата Судя по super-заумному описанию, JPEG - просто преобразование Фурье,
Ну что Вы! Ну что это такое - "преобразование Фурье", смеетесь что ли?.. Это ж второй курс института, если не первый. Это не по взрослому. А вот "Дискретно Косинусоидальное Преобразование." (все слова с больших) - эт да! Эт я понимаю! :))
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 21:41. Заголовок: Re:
ну да, "энергия пикселей"
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 27.11.05 21:43. Заголовок: Re:
Таки да! А какая у пикселя может быть энергия - вот вопрос! По идее в растровой графике энергия может быть только потенциальная. А вот в векторной!!! :))))
|
|
Профиль
Цитата
Ответить
|
|
|
Отправлено: 27.11.05 21:52. Заголовок: Re:
да уж.. про векторную.. даже Стррашно подумать
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 15.01.06 19:59. Заголовок: Re:
ув amyatishkin ! Я отсканировал примерно половину книги: хочу вам послать- пусть Хоахер поглядит- может что переделать надо. "Вес" этой половину где-то 12 MB , думаю разбить на порции по 5-6 MB это нормально ?
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 15.01.06 20:38. Заголовок: Re:
vlad Мне посылать пока ничего не надо, лучше Хоаксеру - когда он свяжется с вами. Для просмотра качества можно кусочек в мегабайт заслать мне или на тот же http://zalil.ru/ положить.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 15.01.06 21:41. Заголовок: Re:
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 15.01.06 23:26. Заголовок: Re:
Вроде нормально. Но я эту готику не понимаю. М.б. кто лучше разбирается? А так делайте дальше, если Хоаксеру будут интересны полкнижки - он сам свяжется. ЗЫ. Не знаю, какой программой жали, но ACDSee в формате TIFF Group 4 размер делает меньше в 1,5 раза.
|
|
Профиль
Цитата
Ответить
|
|
Отправлено: 16.01.06 00:11. Заголовок: Re:
этим и жал: TIFF+ LZW-compression а да, попробовал поменять опцию на Group 4- действительно в 1.5 раза меньше !- thanks
|
|
Профиль
Цитата
Ответить
|
|