Форум сайта
Новичкам о регистрации на форуме.
АвторСообщение



Пост N: 1827
ссылка на сообщение  Отправлено: 17.11.08 19:22. Заголовок: Вопросы насчёт PDF- формата


Собственно вопрос такой - необходимо выделить текст со страницы документа PDF и схемы с чертежами желательно без потери качества (материалы очень старые - 1943 года - ещё немного "потерь" и вообще трудно будет разобрать что либо) - как это можно сделать?

Война - это не то, что ты думаешь... Спасибо: 0 
Профиль Цитата Ответить
Ответов - 10 [только новые]





Пост N: 2953
ссылка на сообщение  Отправлено: 17.11.08 20:31. Заголовок: В Photoshop CS2, нап..


В Photoshop CS2, например, можно открыть страницу и делать с ней все что угодно.

Аватор: Картина Репина. Запорожцы пишут боевое донесение в вышестоящий штаб. Спасибо: 0 
Профиль Цитата Ответить



Пост N: 48
ссылка на сообщение  Отправлено: 17.11.08 20:35. Заголовок: Ктырь пишет: необхо..


Ктырь пишет:

 цитата:
необходимо выделить текст со страницы документа PDF и схемы с чертежами желательно без потери качества (материалы очень старые - 1943 года - ещё немного "потерь" и вообще трудно будет разобрать что либо) - как это можно сделать?


Выделить текст в PDF можно только если этот фрагмент был текстом в первоисточнике документа, т.е. если PDF создавался из текстового документа ака, например, Ворд. И если создатель PDF разрешил таковую возможность.
Если первоисточником был, скажем, сканер - тогда там (в PDF) текста как такового вообще нету. Есть изображения букв.

ЗЫ. Некоторые OCRы умеют PDF.
ЗЗЫ. Некоторые PDF умеют не отдавать себя OCRам.
ЗЗЗЫ. В наихудшем варианте - распечатать этот лист, взять сканер, взять OCR и OCRу сказать где на скане текст, а где картинки
ЗЗЗЗЫ. OCR - распознаватель текста из картинок. Например - FineReader.

Спасибо: 0 
Профиль Цитата Ответить



Пост N: 49
ссылка на сообщение  Отправлено: 17.11.08 20:42. Заголовок: assaur пишет: В Pho..


assaur пишет:

 цитата:
В Photoshop CS2, например, можно открыть страницу и делать с ней все что угодно.


Ага, если не учитывать того, что Фотожоп и PDF разработаны одной фирмой.
И если в PDF забит запрет копирования содержимого (такая фича в PDF предусмотрена), то Фотожоп его хрен откроет.
Опять таки, это не дает возможность получить из картинки текст.

Спасибо: 0 
Профиль Цитата Ответить





Пост N: 2912
ссылка на сообщение  Отправлено: 17.11.08 20:55. Заголовок: Есть программы-конве..


Есть программы-конверторы ПДФ.
Типа PDF Image Extraction Wizard
Вытаскивают из ПДФ все картинки в сложенном туда качестве. Если ПДФ защищенный, то надо еще прогу типа PDF Password Remover для разблокировки.

Спасибо: 0 
Профиль Цитата Ответить



Пост N: 2954
ссылка на сообщение  Отправлено: 17.11.08 21:15. Заголовок: Ну вот, на каждую Фо..


Ну вот, на каждую Фотож... есть Мятишкин с винтом!
Теперь мне понятен смысл его аватора...

Аватор: Картина Репина. Запорожцы пишут боевое донесение в вышестоящий штаб. Спасибо: 0 
Профиль Цитата Ответить



Пост N: 1831
ссылка на сообщение  Отправлено: 17.11.08 21:25. Заголовок: Народ всем спасибо б..


Народ всем спасибо щас экспериментирую - вроде нормально получается.

Оказался случай тот что указывал craft. В общем страничка получается - что единственно возможно в данной ситуации и с учётом моей пещерности в данном вопросе.

Ещё раз спасибо.

Война - это не то, что ты думаешь... Спасибо: 0 
Профиль Цитата Ответить



Пост N: 4073
ссылка на сообщение  Отправлено: 20.11.08 19:35. Заголовок: Ктырь пишет: Собств..


Ктырь пишет:

 цитата:
Собственно вопрос такой - необходимо выделить текст со страницы документа PDF и схемы с чертежами желательно без потери качества

а в чем проблема ?- в тулах есть выбор текста, выбор картинки, выбирайте на свой вкус !- на всяк случай проверил- у меня Акробат 6 все позвояет.

I Love TI ! Спасибо: 0 
Профиль Цитата Ответить



Пост N: 1872
ссылка на сообщение  Отправлено: 21.11.08 23:01. Заголовок: vlad пишет а в чем ..


vlad пишет


 цитата:
а в чем проблема ?- в тулах есть выбор текста, выбор картинки, выбирайте на свой вкус !- на всяк случай проверил- у меня Акробат 6 все позвояет.


У меня какой-то комбайн читающий и DjVU и PDF стоял - он чё-то так не может - простенький слишком...

Война - это не то, что ты думаешь... Спасибо: 0 
Профиль Цитата Ответить



Пост N: 51
ссылка на сообщение  Отправлено: 22.11.08 01:18. Заголовок: vlad пишет: в тулах..


vlad пишет:

 цитата:
в тулах есть выбор текста, выбор картинки, выбирайте на свой вкус !- на всяк случай проверил- у меня Акробат 6 все позвояет.


А у меня - 8.
Еще раз - craft пишет:

 цитата:
Выделить текст в PDF можно только если этот фрагмент был текстом в первоисточнике документа, т.е. если PDF создавался из текстового документа ака, например, Ворд. И если создатель PDF разрешил таковую возможность.


Не Ваш Акробат, а тот кто создал конкретный Ваш PDF.
Вам просто попался незащищенный PDF, созданный из текста.
Бывают и другие. У них бывает даже защита от распечатки. Не то чтобы от копирования фрагмента.
Просто Вам не встречалось.

Спасибо: 0 
Профиль Цитата Ответить



Пост N: 4080
ссылка на сообщение  Отправлено: 22.11.08 12:30. Заголовок: craft пишет: У них ..


craft пишет:

 цитата:
У них бывает даже защита от распечатки. Не то чтобы от копирования фрагмента.
Просто Вам не встречалось.

ага, ясненько: ну против таких штучек есть средства.
Вот есть такой мощный пакет LaTex под Win.. for free !
Так вот один из тулов pdftotex - так прямо и называется- применяете к сходному файлу- и он весь в текстовом формате.
Другое дело картинки- они скорее всего исчезнут после такого преобразования.

I Love TI ! Спасибо: 0 
Профиль Цитата Ответить
Ответ:
большой шрифт малый шрифт надстрочный подстрочный заголовок большой заголовок видео с youtube.com картинка из интернета картинка с компьютера ссылка файл с компьютера русская клавиатура транслитератор  цитата  кавычки моноширинный шрифт моноширинный шрифт горизонтальная линия отступ точка LI бегущая строка оффтопик свернутый текст

показывать это сообщение только модераторам
не делать ссылки активными
Имя, пароль:      зарегистрироваться    
Тему читают:
- участник сейчас на форуме
- участник вне форума
Все даты в формате GMT  3 час. Хитов сегодня: 4
Права: смайлы да, картинки да, шрифты да, голосования нет
аватары да, автозамена ссылок вкл, премодерация вкл, правка нет