Статьи Новости Контакты

06.03.2008
Даниил Буров

PDF по запчастям

описание сервиса PDFTextOnline

Символика формата

Обработка PDF-документов в браузере

Получение текста из документов PDF-формата зачастую оказывается утомительным занятием. Adobe Acrobat (или любое другое средство просмотра PDF-документов) могут делать copy-and-paste, но, как утверждают разработчики онлайн-сервиса, это достаточно медленное и нудное занятие, кроме случаев, связанных с небольшими текстами. Acrobat также имеет опцию save as text, но если рассматривать Acrobat Professional, то часто генерирует неточный текст и просто не может справиться с некоторыми языками (особенно китайским, японским и корейским).

Другим вариантом решения подобного вопроса для пользователя являются либо онлайн-инструмент от Adobe для преобразования текста (который заставляет ждать электронного письма с преобразованным текстом), либо одна из множества утилит, наполняющих Интернет. Скачав и установив одну из них, пользователь вынужден беспокоиться, не занес ли он себе на компьютер вирус или шпионскую программку. Таким образом, создатели этого онлайн-сервиса ненавязчиво предлагают свои услуги по перекладыванию такой ответственной заботы с хрупких плечей пользователей на свой PDFTextOnline.

Лучшее решение

PDFTextOnline позволяет извлекать текст из PDF-документов
После шести лет непрерывной работы по превращению PDFTextStream в "лучшее программное обеспечение по извлечению PDF-контента, которое только можно купить за деньги" (цитата с сайта), его создатели из Snowtide Informatics решили, что теперь они точно знают, как сделать и бесплатный инструмент. Такой инструмент, который бы хорошо извлекал не только текст из PDF-файлов, но и метаданные. И они сделали это. Интернет пополнился еще одним значительным онлайн-сервисом. Смелая программистская мысль разработчиков воплотилась в PDFTextOnline:
  • быстрое и точное преобразование текста из формата PDF;
  • обработка всех шрифтов и языков, включая китайский, японский, корейский и многие другие;
  • обеспечение легкого доступа к формированию данных, свойствам документа и закладкам;
  • отсутствие необходимости в загрузке — работает прямо в браузере.

Как утверждают разработчики, PDFTextOnline использует все самые новые инструменты AJAX, какие только есть, чтобы внедрить весь передовой опыт в этой области прямо в браузер пользователя. И поскольку на сайте прямо-таки акцентируется внимание на том, что PDFTextOnline был скопирован с PDFTextStream, можно предположить, что это рекламный проект для продвижения своего платного софта. Надо признать, ход понятный и вполне цивилизованный: сам себя не похвалишь — никто тебя не похвалит.

Начало работы

Окно загрузки

Работа начинается при нажатии на ссылку Get started with PDFTextOnline, где первым делом необходимо принять условия использования данного сервиса. Примечательно, что самовосхваляющие заверения на главной странице разительно отличаются от того, что пишется в Terms of Service. При использовании PDFTextOnline фирма-производитель Snowtide не дает никаких гарантий по поводу корректности извлекаемого контента. Дело-то понятное: сервис предлагается бесплатно, а подобные условия в таких документах уже являются юридической нормой. Но все равно интересно сопоставлять рекламные заверения на первых страницах и юридические оговорки, когда доходит непосредственно до дела.

Далее появляется окошко, в котором будет предложено выбрать загружаемый PDF-файл. Простейшая проверка с помощью искаженной надписи, нажатие на кнопку Start! — и указанный документ начинает загружаться на сервер онлайн-сервиса. А для тех, кто не смог разобрать искаженный текст, предусмотрена ссылка Get a New Image. Время загрузки файла зависит только от скорости соединения пользователя, а размер принимаемых PDF-файлов не должен превышать десяти мегабайт.

Бесплатный PDFTextOnline — реклама платного продукта от Snowtide, который называется PDFTextStream
Ничто не сравнится с запахом свежего текста поутру... Так описывают разработчики свое впечатление от работы своего сервиса. Как только PDFTextOnline получит документ, в ход будет пущена PDFTextStream — библиотека извлечения текста их собственной разработки. Для начала она извлечет текст из первых десяти страниц присланного PDF-файла и отправит его обратно браузеру вместе с закладками PDF-документа, его свойствами и данными формы (если возможно). В течение самого процесса PDFTextOnline будет отображать строку состояния около верхнего края окна браузера. Прибытие извлеченного текста будет сразу заметно — исчезнет строка состояния, а первая страница текста отобразится в основной текстовой области.

Навигация

Навигация

Разработчики обещают, что при использовании PDFTextOnline пользователь подружится с виджетами навигации. Получив текст из своего PDF-документа, можно будет легко перелистывать страницы с помощью простого элемента управления.

Управление страницами предельно понятно: стрелки влево и вправо переключают предыдущую и следующую страницы соответственно. При желании порядковый номер необходимой страницы можно указать непосредственно в окне ввода.

По мере перемещения по страницам извлеченного текста пользователь в конечном счете попытается просмотреть те из них, которые еще не были обработаны. Стоит еще раз напомнить, что PDFTextOnline преобразовывает только по десять страниц PDF-файла после его загрузки. В тех случаях, когда пользователь обращается к еще не преобразованным страницам PDF-документа, сервис догружает с сервера очередной его фрагмент. Потому опять появится строка состояния в верхней части экрана до окончания процесса загрузки. По мере того как будут поступать новые страницы, изменится содержимое текстовой области.

Закладки

Также для управления навигацией PDF-документа можно использовать закладки, если они имеются. При наличии в документе таких закладок слева в окне браузера откроется меню с их иерархией, которую также называют схемой документа (как в MS Word). Это дерево закладок работает точно так же, как и в остальных приложениях для просмотра PDF-файлов (включая Adobe Acrobat). При нажатии на одну из закладок PDFTextOnline отобразит тот текст, который к ней относится. Если же он не был еще загружен с сервера, то сервис загрузит именно этот фрагмент PDF-документа в первую очередь. При наведении курсора на закладку появляется подсказка с указанием номера необходимой страницы.

Сохранение полученного текста

При загрузке PDF-документа PDFTextOnline ставит его на начальное извлечение, подгружая по частям с сервера. Можно же сразу отправить запрос на получение извлеченного текста. Для этого необходимо нажать кнопку Save All Text, а также ввести название для получаемого файла с обработанным текстом. PDFTextOnline отобразит здесь же небольшое окно со строкой состояния, которая показывает процесс архивации в ZIP-файл. Полученный архив будет содержать весть текст, извлеченный из PDF-документа пользователя.

Почему ZIP? Разработчики утверждают, что на это есть две причины. Во-первых, весь текст, который создается с помощью PDFTextOnline, закодирован при использовании системы UTF-8. Это гарантирует полное сохранение всех особенностей текста, включая специальные символы, которые присутствовали в исходном PDF-документе. Это особенно важно, когда сервис используется для извлечения текста на китайском, японском или корейском языках. Если не переводить полученный текст в ZIP-файл, существует вероятность, что браузер пользователя не распознает кодировку UTF-8, что приведет к некорректному отображению специальных символов. Во-вторых, разработчики планируют в дальнейшем включать в этот ZIP-архив извлеченные из PDF-документа метаданные, данные формы, а также закладки. Это позволит включить в загружаемый файл все, что может извлечь PDFTextOnline из PDF-документа.

Другие данные

Основной текст — не единственный тип контента формата PDF, к которому обеспечивает доступ сервис PDFTextOnline. Наверху интерфейса PDFTextOnline можно найти набор позиций табуляции:

Свойства документа

Свойства документа. Если PDF-файл содержит свойства документа (в основном, так и бывает), то для того, чтобы их увидеть, достаточно нажать закладку Document Properties.

Здесь можно найти много знакомых и понятных свойств, которые характеризуют PDF-документы: дата создания, дата модификации, автор, заголовок и так далее. Другие свойства могут оказаться более специализированными, относящимися к обрабатывающим средам PDF-формата.

Данные форм. Если нажать на закладку Form Data, можно открыть поле, где будут содержаться любые интерактивные формы, которые доступны в данном PDF-документе.

Настройки отображения данных

Для тех случаев, когда работа с извлеченным текстом будет вестись непосредственно в браузере, разработчики позаботились о настройках получаемых данных. В левом верхнем углу браузера можно обнаружить окно настроек вида.

В этом окне можно выбрать тип шрифта, который будет использоваться при отображении извлеченного из PDF-документа текста. Поскольку PDFTextOnline передает на браузер чистый текст (без какой-либо информации о стиле), выбранный шрифт будет существенно влиять на восприятие полученных страниц текста пользователем.

Также в окне настроек вида можно изменить компоновку страницы. Сервис PDFTextOnline обеспечивает два различных режима, определяющих расположение извлеченного текста на странице. Визуальный режим (настроен по умолчанию) копирует разметку страниц в соответствии с размещением текста в самом PDF-документе. Это приводит к появлению столбцов, выравниванию заголовков по центру относительно статей, если это было в исходном файле. По утверждению разработчиков, при использовании визуального режима, вероятно, будут наблюдаться некоторые отличия между исходным PDF-документом и извлеченным текстом. Это связано с некоторыми техническими трудностями, возникающими при попытке отобразить открытый текст так же, как "приятно отформатированное содержимое богатого PDF-документа". Однако этот режим отображения будет весьма и весьма близок к оригиналу.

Другой режим вывода текста — семантический. Это более упрощенный вариант по сравнению с предыдущим. Однако он отобразит извлеченный текст с сохранением всех семантически-чувствительных границ. Например, при таком режиме будет сохранено "семантическое разделение столбцов".





Скоро на сайте

  • Wordpress

    Серия статей о плагинах к движку WordPrress
  • AJAX

    Проекты и продукты, ориентированные на AJAX
  • Новые сервисы Google

    Обзор новых сервисов Google
 

Copyright © 2003—2018 Все права защищены

При использовании материалов сайта ссылка на hostinfo.ru обязательна

  • хостинг от .masterhost
  • Rambler's Top100