У меня на работе раз в неделю прилетает какой-нибудь отчёт в PDF, из которого нужно достать таблицу. И каждый раз одна и та же проблема — копируешь, вставляешь, а данные превращаются в месиво. Раньше сидел и руками всё правил, пока не начал искать нормальные конвертеры. Нашёл несколько, которые работают. Делюсь.
Способ 1: Pdf2sheets.app
Pdf2sheets — загружаете PDF, выбираете формат (Google Sheets, Excel, CSV) и получаете готовую таблицу. Для тех, кто работает в гугл-таблицах, удобно тем, что данные летят туда напрямую. Не надо сначала скачивать Excel, потом импортировать. Сканированные документы тоже обрабатывает.
Способ 2: iLovePDF
iLovePDF — сервис, который изначально делали для всяких манипуляций с PDF: сжать, объединить, разбить. Но и конвертация таблиц в Excel тут тоже есть. С OCR — то есть отсканированные PDF тоже потянет. Бесплатный тариф ограничен по количеству файлов. В гугл-таблицы напрямую не умеет.
Способ 3: Tabula
Tabula — программа, которую ставите себе на компьютер. Опенсорс, денег не просит. Открываете PDF, рамкой выделяете нужную таблицу, нажимаете экспорт — готово. Минус: работает только с текстовыми PDF. Если документ отсканирован — Tabula его не прочитает. И с телефона не откроешь.
Способ 4: Smallpdf
Smallpdf — симпатичный онлайн-конвертер. Закидываете PDF, на выходе — Excel. OCR есть. Пару файлов в день — бесплатно, дальше подписка. Всё просто и понятно, даже объяснять особо нечего.
Способ 5: Adobe Acrobat Online
Adobe Acrobat Online — от создателей самого формата PDF. Работает в браузере, конвертирует в Excel. Качество хорошее, но бесплатно — с ограничениями. Прямой интеграции с Google Sheets нет.
Способ 6: PDFtoExcel.com
PDFtoExcel.com — тут без сюрпризов. Загрузил PDF — получил Excel. Никакой регистрации, никаких лишних функций. Работает и с большими документами на несколько страниц. Для простых задач — отличный вариант.
Способ 7: Aspose Table Extractor
Aspose — компания известна в мире разработки, но у них есть бесплатный онлайн-инструмент для всех. Вытаскивает таблицы из PDF в Excel и CSV. Дизайн не самый современный, но работает без нареканий. Регистрация не нужна.
Когда конвертер не поможет
Бывает, что конвертер вроде сработал, а результат — каша. Чаще всего это из-за самого PDF. Объединённые ячейки, таблицы без чётких границ, текст внутри картинок — всё это сбивает алгоритмы. Если в документе таблица "нарисована" линиями, а не является настоящей таблицей — конвертер просто не поймёт, где заканчивается один столбец и начинается другой.
В таких случаях я обычно пробую два-три сервиса и сравниваю. Один может вытащить данные ровно, а другой на том же файле — наколбасить. Универсального решения тут нет, зависит от конкретного документа.
Что нужно знать перед выбором
Первое — почти все эти сервисы бесплатны, но с ограничениями. Если таблица одна и задача разовая — проблем не будет. Для ежедневной работы готовьтесь к платной подписке.
Второе — не все справляются со сканами. Если ваш PDF — это фото документа, вам нужен конвертер с OCR. Tabula, например, со сканами вообще не работает.
Третье — если вам принципиально получить данные в Google Sheets, а не в Excel, то прямую выгрузку поддерживают не все. Большинство конвертеров выдают Excel-файл, который потом сами загружаете в гугл-таблицы. Кажется мелочью, но когда делаешь это каждый день — раздражает.
Все сервисы кроме Tabula работают прямо в браузере, в том числе с телефона.
