Имеется несколько десятков PDF-файлов, структура текста которых одинакова. Требуется извлечь текст и таблицы, сохранив структуру исходного документа для последующего размещения в БД.
Пробовали использовать конвертеры, какие встретились проблемы: таблицы не распознаются, заголовки имеют разные стили отдельных символов одного слова. В любом случае, с конвертерами вся эта работа производится вручную, что просто неприемлемо для большого числа документов большого объема. Хотелось бы хоть как-то автоматизировать этот процесс. Есть идеи?