Время, необходимое нашему кластеру для вычислений
Posted: Thu Jul 10, 2025 6:18 am
примерно такое же, но если мы добавим графические процессоры, то сможем ускорить OCR и создание PDF-файлов, возможно, в 10 раз, что очень поможет, поскольку мы обрабатываем миллионы страниц в день.
Генерация PDF - это баланс между малым размером файла и быстрой отрисовкой в реализациях браузера, наличием полезной функциональности (поиск текста, номера страниц, вырезание и вставка текста), а также соответствием архивным (PDF/A) и стандартам доступности (PDF/UA). В основе нового поколения PDF лежит библиотека Python «archive-pdf-tools» , которая выполняет сжатие смешанного растрового содержимого (MRC) , создает скрытый текстовый слой с использованием модифицированного рендерера Tesseract PDF , который может читать файлы hOCR в качестве входных данных, и обеспечивает совместимость PDF-файлов с архивными стандартами ( VeraPDF используется для проверки каждого генерируемого нами PDF-Библиотека телефонных номеров на соответствие архивным стандартам PDF). Сжатие MRC разбивает каждое изображение на маску фона, переднего плана и переднего плана, сильно сжимая (а иногда и уменьшая масштаб) каждый слой отдельно. Маска сжимается без потерь, гарантируя, что текст и линии на изображении не страдают от артефактов сжатия и выглядят четкими. Используя этот метод, мы наблюдаем 10-кратный коэффициент сжатия для большинства наших книг.
Сами PDF-файлы созданы с использованием высокопроизводительной библиотеки Python mupdf и pymupdf : оба проекта оказали нам поддержку и оперативно исправили различные ошибки , что продвинуло наши усилия вперед.
И самое главное, мы расширили наше сообщество, включив в него людей со всего мира, которые вместе работают над повышением доступности культурных материалов. У нас теперь есть канал в Slack для исследователей и разработчиков OCR, к которому вы можете присоединиться, если хотите (чтобы присоединиться, напишите на [email protected] ). Мы стремимся предоставлять программное обеспечение и наборы данных для этих проектов, чтобы помочь им развиваться (руководители — Мерлийн Вайер и Дерек Фукумори).
Следующие шаги по воплощению мечты Memex Ваневара Буша, Xanadu Теда Нельсона, проекта Gutenberg Майкла Харта, Всемирной паутины Тима Бернерса-Ли, призыва Раджа Риди к всеобщему доступу ко всем знаниям (а теперь и заявления о миссии Архива Интернета):
Найти статьи в периодических изданиях и получить названия/авторов/сноски
Связывание ссылок в сносках с другими документами
Оптическое распознавание символов на балийских пальмовых листьях на основе 17 000 страниц, заполненных вручную .
Улучшение обработки страниц Tesseract для улучшения OCR и сегментации.
Улучшение создания epub-файлов, включая изображения со страниц
Улучшите OCRopus, создав обучающие наборы данных
Любая помощь здесь будет высоко оценена.
Спасибо вам, сообщества свободного и открытого ПО! Мы рады быть частью такого открытого и щедрого мира.
Генерация PDF - это баланс между малым размером файла и быстрой отрисовкой в реализациях браузера, наличием полезной функциональности (поиск текста, номера страниц, вырезание и вставка текста), а также соответствием архивным (PDF/A) и стандартам доступности (PDF/UA). В основе нового поколения PDF лежит библиотека Python «archive-pdf-tools» , которая выполняет сжатие смешанного растрового содержимого (MRC) , создает скрытый текстовый слой с использованием модифицированного рендерера Tesseract PDF , который может читать файлы hOCR в качестве входных данных, и обеспечивает совместимость PDF-файлов с архивными стандартами ( VeraPDF используется для проверки каждого генерируемого нами PDF-Библиотека телефонных номеров на соответствие архивным стандартам PDF). Сжатие MRC разбивает каждое изображение на маску фона, переднего плана и переднего плана, сильно сжимая (а иногда и уменьшая масштаб) каждый слой отдельно. Маска сжимается без потерь, гарантируя, что текст и линии на изображении не страдают от артефактов сжатия и выглядят четкими. Используя этот метод, мы наблюдаем 10-кратный коэффициент сжатия для большинства наших книг.
Сами PDF-файлы созданы с использованием высокопроизводительной библиотеки Python mupdf и pymupdf : оба проекта оказали нам поддержку и оперативно исправили различные ошибки , что продвинуло наши усилия вперед.
И самое главное, мы расширили наше сообщество, включив в него людей со всего мира, которые вместе работают над повышением доступности культурных материалов. У нас теперь есть канал в Slack для исследователей и разработчиков OCR, к которому вы можете присоединиться, если хотите (чтобы присоединиться, напишите на [email protected] ). Мы стремимся предоставлять программное обеспечение и наборы данных для этих проектов, чтобы помочь им развиваться (руководители — Мерлийн Вайер и Дерек Фукумори).
Следующие шаги по воплощению мечты Memex Ваневара Буша, Xanadu Теда Нельсона, проекта Gutenberg Майкла Харта, Всемирной паутины Тима Бернерса-Ли, призыва Раджа Риди к всеобщему доступу ко всем знаниям (а теперь и заявления о миссии Архива Интернета):
Найти статьи в периодических изданиях и получить названия/авторов/сноски
Связывание ссылок в сносках с другими документами
Оптическое распознавание символов на балийских пальмовых листьях на основе 17 000 страниц, заполненных вручную .
Улучшение обработки страниц Tesseract для улучшения OCR и сегментации.
Улучшение создания epub-файлов, включая изображения со страниц
Улучшите OCRopus, создав обучающие наборы данных
Любая помощь здесь будет высоко оценена.
Спасибо вам, сообщества свободного и открытого ПО! Мы рады быть частью такого открытого и щедрого мира.