Product:

Get started

Release notes

Viewer

Basic operations

Learn more

Annotation

MS Office

Generate via template

Conversion

Smart Data Extraction

Overview

Setup

Document Classification

Document Structure

Tabular Data

Form Field

Key Value Pairs

Barcode

Deployment Optimization

Samples

APIs

Augmenting LLMs with Smart Data Extraction

PDF/A

Accessibility

Forms

Create

Page manipulation

PDF Editing

OCR

Digital signature

Comparison

Bookmark

Optimization

Layer (OCG)

Redaction

Security

Portfolio

Low-level PDF API

Changelogs

Document Structure Recognition

Requirements

View Demo

Package: Smart Data Extraction

Module: Data Extraction

Document Structure Recognition

Apryse's Document Structure Recognition engine helps you capture the visual and logical layout of a document. Unlike tabular extraction, this mode is designed to mimic how a human sees the page — recognizing paragraphs, lists, headers, footers, and images as distinct blocks.

It's ideal for use cases involving:

Accessibility tagging (e.g., reading order)
Screen reading tools
Document reconstruction
Visual layout parsing

How It Works

The engine detects layout elements based on visual positioning, spacing, indentation, and structural boundaries. It separates:

Paragraphs and lists
Headers and footers
Section columns vs table columns
Tables embedded inside paragraphs
Images and graphical elements

JSON Output Specification

Refer to the following specifications to learn more about the output JSON format:

JSON Specification for Tabular Data and Document Structure

Extract document structure as JSON file

Specify the name of the input PDF file and the name of the output JSON file, then select the Doc Structure engine:

1DataExtractionModule.ExtractData("paragraphs_and_tables.pdf", "paragraphs_and_tables.json", DataExtractionModule.DataExtractionEngine.e_doc_structure);

1DataExtractionModule::ExtractData("paragraphs_and_tables.pdf", "paragraphs_and_tables.json", DataExtractionModule::e_DocStructure);

1DataExtractionModuleExtractData("paragraphs_and_tables.pdf", "paragraphs_and_tables.json", DataExtractionModuleE_DocStructure)

1DataExtractionModule.extractData("paragraphs_and_tables.pdf", "paragraphs_and_tables.json", DataExtractionModule.DataExtractionEngine.e_doc_structure);

1await PDFNet.DataExtractionModule.extractData('paragraphs_and_tables.pdf', 'paragraphs_and_tables.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_DocStructure);

1DataExtractionModule::ExtractData("paragraphs_and_tables.pdf", "paragraphs_and_tables.json", DataExtractionModule::e_DocStructure);

1DataExtractionModule.ExtractData("paragraphs_and_tables.pdf", "paragraphs_and_tables.json", DataExtractionModule.e_DocStructure)

1DataExtractionModule.ExtractData("paragraphs_and_tables.pdf", "paragraphs_and_tables.json", DataExtractionModule::E_DocStructure)

1DataExtractionModule.ExtractData("paragraphs_and_tables.pdf", "paragraphs_and_tables.json", DataExtractionModule.DataExtractionEngine.e_doc_structure)

Extract document structure as JSON string

If you are going to parse the JSON right away, you may as well retrieve it as an in-memory string, instead of an external file.

Specify the name of the input PDF file, then select the Doc Structure engine:

1string json = DataExtractionModule.ExtractData("tagged.pdf", DataExtractionModule.DataExtractionEngine.e_doc_structure);

1UString json = DataExtractionModule::ExtractData("tagged.pdf", DataExtractionModule::e_DocStructure);

1json := DataExtractionModuleExtractData("tagged.pdf", DataExtractionModuleE_DocStructure).(string)

1String json = DataExtractionModule.extractData("tagged.pdf", DataExtractionModule.DataExtractionEngine.e_doc_structure);

1const json = await PDFNet.DataExtractionModule.extractDataAsString('tagged.pdf', PDFNet.DataExtractionModule.DataExtractionEngine.e_DocStructure);

1$json = DataExtractionModule::ExtractData("tagged.pdf", DataExtractionModule::e_DocStructure);

1json = DataExtractionModule.ExtractData("tagged.pdf", DataExtractionModule.e_DocStructure)

1json = DataExtractionModule.ExtractData("tagged.pdf", DataExtractionModule::E_DocStructure)

1Dim json As String = DataExtractionModule.ExtractData("tagged.pdf", DataExtractionModule.DataExtractionEngine.e_doc_structure)

Optional Configurations

Select OCR Language

Password-Protected PDFs

Page Range

Deep Learning Assist

Did you find this helpful?

Trial setup questions?

Ask experts on Discord

Need other help?

Contact Support

Pricing or product questions?

Contact Sales

Product:

Product:

Document Structure Recognition

Document Structure Recognition

How It Works

JSON Output Specification

Extract document structure as JSON file

Extract document structure as JSON string

Optional Configurations

On this page