Product:

Get started

Viewer

Basic operations

Learn more

Annotation

MS Office

Generate via template

Conversion

Smart Data Extraction

Overview

Setup

Document Structure

Tabular Data

Form Field

Key Value Pairs

Barcode

Deployment Optimization

Samples

APIs

Augmenting LLMs with Smart Data Extraction

PDF/A

Accessibility

Forms

Create

Page manipulation

PDF Editing

OCR

Digital signature

Comparison

Bookmark

Optimization

Layer (OCG)

Redaction

Security

Portfolio

Low-level PDF API

Changelogs

Tabular Data Extraction

Apryse's Tabular Data Extraction engine transforms PDFs with tables into clean, structured outputs you can use in spreadsheets, analytics tools, or downstream systems. Whether you're processing invoices, reports, or research data, this engine helps you turn visual tables into machine-readable formats.

How It Works

The engine detects the row and column structure across pages and consolidates all text into a structured table. It's designed to handle both native and scanned PDFs with a strong focus on numerical and tabular data.

You can export the data as:

JSON (ideal for programmatic use)
Excel (XLSX) (ideal for business workflows)

Extract tabular data as JSON file

Specify the name of the input PDF file and the name of the output JSON file, then select the Tabular engine:

1DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular);

1DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_Tabular);

1DataExtractionModuleExtractData("table.pdf", "table.json", DataExtractionModuleE_Tabular)

1DataExtractionModule.extractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular);

1await PDFNet.DataExtractionModule.extractData('table.pdf', 'table.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_Tabular);

1DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_Tabular);

1DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.e_Tabular)

1DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule::E_Tabular)

1DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular)

Extract tabular data as JSON string

If you are going to parse the JSON right away, you may as well retrieve it as an in-memory string, instead of an external file.

Specify the name of the input PDF file, then select the Tabular engine:

1string json = DataExtractionModule.ExtractData("financial.pdf", DataExtractionModule.DataExtractionEngine.e_tabular);

1UString json = DataExtractionModule::ExtractData("financial.pdf", DataExtractionModule::e_Tabular);

1json := DataExtractionModuleExtractData("financial.pdf", DataExtractionModuleE_Tabular).(string)

1String json = DataExtractionModule.extractData("financial.pdf", DataExtractionModule.DataExtractionEngine.e_tabular);

1const json = await PDFNet.DataExtractionModule.extractDataAsString('financial.pdf', PDFNet.DataExtractionModule.DataExtractionEngine.e_Tabular);

1$json = DataExtractionModule::ExtractData("financial.pdf", DataExtractionModule::e_Tabular);

1json = DataExtractionModule.ExtractData("financial.pdf", DataExtractionModule.e_Tabular)

1json = DataExtractionModule.ExtractData("financial.pdf", DataExtractionModule::E_Tabular)

1Dim json As String = DataExtractionModule.ExtractData("financial.pdf", DataExtractionModule.DataExtractionEngine.e_tabular)

Extract tabular data as Excel file

Specify the name of the input PDF file and the name of the output XLSX file:

1DataExtractionModule.ExtractToXLSX("table.pdf", "table.xlsx");

1DataExtractionModule::ExtractToXLSX("table.pdf", "table.xlsx");

1DataExtractionModuleExtractToXLSX("table.pdf", "table.xlsx")

1DataExtractionModule.extractToXLSX("table.pdf", "table.xlsx");

1await PDFNet.DataExtractionModule.extractToXLSX('table.pdf', 'table.xlsx');

1DataExtractionModule::ExtractToXLSX("table.pdf", "table.xlsx");

1DataExtractionModule.ExtractToXLSX("table.pdf", "table.xlsx")

1DataExtractionModule.ExtractToXLSX("table.pdf", "table.xlsx")

1DataExtractionModule.ExtractToXLSX("table.pdf", "table.xlsx")

Extract tabular data as Excel stream

Specify the name of the input PDF file and an output filter, such as MemoryFilter:

1MemoryFilter output_xlsx_stream = new MemoryFilter(0, false);
2DataExtractionModule.ExtractToXLSX("financial.pdf", output_xlsx_stream);

1MemoryFilter output_xlsx_stream(0, false);
2DataExtractionModule::ExtractToXLSX("financial.pdf", output_xlsx_stream);

1outputXlsxStream := NewMemoryFilter(0, false)
2DataExtractionModuleExtractToXLSX("financial.pdf", outputXlsxStream)

1MemoryFilter output_xlsx_stream = new MemoryFilter(0, false);
2DataExtractionModule.extractToXLSX("financial.pdf", output_xlsx_stream);

1const outputXlsxStream = PDFNet.Filters.MemoryFilter(0, false);
2await PDFNet.DataExtractionModule.extractToXLSX('financial.pdf', outputXlsxStream);

1$outputXlsxStream = new MemoryFilter(0, false);
2DataExtractionModule::ExtractToXLSX("financial.pdf", $outputXlsxStream);

1outputXlsxStream = Filters.MemoryFilter(0, False)
2DataExtractionModule.ExtractToXLSX("financial.pdf", outputXlsxStream)

1outputXlsxStream = Filters.MemoryFilter.new(0, false)
2DataExtractionModule.ExtractToXLSX("financial.pdf", outputXlsxStream)

1Dim output_xlsx_stream As MemoryFilter = New MemoryFilter(0, False)
2DataExtractionModule.ExtractToXLSX("financial.pdf", output_xlsx_stream)

Optional Configuration

Select OCR Language

Password-Protected PDFs

Page Range

Best Use Cases

Financial statements
Invoices and billing reports
Research tables
Survey exports
Any document where tabular data is the core structure

Did you find this helpful?

Trial setup questions?

Ask experts on Discord

Need other help?

Contact Support

Pricing or product questions?

Contact Sales

Product:

Product:

Tabular Data Extraction

How It Works

Extract tabular data as JSON file

Extract tabular data as JSON string

Extract tabular data as Excel file

Extract tabular data as Excel stream

Optional Configuration

Best Use Cases

On this page