Product:

Get started

Release notes

Viewer

Basic operations

Learn more

Annotation

MS Office

Generate via template

Conversion

Smart Data Extraction

Overview

Setup

Document Classification

Document Structure

Tabular Data

Form Field

Key Value Pairs

Barcode

Deployment Optimization

Samples

APIs

Augmenting LLMs with Smart Data Extraction

PDF/A

Accessibility

Forms

Create

Page manipulation

PDF Editing

OCR

Digital signature

Comparison

Bookmark

Optimization

Layer (OCG)

Redaction

Sanitization

Security

Portfolio

Low-level PDF API

Handwriting ICR

Changelogs

Smart Data Extraction on Server/Desktop

Requirements

View Demo

Package: Smart Data Extraction

Module: Data Extraction

Installation Instructions

This guide walks you through installing and configuring Apryse’s Data Extraction Module so you can start extracting data from PDFs quickly and reliably.

Trial mode page limit

When in trial mode, output is limited to 100 pages, and a random evaluation page is inserted in the output content. Once licensed, there is no page limit and the demo page will no longer be inserted.

Using PIP with Python

When using Python on Windows or Linux you can install the package via PIP with this command:

x64 is supported, but Arm and 32 bit are not.

sh

1pip install --extra-index-url=https://pypi.apryse.com apryse-data-extraction

Using NPM with Node.js

When using Node.js on Windows or Linux you can install the package via NPM with this command:

x64 is supported, but Arm and 32 bit are not.

sh

1npm install @pdftron/data-extraction

Installing directly on other platforms

For Windows, just copy DataExtractionModuleWindows.zip in your PDFNetC folder, then extract it locally. You should have files like:

x64 is supported, but Arm and 32 bit are not.

Lib\Windows\StructuredOutput.exe
Lib\Windows\OCRModule.exe
Lib\Windows\TabularData\TabularData.dll
Lib\Windows\AIPageObjectExtractor\AIPageObjectExtractor.dll

For Linux, just copy DataExtractionModuleLinux.tar.gz in your PDFNetC directory, then extract it locally. You should have files like

Lib/Linux/StructuredOutput
Lib/Linux/OCRModule
Lib/Linux/TabularData/TabularData
Lib/Linux/AIPageObjectExtractor/AIPageObjectExtractor

JSON Output Specification

Refer to the following specifications to learn more about the output JSON format:

Usage

If you are using PIP or NPM, you may skip setting AddResourceSearchPath. Otherwise, follow the directions below.

The first thing to set up before the module can be used is the location of the Lib directory under which the external add-ons are installed, so that the SDK knows where to look for them. This is achieved via the PDFNet AddResourceSearchPath function. If a relative path is used, it is based on the end-user executable.

1PDFNet.AddResourceSearchPath("../../../../../Lib/");

1PDFNet::AddResourceSearchPath("../../../Lib/");

1PDFNetAddResourceSearchPath("../../../PDFNetC/Lib/")

1PDFNet.addResourceSearchPath("../../../Lib/");

1await PDFNet.addResourceSearchPath('../../lib/');

1PDFNet::AddResourceSearchPath("../../../PDFNetC/Lib/");

1PDFNet.AddResourceSearchPath("../../../PDFNetC/Lib/")

1PDFNet.AddResourceSearchPath("../../../PDFNetC/Lib/")

1PDFNet.AddResourceSearchPath("../../../../../Lib/")

Note: do not specify the actual Windows, Linux, MacOS directory, where the individual executables are, but its parent folder.

For error handling purposes, it is generally advisable to test whether the module is available via the IsModuleAvailable function. Since the Data Extraction suite consists of multiple modules, an extra parameter is used to clarify the component to test.

1if (!DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_tabular))
2{
3   // Unable to run Data Extraction: PDFTron SDK Tabular Data module not available.
4}
5if (!DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_doc_structure))
6{
7   // Unable to run Data Extraction: PDFTron SDK Structured Output module not available.
8}
9if (!DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_form))
10{
11   // Unable to run Data Extraction: PDFTron SDK AIFormFieldExtractor module not available.
12}
13if (!DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_generic_key_value))
14{
15   // Unable to run Data Extraction: PDFTron SDK AIGenericKeyValue module not available.
16}
17if (!DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_doc_classification))
18{
19   // Unable to run Data Extraction: PDFTron SDK AIDocClassification module not available.
20}

1if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_Tabular))
2{
3   // Unable to run Data Extraction: PDFTron SDK Tabular Data module not available.
4}
5if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_DocStructure))
6{
7   // Unable to run Data Extraction: PDFTron SDK Structured Output module not available.
8}
9if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_Form))
10{
11   // Unable to run Data Extraction: PDFTron SDK AIFormFieldExtractor module not available.
12}
13if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_GenericKeyValue))
14{
15   // Unable to run Data Extraction: PDFTron SDK AIGenericKeyValue module not available.
16}
17if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_DocClassification))
18{
19   // Unable to run Data Extraction: PDFTron SDK AIDocClassification module not available.
20}

1if !DataExtractionModuleIsModuleAvailable(DataExtractionModuleE_Tabular) {
2   // Unable to run Data Extraction: PDFTron SDK Tabular Data module not available.
3}
4if !DataExtractionModuleIsModuleAvailable(DataExtractionModuleE_DocStructure) {
5   // Unable to run Data Extraction: PDFTron SDK Structured Output module not available.
6}
7if !DataExtractionModuleIsModuleAvailable(DataExtractionModuleE_Form) {
8   // Unable to run Data Extraction: PDFTron SDK AIFormFieldExtractor module not available.
9}
10if !DataExtractionModuleIsModuleAvailable(DataExtractionModuleE_GenericKeyValue) {
11   // Unable to run Data Extraction: PDFTron SDK AIGenericKeyValue module not available.
12}
13if !DataExtractionModuleIsModuleAvailable(DataExtractionModuleE_DocClassification) {
14   // Unable to run Data Extraction: PDFTron SDK AIDocClassification module not available.
15}

1if (!DataExtractionModule.isModuleAvailable(DataExtractionModule.DataExtractionEngine.e_tabular))
2{
3   // Unable to run Data Extraction: PDFTron SDK Tabular Data module not available.
4}
5if (!DataExtractionModule.isModuleAvailable(DataExtractionModule.DataExtractionEngine.e_doc_structure))
6{
7   // Unable to run Data Extraction: PDFTron SDK Structured Output module not available.
8}
9if (!DataExtractionModule.isModuleAvailable(DataExtractionModule.DataExtractionEngine.e_form))
10{
11   // Unable to run Data Extraction: PDFTron SDK AIFormFieldExtractor module not available.
12}
13if (!DataExtractionModule.isModuleAvailable(DataExtractionModule.DataExtractionEngine.e_generic_key_value))
14{
15   // Unable to run Data Extraction: PDFTron SDK AIGenericKeyValue module not available.
16}
17if (!DataExtractionModule.isModuleAvailable(DataExtractionModule.DataExtractionEngine.e_doc_classification))
18{
19   // Unable to run Data Extraction: PDFTron SDK AIDocClassification module not available.
20}

1if (!await PDFNet.DataExtractionModule.isModuleAvailable(PDFNet.DataExtractionModule.DataExtractionEngine.e_Tabular)) {
2   // Unable to run Data Extraction: PDFTron SDK Tabular Data module not available.
3}
4if (!await PDFNet.DataExtractionModule.isModuleAvailable(PDFNet.DataExtractionModule.DataExtractionEngine.e_DocStructure)) {
5   // Unable to run Data Extraction: PDFTron SDK Structured Output module not available.
6}
7if (!await PDFNet.DataExtractionModule.isModuleAvailable(PDFNet.DataExtractionModule.DataExtractionEngine.e_Form)) {
8   // Unable to run Data Extraction: PDFTron SDK AIFormFieldExtractor module not available.
9}
10if (!await PDFNet.DataExtractionModule.isModuleAvailable(PDFNet.DataExtractionModule.DataExtractionEngine.e_GenericKeyValue)) {
11   // Unable to run Data Extraction: PDFTron SDK AIGenericKeyValue module not available.
12}
13if (!await PDFNet.DataExtractionModule.isModuleAvailable(PDFNet.DataExtractionModule.DataExtractionEngine.e_DocClassification)) {
14   // Unable to run Data Extraction: PDFTron SDK AIDocClassification module not available.
15}

1if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_Tabular)) {
2   // Unable to run Data Extraction: PDFTron SDK Tabular Data module not available.
3}
4if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_DocStructure)) {
5   // Unable to run Data Extraction: PDFTron SDK Structured Output module not available.
6}
7if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_Form)) {
8   // Unable to run Data Extraction: PDFTron SDK AIFormFieldExtractor module not available.
9}
10if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_GenericKeyValue)) {
11   // Unable to run Data Extraction: PDFTron SDK AIGenericKeyValue module not available.
12}
13if (!DataExtractionModule::IsModuleAvailable(DataExtractionModule::e_DocClassification)) {
14   // Unable to run Data Extraction: PDFTron SDK AIDocClassification module not available.
15}

1if not DataExtractionModule.IsModuleAvailable(DataExtractionModule.e_Tabular):
2   pass # Unable to run Data Extraction: PDFTron SDK Tabular Data module not available.
3if not DataExtractionModule.IsModuleAvailable(DataExtractionModule.e_DocStructure):
4   pass # Unable to run Data Extraction: PDFTron SDK Structured Output module not available.
5if not DataExtractionModule.IsModuleAvailable(DataExtractionModule.e_Form):
6   pass # Unable to run Data Extraction: PDFTron SDK AIFormFieldExtractor module not available.
7if not DataExtractionModule.IsModuleAvailable(DataExtractionModule.e_GenericKeyValue):
8   pass # Unable to run Data Extraction: PDFTron SDK AIGenericKeyValue module not available.
9if not DataExtractionModule.IsModuleAvailable(DataExtractionModule.e_DocClassification):
10   pass # Unable to run Data Extraction: PDFTron SDK AIDocClassification module not available.

1if !DataExtractionModule.IsModuleAvailable(DataExtractionModule::E_Tabular) then
2   # Unable to run Data Extraction: PDFTron SDK Tabular Data module not available.
3end
4if !DataExtractionModule.IsModuleAvailable(DataExtractionModule::E_DocStructure) then
5   # Unable to run Data Extraction: PDFTron SDK Structured Output module not available.
6end
7if !DataExtractionModule.IsModuleAvailable(DataExtractionModule::E_Form) then
8   # Unable to run Data Extraction: PDFTron SDK AIFormFieldExtractor module not available.
9end
10if !DataExtractionModule.IsModuleAvailable(DataExtractionModule::E_GenericKeyValue) then
11   # Unable to run Data Extraction: PDFTron SDK AIGenericKeyValue module not available.
12end
13if !DataExtractionModule.IsModuleAvailable(DataExtractionModule::E_DocClassification) then
14   # Unable to run Data Extraction: PDFTron SDK AIDocClassification module not available.
15end

1If Not DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_tabular) Then
2   ' Unable to run Data Extraction: PDFTron SDK Tabular Data module not available.
3End If
4If Not DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_doc_structure) Then
5   ' Unable to run Data Extraction: PDFTron SDK Structured Output module not available.
6End If
7If Not DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_form) Then
8   ' Unable to run Data Extraction: PDFTron SDK AIFormFieldExtractor module not available.
9End If
10If Not DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_generic_key_value) Then
11   ' Unable to run Data Extraction: PDFTron SDK AIGenericKeyValue module not available.
12End If
13If Not DataExtractionModule.IsModuleAvailable(DataExtractionModule.DataExtractionEngine.e_doc_classification) Then
14   ' Unable to run Data Extraction: PDFTron SDK AIDocClassification module not available.
15End If

If you have the module installed but the function still returns false, please double check that the correct path was used in AddResourceSearchPath earlier.

Data Extraction Options

Although the default options will satisfy most common use cases, we offer a couple of options to customize the extraction behavior and unlock lesser-used functionality.

The options object is passed as the last parameter to any extraction function, as shown below.

Select OCR Language

Use the Language option to set the preferred OCR language(s). If you work with scanned documents in languages other than English, specify one or more 3-letter ISO 639-2 language codes, separated by spaces. For example, "eng deu spa fra" for English, German, Spanish, French. You may also use comma or plus as a separator.

Supported languages:

eng: English
deu or ger: German
fra or fre: French
ita: Italian
rus: Russian
spa: Spanish

Note: Listing too many languages at once may hurt performance and accuracy. If you know the exact language, it is always best to use that single setting.

1DataExtractionOptions options = new DataExtractionOptions();
2options.SetLanguage("fra spa"); // French and Spanish
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular, options);

1DataExtractionOptions options;
2options.SetLanguage("fra spa"); // French and Spanish
3DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_Tabular, &options);

1options := NewDataExtractionOptions()
2options.SetLanguage("fra spa"); // French and Spanish
3DataExtractionModuleExtractData("table.pdf", "table.json", DataExtractionModuleE_Tabular, options)

1DataExtractionOptions options = new DataExtractionOptions();
2options.setLanguage("fra spa"); // French and Spanish
3DataExtractionModule.extractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular, options);

1const options = new PDFNet.DataExtractionModule.DataExtractionOptions();
2options.setLanguage("fra spa"); // French and Spanish
3await PDFNet.DataExtractionModule.extractData('table.pdf', 'table.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_Tabular, options);

1$options = new DataExtractionOptions();
2$options.setLanguage("fra spa"); // French and Spanish
3DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_Tabular, $options);

1options = DataExtractionOptions()
2options.SetLanguage("fra spa") # French and Spanish
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.e_Tabular, options)

1options = DataExtractionOptions.new()
2options.SetLanguage("fra spa") # French and Spanish
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule::E_Tabular, options)

1Dim options As DataExtractionOptions = New DataExtractionOptions()
2options.SetLanguage("fra spa") ' French and Spanish
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular, options)

Specify PDF Password

Use the PDFPassword option to specify a PDF password if one is required.

Encrypted PDF files that are protected by a password may only be opened when the password is specified in addition to the filename. No password is necessary for files that can be viewed without any authentication.

1DataExtractionOptions options = new DataExtractionOptions();
2options.SetPDFPassword("password123"); // password for input PDF
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular, options);

1DataExtractionOptions options;
2options.SetPDFPassword("password123"); // password for input PDF
3DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_Tabular, &options);

1options := NewDataExtractionOptions()
2options.SetPDFPassword("password123") // password for input PDF
3DataExtractionModuleExtractData("table.pdf", "table.json", DataExtractionModuleE_Tabular, options)

1DataExtractionOptions options = new DataExtractionOptions();
2options.setPDFPassword("password123"); // password for input PDF
3DataExtractionModule.extractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular, options);

1const options = new PDFNet.DataExtractionModule.DataExtractionOptions();
2options.setPDFPassword("password123"); // password for input PDF
3await PDFNet.DataExtractionModule.extractData('table.pdf', 'table.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_Tabular, options);

1$options = new DataExtractionOptions();
2$options.setPDFPassword("password123"); // password for input PDF
3DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_Tabular, $options);

1options = DataExtractionOptions()
2options.SetPDFPassword("password123") # password for input PDF
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.e_Tabular, options)

1options = DataExtractionOptions.new()
2options.SetPDFPassword("password123") # password for input PDF
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule::E_Tabular, options)

1Dim options As DataExtractionOptions = New DataExtractionOptions()
2options.SetPDFPassword("password123") ' password for input PDF
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular, options)

Select a Page Range

Use the Pages option to restrict the extraction to a selected range of pages.

This can be a single page number (such as "1" for the first page), or a range separated by a dash (such as "1-5", or "7-" for 7 and beyond). An empty string means all pages are extracted.

1DataExtractionOptions options = new DataExtractionOptions();
2options.SetPages("1"); // extract page 1
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular, options);

1DataExtractionOptions options;
2options.SetPages("1"); // extract page 1
3DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_Tabular, &options);

1options := NewDataExtractionOptions()
2options.SetPages("1") // page 1
3DataExtractionModuleExtractData("table.pdf", "table.json", DataExtractionModuleE_Tabular, options)

1DataExtractionOptions options = new DataExtractionOptions();
2options.setPages("1"); // extract page 1
3DataExtractionModule.extractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular, options);

1const options = new PDFNet.DataExtractionModule.DataExtractionOptions();
2options.setPages("1"); // page 1
3await PDFNet.DataExtractionModule.extractData('table.pdf', 'table.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_Tabular, options);

1$options = new DataExtractionOptions();
2$options.setPages("1"); // page 1
3DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_Tabular, $options);

1options = DataExtractionOptions()
2options.SetPages("1") # page 1
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.e_Tabular, options)

1options = DataExtractionOptions.new()
2options.SetPages("1") # page 1
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule::E_Tabular, options)

1Dim options As DataExtractionOptions = New DataExtractionOptions()
2options.SetPages("1") ' extract page 1
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_tabular, options)

Specify Regions of Interest

You can specify regions to include or exclude from analysis for each page in a document using the Inclusion Zone and Exclusion Zone options for a page. These options specify rectangles in user-space coordinates that allow developers to either include or exclude a region from analysis. For example, if a document has a table that you don't want to analyze, you could specify it's bounding box as an exclusion zone, or if a document has only one paragraph that you care about, you could use an inclusion zone. If no zones are specified for a page, the entire page is included in analysis.

Inclusion and exclusion zones can be combined to create complex regions of interest. Inclusions zones are combined by union, and exclusion zones are subtracted.

This option is only supported for the Form, FormKeyValue, and GenericKeyValue engines at this time.

Inclusion and Exclusion example

1DataExtractionOptions options = new DataExtractionOptions();
2
3RectCollection p4InclusionZones = new RectCollection();
4RectCollection p4ExclusionZones = new RectCollection();
5p4InclusionZones.AddRect(30, 432, 562, 684);
6p4ExclusionZones.AddRect(30, 657, 295, 684);
7options.AddInclusionZonesForPage(p4InclusionZones, 4);
8options.AddExclusionZonesForPage(p4ExclusionZones, 4);
9
10DataExtractionModule.ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule.DataExtractionEngine.e_generic_key_value, options);

1DataExtractionOptions options;
2
3RectCollection p4_inclusion_zones, p4_exclusion_zones;
4p4_inclusion_zones.AddRect(30, 432, 562, 684);
5p4_exclusion_zones.AddRect(30, 657, 295, 684);
6options.AddInclusionZonesForPage(p4_inclusion_zones, 4);
7options.AddExclusionZonesForPage(p4_exclusion_zones, 4);
8
9DataExtractionModule::ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule::e_GenericKeyValue, &options);

1options := NewDataExtractionOptions()
2
3p4InclusionZones := NewRectCollection()
4p4ExclusionZones := NewRectCollection()
5p4InclusionZones.AddRect(NewRect(30, 432, 562, 684))
6p4ExclusionZones.AddRect(NewRect(30, 657, 295, 684))
7options.AddInclusionZonesForPage(p4InclusionZones, 4)
8options.AddExclusionZonesForPage(p4ExclusionZones, 4)
9
10DataExtractionModuleExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModuleE_GenericKeyValue, options)

1DataExtractionOptions options = new DataExtractionOptions();
2
3RectCollection p4InclusionZones = new RectCollection();
4RectCollection p4ExclusionZones = new RectCollection();
5p4InclusionZones.addRect(30, 432, 562, 684);
6p4ExclusionZones.addRect(30, 657, 295, 684);
7options.addInclusionZonesForPage(p4InclusionZones, 4);
8options.addExclusionZonesForPage(p4ExclusionZones, 4);
9
10DataExtractionModule.extractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule.DataExtractionEngine.e_generic_key_value, options);

1const options = new PDFNet.DataExtractionModule.DataExtractionOptions();
2					
3const p4InclusionZones = [];
4const p4ExclusionZones = [];
5p4InclusionZones.push(new PDFNet.Rect(30, 432, 562, 684));
6p4ExclusionZones.push(new PDFNet.Rect(30, 657, 295, 684));
7options.addInclusionZonesForPage(p4InclusionZones, 4);
8options.addExclusionZonesForPage(p4ExclusionZones, 4);
9
10await PDFNet.DataExtractionModule.extractData('newsletter.pdf', 'newsletter_key_val_with_zones.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_GenericKeyValue, options);

1$options = new DataExtractionOptions();
2
3$p4InclusionZones = new RectCollection();
4$p4ExclusionZones = new RectCollection();
5$p4InclusionZones->AddRect(new Rect(30.0, 432.0, 562.0, 684.0));
6$p4ExclusionZones->AddRect(new Rect(30.0, 657.0, 295.0, 684.0));
7$options->AddInclusionZonesForPage($p4InclusionZones, 4);
8$options->AddExclusionZonesForPage($p4ExclusionZones, 4);
9
10DataExtractionModule::ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule::e_GenericKeyValue, $options);

1options = DataExtractionOptions()
2
3p4_inclusion_zones = RectCollection()
4p4_exclusion_zones = RectCollection()
5p4_inclusion_zones.AddRect(Rect(30, 432, 562, 684))
6p4_exclusion_zones.AddRect(Rect(30, 657, 295, 684))
7options.AddInclusionZonesForPage(p4_inclusion_zones, 4)
8options.AddExclusionZonesForPage(p4_exclusion_zones, 4)
9
10DataExtractionModule.ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule.e_GenericKeyValue, options)

1options = DataExtractionOptions.new()
2
3p4_inclusion_zones = RectCollection.new()
4p4_exclusion_zones = RectCollection.new()
5p4_inclusion_zones.AddRect(Rect.new(30, 432, 562, 684))
6p4_exclusion_zones.AddRect(Rect.new(30, 657, 295, 684))
7options.AddInclusionZonesForPage(p4_inclusion_zones, 4)
8options.AddExclusionZonesForPage(p4_exclusion_zones, 4)
9
10DataExtractionModule.ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule::E_GenericKeyValue, options)

1Dim options As New DataExtractionOptions()
2
3Dim p4InclusionZones As New RectCollection()
4Dim p4ExclusionZones As New RectCollection()
5p4InclusionZones.AddRect(30, 432, 562, 684)
6p4ExclusionZones.AddRect(30, 657, 295, 684)
7options.AddInclusionZonesForPage(p4InclusionZones, 4)
8options.AddExclusionZonesForPage(p4ExclusionZones, 4)
9
10DataExtractionModule.ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json",DataExtractionModule.DataExtractionEngine.e_generic_key_value, options)

Deep Learning Assist

Specifies if Deep Learning is used with table recognition in the DocStructure engine. Table recognition accuracy improves at the cost of increased processing time. This only affects the DocStructure engine.

1DataExtractionOptions options = new DataExtractionOptions();
2options.SetDeepLearningAssist(true); // Enable Deep learning assistant
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_DocStructure, options);

1DataExtractionOptions options;
2options.SetDeepLearningAssist(true); // Enable Deep learning assistant
3DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_DocStructure, &options);

1options := NewDataExtractionOptions()
2options.SetDeepLearningAssist(true) // Enable Deep learning assistant
3DataExtractionModuleExtractData("table.pdf", "table.json", DataExtractionModuleE_DocStructure, options)

1DataExtractionOptions options = new DataExtractionOptions();
2options.setDeepLearningAssist(true); // Enable Deep learning assistant
3DataExtractionModule.extractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_DocStructure, options);

1const options = new PDFNet.DataExtractionModule.DataExtractionOptions();
2options.setDeepLearningAssist(true); // Enable Deep learning assistant
3await PDFNet.DataExtractionModule.extractData('table.pdf', 'table.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_DocStructure, options);

1$options = new DataExtractionOptions();
2$options.setDeepLearningAssist(true); // Enable Deep learning assistant
3DataExtractionModule::ExtractData("table.pdf", "table.json", DataExtractionModule::e_DocStructure, $options);

1options = DataExtractionOptions()
2options.SetDeepLearningAssist(True) # Enable Deep learning assistant
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.e_DocStructure, options)

1options = DataExtractionOptions.new()
2options.SetDeepLearningAssist(true) # Enable Deep learning assistant
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule::E_DocStructure, options)

1Dim options As DataExtractionOptions = New DataExtractionOptions()
2options.SetDeepLearningAssist(True) ' Enable Deep learning assistant
3DataExtractionModule.ExtractData("table.pdf", "table.json", DataExtractionModule.DataExtractionEngine.e_DocStructure, options)

Preserve existing form fields when adding to PDF

When automatically detecting form fields and adding them to a document, you can force the module to preserve any existing form annotations that are already present in the document, only adding newly detected fields.

1PDFDoc doc = new PDFDoc("formfields.pdf");
2DataExtractionOptions options = new DataExtractionOptions();
3options.SetOverlappingFormFieldBehavior("KeepOld");
4DataExtractionModule.DetectAndAddFormFieldsToPDF(doc, options);

1PDFDoc doc("formfields.pdf");
2DataExtractionOptions options;
3options.SetOverlappingFormFieldBehavior("KeepOld");
4DataExtractionModule::DetectAndAddFormFieldsToPDF(doc, &options);

1doc = NewPDFDoc("formfields.pdf")
2options := NewDataExtractionOptions()
3options.SetOverlappingFormFieldBehavior("KeepOld")
4DataExtractionModuleDetectAndAddFormFieldsToPDF(doc, options)

1PDFDoc doc = new PDFDoc("formfields.pdf");
2DataExtractionOptions options = new DataExtractionOptions();
3options.setOverlappingFormFieldBehavior("KeepOld");
4DataExtractionModule.detectAndAddFormFieldsToPDF(doc, options);

1const doc = await PDFNet.PDFDoc.createFromFilePath("formfields.pdf");
2const options = new PDFNet.DataExtractionModule.DataExtractionOptions();
3options.setOverlappingFormFieldBehavior('KeepOld');
4await PDFNet.DataExtractionModule.detectAndAddFormFieldsToPDF(doc, options);

1$doc = new PDFDoc("formfields.pdf");
2$options = new DataExtractionOptions();
3$options->SetOverlappingFormFieldBehavior("KeepOld");
4DataExtractionModule::DetectAndAddFormFieldsToPDF($doc, $options);

1doc = PDFDoc("formfields.pdf")
2options = DataExtractionOptions()
3options.SetOverlappingFormFieldBehavior("KeepOld")
4DataExtractionModule.DetectAndAddFormFieldsToPDF(doc, options)

1doc = PDFDoc.new("formfields.pdf")
2options = DataExtractionOptions.new()
3options.SetOverlappingFormFieldBehavior("KeepOld")
4DataExtractionModule.DetectAndAddFormFieldsToPDF(doc, options)

1Dim doc as PDFDoc = New PDFDoc("formfields.pdf")
2Dim options = New DataExtractionOptions()
3options.SetOverlappingFormFieldBehavior("KeepOld")
4DataExtractionModule.DetectAndAddFormFieldsToPDF(doc, options)

Detect Empty Fields

NEW FEATURE

New in 11.8!

Specifies if empty fields should be recognized in the GenericKeyValue engine. The default is true. Users who don't require empty fields could benefit from setting this option to false, thus reducing processing time.

This option only affects the GenericKeyValue engine.

1DataExtractionOptions options = new DataExtractionOptions();
2options.SetDetectEmptyFields(false);
3DataExtractionModule.ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule.DataExtractionEngine.e_generic_key_value, options);

1DataExtractionOptions options;
2options.SetDetectEmptyFields(false);
3DataExtractionModule::ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule::e_GenericKeyValue, &options);

1options := NewDataExtractionOptions()
2options.SetDetectEmptyFields(false)
3DataExtractionModuleExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModuleE_GenericKeyValue, options)

1DataExtractionOptions options = new DataExtractionOptions();
2options.setDetectEmptyFields(false);
3DataExtractionModule.extractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule.DataExtractionEngine.e_generic_key_value, options);

1const options = new PDFNet.DataExtractionModule.DataExtractionOptions();
2options.setDetectEmptyFields(false);
3await PDFNet.DataExtractionModule.extractData('newsletter.pdf', 'newsletter_key_val_with_zones.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_GenericKeyValue, options);

1$options = new DataExtractionOptions();
2$options->SetDetectEmptyFields(false);
3DataExtractionModule::ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule::e_GenericKeyValue, $options);

1options = DataExtractionOptions()
2options.SetDetectEmptyFields(False)
3DataExtractionModule.ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule.e_GenericKeyValue, options)

1options = DataExtractionOptions.new()
2options.SetDetectEmptyFields(false)
3DataExtractionModule.ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json", DataExtractionModule::E_GenericKeyValue, options)

1Dim options = New DataExtractionOptions()
2options.SetDetectEmptyFields(False)
3DataExtractionModule.ExtractData("newsletter.pdf", "newsletter_key_val_with_zones.json",DataExtractionModule.DataExtractionEngine.e_generic_key_value, options)

Minimum Confidence Threshold

NEW FEATURE

New in 11.8!

Specifies the minimum confidence threshold for a class to be accepted in the DocClassification engine. The default is 0.25. Classes that don't meet the minimum threshold will not be listed in the output JSON.

This option only affects the DocClassification engine.

1DataExtractionOptions options = new DataExtractionOptions();
2options.SetMinimumConfidenceThreshold(0.7);
3DataExtractionModule.ExtractData("Email.pdf", "Email_Classified.json", DataExtractionModule.DataExtractionEngine.e_doc_classification, options);

1DataExtractionOptions options;
2options.SetMinimumConfidenceThreshold(0.7);
3DataExtractionModule::ExtractData("Email.pdf", "Email_Classified.json", DataExtractionModule::e_DocClassification, &options);

1options := NewDataExtractionOptions()
2options.SetMinimumConfidenceThreshold(0.7)
3DataExtractionModuleExtractData("Email.pdf", "Email_Classified.json", DataExtractionModuleE_DocClassification, options)

1DataExtractionOptions options = new DataExtractionOptions();
2options.setMinimumConfidenceThreshold(0.7);
3DataExtractionModule.extractData("Email.pdf", "Email_Classified.json", DataExtractionModule.DataExtractionEngine.e_doc_classification, options);

1const options = new PDFNet.DataExtractionModule.DataExtractionOptions();
2options.setMinimumConfidenceThreshold(0.7);
3await PDFNet.DataExtractionModule.extractData('Email.pdf', 'Email_Classified.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_DocClassification, options);

1$options = new DataExtractionOptions();
2$options->SetMinimumConfidenceThreshold(0.7);
3DataExtractionModule::ExtractData("Email.pdf", "Email_Classified.json", DataExtractionModule::e_DocClassification, $options);

1options = DataExtractionOptions()
2options.SetMinimumConfidenceThreshold(0.7)
3DataExtractionModule.ExtractData("Email.pdf", "Email_Classified.json", DataExtractionModule.e_DocClassification, options)

1options = DataExtractionOptions.new()
2options.SetMinimumConfidenceThreshold(0.7)
3DataExtractionModule.ExtractData("Email.pdf", "Email_Classified.json", DataExtractionModule::E_DocClassification, options)

1Dim options = New DataExtractionOptions()
2options.SetMinimumConfidenceThreshold(0.7)
3DataExtractionModule.ExtractData("Email.pdf", "Email_Classified.json", DataExtractionModule.DataExtractionEngine.e_doc_classification, options)

Did you find this helpful?

Trial setup questions?

Ask experts on Discord

Need other help?

Contact Support

Pricing or product questions?

Contact Sales

Product:

Product:

Smart Data Extraction on Server/Desktop

Installation Instructions

Trial mode page limit

Using PIP with Python

sh

Using NPM with Node.js

sh

Installing directly on other platforms

JSON Output Specification

Usage

Data Extraction Options

Select OCR Language

Specify PDF Password

Select a Page Range

Specify Regions of Interest

Inclusion and Exclusion example

Deep Learning Assist

Preserve existing form fields when adding to PDF

Detect Empty Fields

NEW FEATURE

Minimum Confidence Threshold

NEW FEATURE

On this page