Product:

Get started

Viewer

Basic operations

Learn more

Annotation

MS Office

Generate via template

Conversion

Smart Data Extraction

Overview

Setup

Document Structure

Tabular Data

Form Field

Key Value Pairs

Barcode

Deployment Optimization

Samples

APIs

Augmenting LLMs with Smart Data Extraction

PDF/A

Accessibility

Forms

Create

Page manipulation

PDF Editing

OCR

Digital signature

Comparison

Bookmark

Optimization

Layer (OCG)

Redaction

Security

Portfolio

Low-level PDF API

Changelogs

Form Field Identification

Apryse's Form Field Identification engine helps you extract structured data from PDFs designed as forms, whether they're interactive or scanned. We currently offer 2 Form Field Identification Engines: "Form Field Detection" and "Form Field Key-Value Extraction".

Both engines require GLIBC 2.31 or newer on Linux, such as Debian 11 or Ubuntu 10.04 or newer

Form Field Detection Engine

Detects likely form fields in scanned or static PDFs based on layout and spacing. Supported field types include:

Text fields
Checkboxes
Radio buttons (coming soon)

Output:

Each detected field includes:

Field type (e.g., text, checkbox)
Bounding box coordinates
Confidence score

Form Field Key-Value Extraction Engine

In addition to detecting field positions, this engine attempts to match each field with a corresponding key (label) and value (user entry).

Output:

Field type
Key text
Value text
Confidence
Bounding box

Extract form fields as JSON file

Specify the name of the input PDF file and the name of the output JSON file, then select the Form engine:

1DataExtractionModule.ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule.DataExtractionEngine.e_form);

1DataExtractionModule::ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule::e_Form);

1DataExtractionModuleExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModuleE_Form)

1DataExtractionModule.extractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule.DataExtractionEngine.e_form);

1await PDFNet.DataExtractionModule.extractData('formfields-scanned.pdf', 'formfields-scanned.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_Form);

1DataExtractionModule::ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule::e_Form);

1DataExtractionModule.ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule.e_Form)

1DataExtractionModule.ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule::E_Form)

1DataExtractionModule.ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule.DataExtractionEngine.e_form)

Alternatively, you can select the Form Key-Value Extraction engine:

1DataExtractionModule.ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule.DataExtractionEngine.e_form_key_value);

1DataExtractionModule::ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule::e_FormKeyValue);

1DataExtractionModuleExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModuleE_FormKeyValue)

1DataExtractionModule.extractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule.DataExtractionEngine.e_form_key_value);

1await PDFNet.DataExtractionModule.extractData('formfields-scanned.pdf', 'formfields-scanned.json', PDFNet.DataExtractionModule.DataExtractionEngine.e_FormKeyValue);

1DataExtractionModule::ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule::e_FormKeyValue);

1DataExtractionModule.ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule.e_FormKeyValue)

1DataExtractionModule.ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule::E_FormKeyValue)

1DataExtractionModule.ExtractData("formfields-scanned.pdf", "formfields-scanned.json", DataExtractionModule.DataExtractionEngine.e_form_key_value)

Extract form fields as JSON string

If you are going to parse the JSON right away, you may as well retrieve it as an in-memory string, instead of an external file.

Specify the name of the input PDF file, then select the Form engine:

1string json = DataExtractionModule.ExtractData("formfields.pdf", DataExtractionModule.DataExtractionEngine.e_form);

1UString json = DataExtractionModule::ExtractData("formfields.pdf", DataExtractionModule::e_Form);

1json := DataExtractionModuleExtractData("formfields.pdf", DataExtractionModuleE_Form).(string)

1String json = DataExtractionModule.extractData("formfields.pdf", DataExtractionModule.DataExtractionEngine.e_form);

1const json = await PDFNet.DataExtractionModule.extractDataAsString('formfields.pdf', PDFNet.DataExtractionModule.DataExtractionEngine.e_Form);

1$json = DataExtractionModule::ExtractData("formfields.pdf", DataExtractionModule::e_Form);

1json = DataExtractionModule.ExtractData("formfields.pdf", DataExtractionModule.e_Form)

1json = DataExtractionModule.ExtractData("formfields.pdf", DataExtractionModule::E_Form)

1Dim json As String = DataExtractionModule.ExtractData("formfields.pdf", DataExtractionModule.DataExtractionEngine.e_form)

Alternatively, you can select the Form Key-Value Extraction engine:

1string json = DataExtractionModule.ExtractData("formfields.pdf", DataExtractionModule.DataExtractionEngine.e_form_key_value);

1UString json = DataExtractionModule::ExtractData("formfields.pdf", DataExtractionModule::e_FormKeyValue);

1json := DataExtractionModuleExtractData("formfields.pdf", DataExtractionModuleE_FormKeyValue).(string)

1String json = DataExtractionModule.extractData("formfields.pdf", DataExtractionModule.DataExtractionEngine.e_form_key_value);

1const json = await PDFNet.DataExtractionModule.extractDataAsString('formfields.pdf', PDFNet.DataExtractionModule.DataExtractionEngine.e_FormKeyValue);

1$json = DataExtractionModule::ExtractData("formfields.pdf", DataExtractionModule::e_FormKeyValue);

1json = DataExtractionModule.ExtractData("formfields.pdf", DataExtractionModule.e_FormKeyValue)

1json = DataExtractionModule.ExtractData("formfields.pdf", DataExtractionModule::E_FormKeyValue)

1Dim json As String = DataExtractionModule.ExtractData("formfields.pdf", DataExtractionModule.DataExtractionEngine.e_form_key_value)

Extract form fields and add to PDF

You can automatically add detected forms to a PDF in a single step.

Java

1PDFDoc doc = new PDFDoc("formfields.pdf");
2DataExtractionModule.detectAndAddFormFieldsToPDF(doc);

1PDFDoc doc = new PDFDoc("formfields.pdf");
2DataExtractionModule.DetectAndAddFormFieldsToPDF(doc);

1PDFDoc doc = new PDFDoc("formfields.pdf");
2DataExtractionModule.detectAndAddFormFieldsToPDF(doc);

1doc := NewPDFDoc("formfields.pdf")
2DataExtractionModuleDetectAndAddFormFieldsToPDF(doc)

1PDFDoc doc = new PDFDoc("formfields.pdf");
2DataExtractionModule.detectAndAddFormFieldsToPDF(doc);

1const doc = await PDFNet.PDFDoc.createFromFilePath("formfields.pdf");
2await PDFNet.DataExtractionModule.detectAndAddFormFieldsToPDF(doc);

1$doc = new PDFDoc("formfields.pdf");
2DataExtractionModule::DetectAndAddFormFieldsToPDF($doc);

1doc = PDFDoc("formfields.pdf")
2DataExtractionModule.DetectAndAddFormFieldsToPDF(doc)

1doc = PDFDoc.new("formfields.pdf")
2DataExtractionModule.DetectAndAddFormFieldsToPDF(doc)

1Dim doc as PDFDoc = New PDFDoc("formfields.pdf")
2DataExtractionModule.DetectAndAddFormFieldsToPDF(doc)

Optional Configurations

Select OCR Language

Password-Protected PDFs

Page Range

Region of Interest

Best Practices

Use Form Field Detection for basic layout-based detection.
Use Form Field Key-Value Extraction when you need semantic mapping (label-to-input).

Did you find this helpful?

Trial setup questions?

Ask experts on Discord

Need other help?

Contact Support

Pricing or product questions?

Contact Sales

Product:

Product:

Form Field Identification

Form Field Detection Engine

Output:

Form Field Key-Value Extraction Engine

Output:

Extract form fields as JSON file

Extract form fields as JSON string

Extract form fields and add to PDF

Java

Optional Configurations

Best Practices

On this page