Product:

Get started

Release notes

Viewer

Basic operations

Learn more

Annotation

MS Office

Generate via template

Conversion

Smart Data Extraction

Overview

Setup

Document Classification

Document Structure

Tabular Data

Form Field

Key Value Pairs

Barcode

Deployment Optimization

Samples

APIs

Augmenting LLMs with Smart Data Extraction

PDF/A

Accessibility

Forms

Create

Page manipulation

PDF Editing

OCR

Digital signature

Comparison

Bookmark

Optimization

Layer (OCG)

Redaction

Security

Portfolio

Low-level PDF API

Changelogs

Document Classification

NEW FEATURE

New in 11.8!

Requirements

View Demo

Package: Smart Data Extraction

Module: Data Extraction

Document Classification is an AI-trained SDK API that identifies each file on upload, based on a predefined set of 19 categories, so you can:

Validate intake.
Route to the right workflow.
Add metadata for processing later.

The output includes the predicted label with a confidence score in structured JSON for easy integration into your solution.

The benefits of using this feature include:

Automatically identify document types from a predefined set of 19 categories such as invoices, receipts, IDs, budgets, contracts, and more.
You decide the thresholds for automated routing or manual reviews.
Provides easy integration into downstream workflows.

The 19 categories include:

"advertisement"
"budget"
"email"
"file_folder"
"form"
"handwritten"
"id"
"invoice"
"letter"
"memo"
"news_article"
"passport"
"presentation"
"questionnaire"
"receipt"
"resume"
"scientific_publication"
"scientific_report"
"specification"

JSON Output Specification

Refer to the following specifications to learn more about the output JSON format:

JSON Specification for Document Classification

Extract document classes as JSON file

Specify the name of the input PDF file and the name of the output JSON file, then select the Doc Classification engine:

1DataExtractionModule.ExtractData("Invoice.pdf", "Invoice_Classified.json", DataExtractionModule.DataExtractionEngine.e_doc_classification);

1DataExtractionModule::ExtractData("Invoice.pdf", "Invoice_Classified.json", DataExtractionModule::e_DocClassification);

1DataExtractionModuleExtractData("Invoice.pdf", "Invoice_Classified.json", DataExtractionModuleE_DocClassification)

1DataExtractionModule.extractData("Invoice.pdf", "Invoice_Classified.json", DataExtractionModule.DataExtractionEngine.e_doc_classification);

1await PDFNet.DataExtractionModule.extractData("Invoice.pdf", "Invoice_Classified.json", PDFNet.DataExtractionModule.DataExtractionEngine.e_DocClassification);

1DataExtractionModule::ExtractData("Invoice.pdf", "Invoice_Classified.json", DataExtractionModule::e_DocClassification);

1DataExtractionModule.ExtractData("Invoice.pdf", "Invoice_Classified.json", DataExtractionModule.e_DocClassification)

1DataExtractionModule.ExtractData("Invoice.pdf", "Invoice_Classified.json", DataExtractionModule::E_DocClassification)

1DataExtractionModule.ExtractData("Invoice.pdf", "Invoice_Classified.json", DataExtractionModule.DataExtractionEngine.e_doc_classification)

Extract document classes as JSON string

Specify the name of the input PDF file, then select the Doc Classification engine:

1string json = DataExtractionModule.ExtractData("Scientific_Publication.pdf", DataExtractionModule.DataExtractionEngine.e_doc_classification);

1UString json = DataExtractionModule::ExtractData("Scientific_Publication.pdf", DataExtractionModule::e_DocClassification);

1json := DataExtractionModuleExtractData("Scientific_Publication.pdf", DataExtractionModuleE_DocClassification).(string)

1String json = DataExtractionModule.extractData("Scientific_Publication.pdf", DataExtractionModule.DataExtractionEngine.e_doc_classification);

1const json = await PDFNet.DataExtractionModule.extractDataAsString('Scientific_Publication.pdf', PDFNet.DataExtractionModule.DataExtractionEngine.e_DocClassification);

1$json = DataExtractionModule::ExtractData("Scientific_Publication.pdf", DataExtractionModule::e_DocClassification);

1json = DataExtractionModule.ExtractData("Scientific_Publication.pdf", DataExtractionModule.e_DocClassification)

1json = DataExtractionModule.ExtractData("Scientific_Publication.pdf", DataExtractionModule::E_DocClassification)

1Dim json As String = DataExtractionModule.ExtractData("Scientific_Publication.pdf", DataExtractionModule.DataExtractionEngine.e_doc_classification)

Optional Configurations

Select OCR Language

Password-Protected PDFs

Page Range

Minimum Confidence Threshold

Did you find this helpful?

Trial setup questions?

Ask experts on Discord

Need other help?

Contact Support

Pricing or product questions?

Contact Sales

Product:

Product:

Document Classification

NEW FEATURE

JSON Output Specification

Extract document classes as JSON file

Extract document classes as JSON string

Optional Configurations

On this page