feat: detect language for PDFs #4051

shreyanid · 2025-07-10T20:24:08Z

The @apply_metadata decorator already contains logic to detect the language of the element text (on either a document or element level). Update pdfs, and later images, to use this decorator to get accurate element language results outputted.

Test

from unstructured.partition.auto import partition

def test_partition_pdf():
    pdf_path = "example-docs/language-docs/fr_olap.pdf"
    elements = partition(pdf_path)  # optionally set `detect_language_per_element=True)`
    print(f"Number of elements partitioned: {len(elements)}")

    # Check if elements are returned
    assert len(elements) > 0, "No elements were partitioned from the PDF."

    # check language outputted for each element
    for element in elements:
        print(element)
        print(element.metadata.languages)
        print("-------------------------------")

test_partition_pdf()

shreyanid added 6 commits July 9, 2025 17:22

debugging

85bb18f

.

f527aa9

detect lang; working

324c0f6

clean

cbb767a

tidy

8ed81e2

changelog release version; add lang file

c976fd8

shreyanid changed the title ~~feat: detect language with pdfminer text~~ feat: detect language for PDFs Jul 11, 2025

Merge branch 'main' into pdf_miner_lang

6d75dca

treighton approved these changes Jul 11, 2025

View reviewed changes

version bump

1b37a5e

shreyanid requested a review from badGarnet July 11, 2025 23:26

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

feat: detect language for PDFs #4051

feat: detect language for PDFs #4051

shreyanid commented Jul 10, 2025 •

edited

Loading

Uh oh!

Uh oh!

feat: detect language for PDFs #4051

Are you sure you want to change the base?

feat: detect language for PDFs #4051

Conversation

shreyanid commented Jul 10, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

shreyanid commented Jul 10, 2025 •

edited

Loading