タグ

OCRに関するmisshikiのブックマーク (98)

  • LLMによる「非定型見積書の明細抽出タスク」の精度を約80%→約95%に改善した話 - LayerX エンジニアブログ

    こんにちは。Ai Workforce事業部 FDEグループエンジニアのkoseiと申します。 以下文は、以前インターンとして一緒にプロジェクトを進めてくれた @kimu さんが在籍中に執筆したものです(冒頭のみkoseiが追記しています)。 ブログで紹介したアルゴリズムにより精度が向上し、お客様に高い価値を提供することができました。(手法については特許出願済み) そこに至るまでの開発の様々な学びが詰まっているので、是非じっくりとお読みください! はじめに こんにちは!LayerX Ai Workforce 事業部 FDEグループで2025年3月から11月まで約8ヶ月間インターンをしていた@kimuです。インターンでは主にFDE(Forward Deployed Engineer。顧客課題に密着してプロダクト実装まで担うエンジニア)として、生成AIプラットフォーム「Ai Workfor

    LLMによる「非定型見積書の明細抽出タスク」の精度を約80%→約95%に改善した話 - LayerX エンジニアブログ
    misshiki
    misshiki 2026/01/15
    “非定型の見積書からの明細データ抽出精度を約80%から約95%に改善した取り組みと、その過程で得た知見をご紹介”
  • 手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場

    AI開発企業のMistral AIが、スキャンしたドキュメントや手書き文字を認識してテキストデータに変換できるAIモデル「Mistral OCR 3」を発表しました。Mistral OCR 3の精度はエンタープライズ向けの文書処理ソリューションやAIを用いたOCRソリューションを上回り、読みにくい筆記体も認識できるとのことです。 Introducing Mistral OCR 3 | Mistral AI https://mistral.ai/news/mistral-ocr-3 Mistral OCR 3は、前モデルの「Mistral OCR 2」を大幅にアップグレードしたモデルで、筆記体や活字の上に注釈として書き込まれた手書きのコンテンツも正確に読み取ることが可能。また、密集したレイアウトや入力フォームなどの検出能力も改善され、さまざまな契約文書の読み取りにも適しているとのこと。さらに

    手書きの筆記体も認識してテキストに変換可能なOCRモデル「Mistral OCR 3」が登場
    misshiki
    misshiki 2025/12/20
    “Mistral OCR 3の精度はエンタープライズ向けの文書処理ソリューションやAIを用いたOCRソリューションを上回り、読みにくい筆記体も認識できるとのことです。”
  • Introducing Mistral OCR 3 | Mistral AI

    OCR 3Achieving a new frontier for both accuracy and efficiency in document processing. Tuesday 8:30 pm. Just had dinner. Did not get home until nearly 8 pm. as I am now very busy at the office. Westcott came today and is trying to raise money at last minute. I have to hand over balance of work to the liquidators & also finish off books before shipping them to N. York tomorrow. Glad to say it raine

    Introducing Mistral OCR 3 | Mistral AI
    misshiki
    misshiki 2025/12/20
    “画期的な性能向上:フォーム処理、スキャン文書、複雑な表、手書き文字において、Mistral OCR 2と比較して総合勝率74%を達成しました。”
  • OCR Arena

    Start a BattleUpload an image to start an anonymous OCR battle Need a document? Get a random one

  • AIのOCR能力を競わせて評価する「OCR Arena」

    AIに文書を読み込ませ、そのOCR能力を評価付けする「OCR Arena」が公開されています。 Battle - OCR Arena https://www.ocrarena.ai/battle 記事作成時点のランキングは1位が「Gemini 3 Preview」、2位が「Gemini 2.5 Pro」、3位が「Opus 4.5 (Medium)」(Claude)、4位が「Gemini 2.5 Flash」、5位が「GPT-5.1 (Medium)」でした。モデル名の右に書かれたELOはイロレーティングのスコア、Win Rateは対戦勝率、Battlesは対戦回数を示します。 バトルは、新たな文書を読み込ませることでスタートします。手元にあるファイルを読み込ませることも可能ですが、とりあえずバトルを見てみたいという場合は「Get a random one」をクリックすればランダムな文書でバ

    AIのOCR能力を競わせて評価する「OCR Arena」
    misshiki
    misshiki 2025/12/11
    “AIに文書を読み込ませ、そのOCR能力を評価付けする「OCR Arena」が公開されています。 Battle - OCR Arena https://www.ocrarena.ai/battle
  • OCR技術の変遷と日本語対応モデルの性能検証 - LayerX エンジニアブログ

    こんにちは、バクラク事業部AI機械学習部の飯田 (@frkake) です。 こちらはLayerXアドベントカレンダー1日目の記事です。初日は @izumin5210 さんの記事との二立てです。 最近、DeepSeek-OCRの登場など、OCR界隈がにわかに活気づいていますね。LLMやVLMの進化に伴い、OCRも単なる「文字起こし」から「構造の読み取り」、さらには「内容の理解」へと進化しているのを感じます。 そこで記事では、改めてOCR技術の変遷を振り返りつつ、各モデルを自作のサンプルデータを使って検証してみたいと思います。 記事での用語の整理をあらかじめしておきます。 テキスト認識:それがなんの文字であるのかを特定すること。文字起こしを行うこと テキスト検出:文字の位置を検出すること レイアウト認識:画像中の要素の位置や配置を認識すること OCR:画像から文字を書き起こすこと ドキ

    OCR技術の変遷と日本語対応モデルの性能検証 - LayerX エンジニアブログ
    misshiki
    misshiki 2025/12/02
    “OCR技術の進化を追いながら、代表的なモデルや最新モデルを用いて、複雑なレイアウトを持つ日本語文書の認識性能を検証しました。 あくまで今回のサンプルにおける結果ですが、まとめると以下のようになります。”
  • 2025年10月の最新OCRモデルの性能を比較する【Deepseek-OCR、PaddleOCR-VL他】|さしゃ

    2025年10月の最新OCRモデルの性能を比較する【Deepseek-OCR、PaddleOCR-VL他】 1. はじめに2025年10月中旬以降、次々と新しいOCRモデルや改良版が登場しています。その影響もあり、OmniDocBenchなどのベンチマーク結果とあわせて発表されていても、比較対象が旧バージョンのモデルになってしまっています。これでは、どのモデルが良いのか判別がつきません。 また、実際のPDF文書には、最新の高性能なモデルであっても完全には構造化しきれないような、複雑なレイアウトや図表が多く存在します。 そのため、単に最新モデルの性能を称賛するだけでなく、それぞれのモデルがどのような文書を得意とし、どのような課題を残しているのかを見ていくことが大切だと感じています。 商用マルチモーダルLLMとの優劣や具体的なアーキテクチャなどを知りたい方は他の方の記事を参考にしていただくとし

    2025年10月の最新OCRモデルの性能を比較する【Deepseek-OCR、PaddleOCR-VL他】|さしゃ
    misshiki
    misshiki 2025/11/07
    “YomiToku こちらは最新モデルではなく、日本語文書読解に特化したAI-OCRモデルです。複雑なレイアウトも高精度で読み取ることができ、軽量で、日本語文書を扱う上では比較対象として採用したいモデルです。”
  • DeepSeek-OCRを試す|shi3z

    DeepSeek-OCRが、普通のOCRとはちょっと違う文脈で話題になっていたので触ってみた。 これのミソは、単にOCR(光学文字認識)ができることではなく、光学的(視覚的)に文章を理解することでより長い文脈に対応できると主張されているところ。 なので、わざと長い文章を画像にして読み取れるか試してみるという意地悪なことをしないとこのモデルの真価は分からない。 今回はKaraageさんの記事を参考にuvにして試してみた。 使用したのはDGX Sparkではなく普通のA100で試した。そんなにVRAM使わないと思うけど。 $ git clone https://github.com/deepseek-ai/DeepSeek-OCR.git $ cd DeepSeek-OCR $ uv venv -p=3.12.9 $ uv pip install torch==2.6.0 torchvisio

    DeepSeek-OCRを試す|shi3z
    misshiki
    misshiki 2025/11/04
    “というわけでDeepSeek-OCRはvLLM版じゃないと本気出してくれなさそう。ただ、vLLM版は呼び出し方が煩雑で自分でラッパー書かないと暴れ馬のように暴れ回りそう。”
  • allenai/olmOCR-2-7B-1025 · Hugging Face

    misshiki
    misshiki 2025/10/28
    “olmOCR-2-7B-1025-FP8のフルBF16バージョン。更なる微調整を除き、実用的にはFP8バージョンの使用をお勧めします。”
  • DeepSeek-OCRの弱点をつく - きしだのHatena

    DeepSeek-OCRの仕組みが面白いので遊んでしまっている。 最初に試したときは、純粋にOCRさせてますね。きれいな心をしている。 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena そして前回はランダムな文字列を読ませて誤認識を誘ってみた。 DeepSeek-OCRにはランダム文字列が読めない - きしだのHatena もう2つ、弱点ぽいところをついてみる。 その前に、DeepSeek-OCRの構造を確認。 https://arxiv.org/abs/2510.18234 ここで、DeepEncoderがSAM->Conv->CLIPってなってるのがキモ。 SAM(Segment Anything Model)は、画像の領域分けをする仕組み。 GitHub - facebookresearch/segment-anything: The

    DeepSeek-OCRの弱点をつく - きしだのHatena
    misshiki
    misshiki 2025/10/28
    “たぶん、「あ」の表のなかに「め」やら「ぬ」やら「ね」やら入れておくと、トークナイザ部分を困らせることができる気がする。”
  • olmOCR – Open-Source OCR for Accurate Document Conversion

    misshiki
    misshiki 2025/10/28
    “ビジョン言語モデルによる効率的な PDF テキスト抽出”
  • DeepSeek-OCRにはランダム文字列が読めない - きしだのHatena

    DeepSeek-OCRの精度が高くて驚いたところですが、仕組み的にランダムな文字列での認識率がかなり落ちるんではないかと試してみたところ、やっぱりかなり悪かったです。 DeepSeek-OCRについてはこちら。 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena DeepSeek-OCRは、画像をトークン化したほうがテキストをトークン化するより情報圧縮できるんでは、というアイデアを試すために、トークン化した画像をテキストに戻してみたらOCRとして精度があがった、というものです。 ここで、「画像のほうが情報量が多いのにトークン化したら容量増えるのでは?」ってなりますが、情報量が多いのは画像を画像として復元する場合で、画像についてお話するために必要十分な情報としてであればそこまで多くならないはずです。 テキストのトークン化は、よくある文字の並び

    DeepSeek-OCRにはランダム文字列が読めない - きしだのHatena
    misshiki
    misshiki 2025/10/24
    “だとすると、言語学的な情報が利用できないランダムな文字列の認識は苦手ということになりますね。”
  • 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena

    おとといくらいにDeepSeek-OCRというのが出てました。 https://github.com/deepseek-ai/DeepSeek-OCR ただのOCRじゃなくて、「テキストを画像にしたほうがトークンサイズを小さくできるのでは?」というのをやっていて、テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったという感じですね。 LLMの開発効率化に革新? 中国DeepSeekが「DeepSeek-OCR」発表 “テキストを画像化”でデータ圧縮:Innovative TechAI+) - ITmedia AI+ 中身的には、3Bでアクティブパラメータが0.6BのMoEモデルに0.4Bの画像エンコーダーを載せた画像言語モデルです。 導入や使い方は、モデルのページに書いてあります。 何も考えずに最新のTransformers 4.57.1を入れ

    画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena
    misshiki
    misshiki 2025/10/23
    “中身的には、3Bでアクティブパラメータが0.6BのMoEモデルに0.4Bの画像エンコーダーを載せた画像言語モデルです。”
  • LLMの開発効率化に革新? 中国DeepSeekが「DeepSeek-OCR」発表 “テキストを画像化”でデータ圧縮

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 中国のDeepSeek-AIに所属する研究者らが発表した論文「DeepSeek-OCR: Contexts Optical Compression」は、や画像などをスキャンして書いてある文字をデジタルテキストデータに変換するOCR(光学文字認識)を用い、長文を画像に圧縮する技術を発表した研究報告だ。

    LLMの開発効率化に革新? 中国DeepSeekが「DeepSeek-OCR」発表 “テキストを画像化”でデータ圧縮
    misshiki
    misshiki 2025/10/23
    “(LLM)が長文を処理する際、文章の長さに応じて計算量が二次関数的に増大するという根本的な課題がある。DeepSeek-OCRは、文書を画像として扱い、視覚トークンへと変換することで大幅なデータ圧縮を実現している。”
  • GitHub - deepseek-ai/DeepSeek-OCR: Contexts Optical Compression

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - deepseek-ai/DeepSeek-OCR: Contexts Optical Compression
    misshiki
    misshiki 2025/10/22
    “DeepSeek-OCR: Contexts Optical Compression”
  • 「DeepSeek-OCR」を試す

    実運用の強さ:少トークンでSOTA級に迫る OmniDocBenchで比較するとさ、 Small(100トークン) で既にGOT-OCR2.0(256トークン)を超えがちだし。 Large(400, 有効285トークン) でSOTAと肩並べる感じ。 Gundam(<800トークン)でMinerU2.0(約6790トークン) より優秀。コスパ良すぎでしょ。 カテゴリ別の肌感: スライドは64トークンで十分。 ・レポートは100トークンで良。 新聞はテキスト密度高すぎなのでGundam以上が欲しい。 なんでこんなに軽いの? ウィンドウ注意+16×圧縮+グローバル注意の直列デザインがマジ効いてる。 前段で大量パッチを安く見て、中間でトークンをギュッと圧縮してから、後段でリッチに解釈。 GPUメモリのアクティベーション低め、トークン数少なめ、多解像度対応で、訓練も推論も扱いやすい。 具体的にでき

    「DeepSeek-OCR」を試す
    misshiki
    misshiki 2025/10/22
    “自分が過去試した中ではdots.ocrが精度的に良くて、論文のベンチマークを見る限り、DeepSeek-OCRはdots.ocrと並ぶ感じなので、精度は十分良いと思う。”
  • Vaibhav (VB) Srivastav on X: "Letsss gooo! DeepSeek just released a 3B OCR model on Hugging Face 🔥 Optimised to be token efficient AND scale ~200K+ pages/day on A100-40G Same arch as DeepSeek VL2 Use it with Transformers, vLLM and more 🤗 https://t.co/n4

    misshiki
    misshiki 2025/10/21
    “DeepSeekはHugging Faceの3B OCRモデルをリリース”
  • deepseek-ai/DeepSeek-OCR · Hugging Face

    🌟 Github | 📥 Model Download | 📄 Paper Link | 📄 Arxiv Paper Link | DeepSeek-OCR: Contexts Optical Compression Explore the boundaries of visual-text compression. Usage Inference using Huggingface transformers on NVIDIA GPUs. Requirements tested on python 3.12.9 + CUDA11.8: torch==2.6.0 transformers==4.46.3 tokenizers==0.20.3 einops addict easydict pip install flash-attn==2.7.3 --no-build-isolati

    deepseek-ai/DeepSeek-OCR · Hugging Face
    misshiki
    misshiki 2025/10/21
    “DeepSeek-OCR”
  • SOTA OCR with Core ML and dots.ocr

    misshiki
    misshiki 2025/10/07
    “RedNoteの30億パラメータOCRモデルであるdots.ocrは、 OmniDocBenchでGemini 2.5 Proを上回り、OCRは真に妥協のないデバイス上のユースケースとなっています。”
  • AI OCRの検証記録 ~ ニーリーでの検証結果はこうでした ~ - Nealle Developer's Blog

    こんにちは、プロダクトAI開発の宮後(miya10kei)です。 先日、数年遅れで初コロナにかかってしまいダウンしていました(コロナ辛いですね、、、)😷 生成AIで画像やPDFのOCR(文字認識)を試したことはあるでしょうか? ニーリーでは事業で様々な形式の書類を扱っており、如何にしてオフラインのデータを構造化されたオンラインデータに変換するかが業務効率化の重要な要素となっています。 今回は、画像やPDFのOCRに生成AIを用い場合に、どれくらいの精度がでるかを検証した結果を紹介します! ⚠️ 読む前の注意点 ⚠️ OCR(Optical Character Recognition/Reader)は光学文字認識ですので、既にデジタル化された画像やPDFの文字認識をOCRと呼ぶことに違和感がある方もいるかと思います。ただ、画像やPDFに対する文字認識もOCRと一般的に呼ばれているので、

    AI OCRの検証記録 ~ ニーリーでの検証結果はこうでした ~ - Nealle Developer's Blog
    misshiki
    misshiki 2025/10/07
    “検証結果ではGeminiシリーズが他モデルと比較して頭一つ抜けた正解率となりました。(圧倒的な精度ですね!)Geminiは他モデルと比較してもトークンあたりの料金が安いため嬉しい結果です。”