タグ

GPUに関するmkusakaのブックマーク (5)

  • LLM Servingを支える技術

    ワシントン大学/Kotoba Technologiesの釜堀です。専門は機械学習システムで、LLMなどの推論を効率化する技術を研究・開発しています。 現代のLLMは莫大な計算・メモリを要するため、LLMを使ったサービスを提供する際には推論の効率性が非常に重要です。この分野はここ数年活発に研究されていて、vLLMやSGLangなど非常に高性能なOSSも出てきています。LLMのservingは、コンピュータサイエンスの知見を総動員させて最適化されている奥深い世界ですが、一方で中身を理解するには多くの前提知識が必要です。 そこでこの記事ではTransformerモデルを中心に、LLMのserving system(多数のクライアントにLLM推論を提供するシステム)でどのようなテクニックが使われているのかについて体系的に解説していきます。 構成としては、LLM servingで最も重要な概念である

    LLM Servingを支える技術
    mkusaka
    mkusaka 2026/01/13
    LLM Servingの実装最適化をエンジニア向けに解説。バッチング(continuous/in‑flight)、KVキャッシュ管理、PagedAttention等で高効率化
  • Documentation - Docling

    Docling simplifies document processing, parsing diverse formats — including advanced PDF understanding — and providing seamless integrations with the gen AI ecosystem. Getting started 🐣 Ready to kick off your Docling journey? Let's dive right into it! Features 🗂️ Parsing of multiple document formats incl. PDF, DOCX, PPTX, XLSX, HTML, WAV, MP3, VTT, images (PNG, TIFF, JPEG, ...), and more 📑 Adva

    mkusaka
    mkusaka 2025/12/28
    DoclingはPDFやDOCX、画像など多様な形式を解析し、MarkdownやJSONへ変換できるPythonライブラリで、HeronレイアウトモデルやMCPサーバーなど高度機能を提供
  • Building out Intercom's AI infra

    In the past, many of our blog posts have started with “Intercom is a product company, …” It set the context for the reader, explained some of our decisions and defined the layer we bring most value in. I started this piece with it, but a brief pause was enough to realise it’s wrong. Scratch it. Intercom is an AI company. In this post we’ll discuss how we built tools to make our scientists producti

    Building out Intercom's AI infra
    mkusaka
    mkusaka 2025/11/24
    IntercomのAI学習基盤を解説。EC2+Ubuntu DLAMI上でCLI「ai-infra」を整備し、ai-infra createで約8分でGPU環境を用意。
  • https://openai.com/index/aws-and-openai-partnership/

    mkusaka
    mkusaka 2025/11/04
    OpenAIとAWSの複数年戦略提携を発表。EC2 UltraServersで数十万NVIDIA GPUや数千万CPU規模へ拡張し、ChatGPT推論や次世代モデル学習に活用。
  • 「DeepSeek-OCR」を試す

    実運用の強さ:少トークンでSOTA級に迫る OmniDocBenchで比較するとさ、 Small(100トークン) で既にGOT-OCR2.0(256トークン)を超えがちだし。 Large(400, 有効285トークン) でSOTAと肩並べる感じ。 Gundam(<800トークン)でMinerU2.0(約6790トークン) より優秀。コスパ良すぎでしょ。 カテゴリ別の肌感: スライドは64トークンで十分。 ・レポートは100トークンで良。 新聞はテキスト密度高すぎなのでGundam以上が欲しい。 なんでこんなに軽いの? ウィンドウ注意+16×圧縮+グローバル注意の直列デザインがマジ効いてる。 前段で大量パッチを安く見て、中間でトークンをギュッと圧縮してから、後段でリッチに解釈。 GPUメモリのアクティベーション低め、トークン数少なめ、多解像度対応で、訓練も推論も扱いやすい。 具体的にでき

    「DeepSeek-OCR」を試す
    mkusaka
    mkusaka 2025/10/22
    DeepSeek-OCR(3B/MIT)をColab L4で検証。PDF→画像化しMarkdown/表/画像抽出やVRAM約15GBを記録。
  • 1