[B! GPU] mkusakaのブックマーク

mkusaka id:mkusaka

GPUに関するmkusakaのブックマーク (5)

LLM Servingを支える技術
ワシントン大学/Kotoba Techno logiesの釜堀です。専門は機械学習システムで、LLMなどの推論を効率化する技術を研究・開発しています。現代のLLMは莫大な計算・メモリを要するため、LLMを使ったサービスを提供する際には推論の効率性が非常に重要です。この分野はここ数年活発に研究されていて、vLLMやSGLangなど非常に高性能なOSSも出てきています。LLMのservingは、コンピュータサイエンスの知見を総動員させて最適化されている奥深い世界ですが、一方で中身を理解するには多くの前提知識が必要です。そこでこの記事ではTransf ormerモデルを中心に、LLMのserving system（多数のクライアントにLLM推論を提供するシステム）でどのようなテクニックが使われているのかについて体系的に解説していきます。構成としては、LLM servingで最も重要な概念である
mkusaka 2026/01/13
LLM Servingの実装最適化をエンジニア向けに解説。バッチング（continuous/in‑flight）、KVキャッシュ管理、PagedAttention等で高効率化

AI要約

LLM

MLOps

GPU

解説
リンク
Documentation - Docling
Docling simplifies document processing, parsing diverse formats — including advanced PDF understanding — and providing seamless integrations with the gen AI ecosystem. Getting started 🐣 Ready to kick off your Docling journey? Let's dive right into it! Features 🗂️ Parsing of multiple document formats incl. PDF, DOCX, PPTX, XLSX, HTML, WAV, MP3, VTT, images (PNG, TIFF, JPEG, ...), and more 📑 Adva
mkusaka 2025/12/28
DoclingはPDFやDOCX、画像など多様な形式を解析し、MarkdownやJSONへ変換できるPythonライブラリで、HeronレイアウトモデルやMCPサーバーなど高度機能を提供

AI要約

docling

OCR

PDF

plugin

RAG

GPU

CLI
リンク
Building out Intercom's AI infra
In the past, many of our blog posts have started with “Intercom is a product company, …” It set the context for the reader, explained some of our decisions and defined the layer we bring most value in. I started this piece with it, but a brief pause was enough to realise it’s wrong. Scratch it. Intercom is an AI company. In this post we’ll discuss how we built tools to make our scientists producti
mkusaka 2025/11/24
IntercomのAI学習基盤を解説。EC2+Ubuntu DLAMI上でCLI「ai-infra」を整備し、ai-infra createで約8分でGPU環境を用意。

AI要約

MLOps

SageMaker

EC2

GPU

case-study
リンク
https://openai.com/index/aws-and-openai-partnership/
mkusaka 2025/11/04
OpenAIとAWSの複数年戦略提携を発表。EC2 UltraServersで数十万NVIDIA GPUや数千万CPU規模へ拡張し、ChatGPT推論や次世代モデル学習に活用。

AI要約

AWS

OpenAI

Bedrock

GPU

alliance
リンク
「DeepSeek-OCR」を試す
実運用の強さ：少トークンでSOTA級に迫る OmniDocBenchで比較するとさ、 Small（100トークン）で既にGOT-OCR2.0（256トークン）を超えがちだし。 Large（400, 有効285トークン）でSOTAと肩並べる感じ。 Gundam（<800トークン）でMinerU2.0（約6790トークン）より優秀。コスパ良すぎでしょ。カテゴリ別の肌感: スライドは64トークンで十分。本・レポートは100トークンで良。新聞はテキスト密度高すぎなのでGundam以上が欲しい。なんでこんなに軽いの？ウィンドウ注意＋16×圧縮＋グローバル注意の直列デザインがマジ効いてる。前段で大量パッチを安く見て、中間でトークンをギュッと圧縮してから、後段でリッチに解釈。 GPUメモリのアクティベーション低め、トークン数少なめ、多解像度対応で、訓練も推論も扱いやすい。具体的にでき
mkusaka 2025/10/22
DeepSeek-OCR(3B/MIT)をColab L4で検証。PDF→画像化しMarkdown/表/画像抽出やVRAM約15GBを記録。

AI要約

DeepSeek

AI-OCR

VLM

ハンズオン

GPU
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx