タグ

LLMに関するrgfxのブックマーク (45)

  • GPT-1 から GPT-5.2 まで: LLM の特殊トークン徹底解説【2025年12月最新】

    エンジニアの又川です。 皆さんは LLM (大規模言語モデル) の 「特殊トークン」 をご存知でしょうか? ChatGPT や Claude などを使っていると意識することは少ないかもしれませんが、実はモデルの内部では 「ここからユーザの発話だよ」「ここで思考を始めるよ」 といった制御情報を伝えるための特別なトークンが使われています。 この記事では、 GPT-1 や BERT、GPT-2 といった黎明期の Transformer モデルから始まり、 T5 のようなテキスト補完から脱却した Transformer モデル、 GPT-3 のような初期の LLM、 InstructGPT のような指示追従型 LLM、 GPT-3.5 Turbo のようなチャット機能付き LLM、 GPT-4 のようなマルチモーダル LLM、そして GPT-5.2 のような思考機能付き LLM (Reasonin

    GPT-1 から GPT-5.2 まで: LLM の特殊トークン徹底解説【2025年12月最新】
    rgfx
    rgfx 2025/12/23
  • ポエム:LLM時代のライブラリ設計、LLMが書きやすいものにした方が良いので泣く泣く方針転換した

    株式会社ジェイテックジャパン CTOの高丘 @tomohisaです。 私は Railway Oriented Programming が好きで、C#で実現するために ResultBox というライブラリを作り、自社のイベントソーシングライブラリ Sekiban にも組み込んできました。自分がメインで作る小さなプロジェクトでは問題なく機能していましたが、チーム開発とLLM時代の到来により、方針転換を決断しました。 この記事は、自分の好みよりチームとLLMとの協働性を優先した、ライブラリ開発者の決断の記録です。 Railway Oriented Programmingの魅力 Railway Oriented Programming(ROP)は、Scott Wlaschin氏が提唱したエラーハンドリングのパターンです。F#などの関数型言語で一般的な Result<T, E> 型を使い、成功と失敗

    ポエム:LLM時代のライブラリ設計、LLMが書きやすいものにした方が良いので泣く泣く方針転換した
    rgfx
    rgfx 2025/11/26
    「言語及びその生態系の持ち味を活かしたこなれた書き方」が一番マシという文化に回帰していくのか。助かる。/逆に「おもしろ開発したいなら生態系から作れ」になるな。
  • YomiToku-Client

    YomiToku-Client¶ 概要¶ YomiToku-Clientは、AWS SageMaker上で提供されるYomiToku-Pro APIの出力を扱うためのPythonクライアントライブラリです。OCR解析結果を構造化データへ変換し、CSV・JSON・MarkdownPDFなどの形式での保存や可視化を容易にします。YomiToku-Proの高精度OCRと、業務アプリケーションを結びつける「橋渡し」役を担います。 flowchart LR subgraph Local["ユーザー環境"] A["解析対象データ"] B["YomiToku-Client<br/>(Pythonライブラリ / CLI)"] end subgraph AWS["AWS アカウント内"] C["Amazon SageMaker Endpoint<br/>YomiToku-Pro Document Anal

    rgfx
    rgfx 2025/11/11
    via: "日本語特化AI-OCR「YomiToku-Pro」をAWS Marketplaceで商用提供開始/お客様のAWS環境内で専用APIにより安全に処理/「YomiToku-Client」も公開。CLI・バッチ処理・可視化機能" https://x.com/KINOCOAI/status/1987753885931573347
  • 日本語OCR「YomiToku」を活用したRAG構築とAdvanced RAGを用いて性能比較

    はじめに 近年、生成AIの活用が広がるなかで、社内文書やFAQなどの独自の情報を活用したRAG(Retrieval-Augmented Generation) の需要が高まっています。RAGは、大規模言語モデル(LLM) が持つ汎用的な知識に加え、最新情報や社内データといったLLMが学習していない外部知識を検索対象として組み合わせることで、より正確かつ最新の情報に基づいた回答生成を可能にします。 私は以前から生成AIやLLM、RAGといった技術に強い関心を持っていました。そこで今回は、その中でも特に注目を集めている「RAG」に焦点を当てました。検証では、RAGの発展的な手法であるHyDEやハイブリッド検索を導入し、通常のRAG手法との比較を行っています。また、以前の検証でOCR技術に興味を持ったことから、ドキュメントの読み込みには日語文書画像解析に特化したPythonパッケージである

    日本語OCR「YomiToku」を活用したRAG構築とAdvanced RAGを用いて性能比較
    rgfx
    rgfx 2025/11/11
    神エクセルにも強そう via:"Yomitoku OCR でPDFを解析し、pdfmeのテンプレート化するPOC/ここ最近触った技術で1番興奮してる 精度も完璧、そしてラップトップで動かせる小ささ" https://x.com/labelmake/status/1987798879685718101
  • End of Japanese community | Hacker News

  • LLMのコーディングエージェント(主にCodex)を効率よく使うために

    前提 私が現在使っているLLMコーディングエージェントは下記です。 Codex(proプラン $200) Cursor(proプラン $20) Gemini(workspace Business) 1年前にclineを使いはじめ、今年の春ごろにmaxプラン($100)でClaude Codeが使えるようになったタイミングでClaude Codeに乗り換えました。 その後、gpt-5-codexが登場し、maxプランの残期間があったClaude Codeと併用していましたが、同じ不具合でもCodexはすんなり不具合を解決できるのに、Claude Codeだといつまでたっても解決しないということが何件かあり、またクラウドでも依頼できるという点に魅力を感じて、値段があがるもののCodexに乗り換えました。 HubspotというCRMを使ったRailsアプリを、TwentyというオープンソースのC

    LLMのコーディングエージェント(主にCodex)を効率よく使うために
  • 【保存版】OpenAIのエンジニアが語る開発を10倍速にするCodeXの使い方大全:バイブコーディングで設計→実装→レビューまで自動化|チャエン | 重要AIニュースを毎日発信⚡️

    開発現場で急速に広がっているOpenAIのCodex(コーデックス)。記事では、OpenAI Dev Dayで公開された実践的な活用事例を、具体的なプロンプトやノウハウとともに詳しく解説します。 ▼公式セッション動画 1. Codexとは?シニアエンジニア級のAIチームメイトCodexはOpenAIが開発したAIソフトウェアエンジニア。開発チームのTibo氏はこう表現します: 「Codexは人間のチームメイトのようなもの。一緒にペアプログラミングしたり、タスクを委任したり、明示的な指示なしに仕事を進めてもらえます」 2024年8月からわずか数ヶ月で利用者が10倍に増加。開発業界で「バイブシフト」と呼ばれる変化が起きています。 1-1. GPT-5 Codexの特徴最新のGPT-5 Codexがユーザーから「物のシニアエンジニア」と評価される理由: 「褒め言葉が少なく、悪いアイデアには反

    【保存版】OpenAIのエンジニアが語る開発を10倍速にするCodeXの使い方大全:バイブコーディングで設計→実装→レビューまで自動化|チャエン | 重要AIニュースを毎日発信⚡️
  • LLM のアテンションと外挿 - ジョイジョイジョイ

    LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。稿ではさまざまな種類の注意機構を観察することでこの問題をひも解きたいと思います。 目次 目次 基的な考え方 文法ヘッド 注意の受け皿とレジスタトークン 逐次ヘッドと検索ヘッド 帰納ヘッド 関数ベクトル 反復ヘッド まとめ 基的な考え方 LLM の多くは注意機構と多層パーセプトロン (MLP) を交互に積み上げたアーキテクチャを持ちます。各層は複数の注意機構をもち、それぞれの機構を注意ヘッドと呼びます。 注意機構の役割は 文脈内の検索 ルール・アルゴリズムの実現 です。文脈とはプロンプトと今までの出力のことで、これを踏まえて次トークン予測を行います。注意機構は文脈から次トーク

    LLM のアテンションと外挿 - ジョイジョイジョイ
    rgfx
    rgfx 2025/09/29
  • ノートPCでも128BのLLMが動く。そう、Ryzen AI Maxとメモリ128GBならね

    ノートPCでも128BのLLMが動く。そう、Ryzen AI Maxとメモリ128GBならね
    rgfx
    rgfx 2025/07/31
  • Context Engineering

    最近、コンテキスト・エンジニアリングという言葉が、プロンプト・エンジニアリングに代わるより良い選択肢として支持され始めている。 私は気に入っている。 これは定着力がありそうだ。 私はプロンプト エンジニアリングよりも「コンテキスト エンジニアリング」という用語が当に好きです。 これは、コアとなるスキル、つまり、LLM によってタスクが妥当に解決可能となるようにすべてのコンテキストを提供する技術をより適切に説明しています。 「プロンプトエンジニアリング」よりも「コンテキストエンジニアリング」に +1。 プロンプトは、日常的に LLM に与える短いタスクの説明と関連付けられます。しかし、産業用 LLM アプリケーションでは、コンテキストエンジニアリングは、次のステップに最適な情報をコンテキストウィンドウに正確に記入する、繊細な技術と科学です。科学である理由は、これを適切に行うには、タスクの説

    Context Engineering
    rgfx
    rgfx 2025/07/19
  • MCPに入門する/ Introduction to MCP

    最近話題のModel Context Protocol(MCP)に関して、社内の勉強会(部内)で利用した資料を公開します! ざっくり以下の内容が入っています! プロトコル仕様 AWS MCPの話 開発方法

    MCPに入門する/ Introduction to MCP
    rgfx
    rgfx 2025/04/11
  • The First Real-World Long Context Benchmark for Writers - Fiction.live

    rgfx
    rgfx 2025/04/10
    "Google's Gemini 2.5 Pro is now the clear SOTA. This is the first time a LLM is potentially usable for long context writing. I'm interested in testing larger token sizes with this now."
  • なぜ MCP なのか

    なぜ自分が MCP を追いかけているのかを雑にだらだらと書いて行こうと思います。 乱文です。 オープンなプロトコル追いかけている理由は Model Context Protocol がオープンなプロトコルにしたことです。これが ChatGPT Plugins とかのクローズドなプロトコルであれば全く追いかけていなかったと思います。 MCP は Anthoropic 以外でも MCP クライアントを実装しさえしていれば、多くの MCP サーバーと接続する事が出来ます。実際 MCP を公開した Anthropic が提供している Claude Desktop や Claude Code だけでなく Cline や Cursor などが MCP クライアントを実装したことにより、MCP サーバーさえ実装してしまえば、様々な環境で利用できる仕組みになっています。 そして VS Code も MCP

    なぜ MCP なのか
    rgfx
    rgfx 2025/04/06
  • MCPでLLMに行動させる - Terraformを例とした tfmcp の紹介 - じゃあ、おうちで学べる

    はじめに こんにちは!今回は、私が最近開発した tfmcp というツールを紹介します。これは Terraform を LLM(大規模言語モデル)から操作できるようにするツールで、Model Context Protocol (MCP) を活用しています。 github.com このブログが良ければ読者になったり、GitHub リポジトリにStarをいただけると開発の励みになります。nwiizoをフォロワーしてくれるのもありがたいです。より良いツール開発のためのフィードバックもお待ちしています! MCP とは何か? 記事を始める前に、まず MCP (Model Context Protocol) について簡単に説明しましょう。MCP についてより詳しい情報は、公式ドキュメント modelcontextprotocol.io や Anthropic の Model Context Protoc

    MCPでLLMに行動させる - Terraformを例とした tfmcp の紹介 - じゃあ、おうちで学べる
    rgfx
    rgfx 2025/04/06
  • Claude Desktopとmcp-server-qdrantで超お手軽ナレッジベースの構築

    TL;DR qdrant/mcp-server-qdrantを使えばClaude Desktopからベクトル検索エンジンを操作できるよ ベクトルデータベースなので、LLMとの相性が良いよ 「ここまでのチャットを整理して保存しておいて」ができるのは、すごすぎるよ 1. Qdrantとは Qdrantはベクトル検索エンジンです。テキストをベクトル化して保存し、意味的な類似性に基づいて検索することができます。 通常のキーワード検索と異なり、ベクトル検索では単語の正確な一致ではなく、コンテンツの意味的な類似性に基づいて結果を返します。これにより、「先週のミーティングの決定事項」といった自然言語のクエリで、関連する情報を見つけることができます。 このQdrantとClaudeを連携させることで、ベクトルDBをメモ帳として扱うブルジョワなナレッジマネジメントが実現します。 PostgreSQLSQL

    Claude Desktopとmcp-server-qdrantで超お手軽ナレッジベースの構築
    rgfx
    rgfx 2025/03/28
    エージェントAIからMCP、ベクトルDBまで一気にコモディティになってて展開が早い
  • MCPサーバーを利用することはセキュリティ的に安全か?

    1. はじめに Model Context Protocol (以下、MCP) は、大規模言語モデル (LLM) と外部データソースやツールを連携させるための便利なオープンプロトコルです。 一方で、MCPサーバーは誰でも作成してGitHubで公開できるため、場合によっては悪意のあるコードが含まれている可能性も否定できません。自作のMCPサーバーに脆弱性を埋め込んでしまうのは自己責任ですが、実際には、公開されているMCPサーバーをマーケットプレイス経由で使用する場合、どの程度の安全性が期待できるのでしょうか? 稿では、MCPサーバーのマーケットプレイスの現状と、利用する上での注意点について解説します。 1.1. TL;DR 「誰かが何かを保証してくれるわけで、自己責任で使いましょう」というのが前提です。その中でも一定信用して良いと思われるのは、以下の2つです。それ以外は、公式な保証がない状

    MCPサーバーを利用することはセキュリティ的に安全か?
    rgfx
    rgfx 2025/03/27
  • ポイント・オブ・ノーリターン:プログラミング、AGI、アメリカ

    yomoyomo yomoyomo 雑文書き/翻訳者。1973年生まれ。著書に『情報共有の未来』(達人出版会)、訳書に『デジタル音楽の行方』(翔泳社)、『Wiki Way』(ソフトバンク クリエイティブ)、『ウェブログ・ハンドブック』(毎日コミュニケーションズ)がある。ネットを中心にコラムから翻訳まで横断的に執筆活動を続ける。 Tweet オライリー・メディアのコンテンツ戦略担当バイスプレジデントを務めるマイク・ルキダスは、以前よりプログラミングの未来について文章を書いており、ワタシもそれをフォローしてきました。 2019年5月には、プログラミング・ツールに関し、我々は未だ「パンチカード」を使っているようなものだと不満を表明した上で、「配管工」にたとえられる「ブルーカラー」のプログラマーにとってのプログラミングが、もっと視覚的なものになるべきと論じていますが、その背景には人工知能のコード作

    ポイント・オブ・ノーリターン:プログラミング、AGI、アメリカ
    rgfx
    rgfx 2025/03/26
    運試しと結果責任だけが残されるの、「全員が経営者」っぽい感じがある。各自が各々の分野において「創業者モード」をやっていく、グレーター創業者がレッサー創業者に外注、くらいの。つまりDeNAは正しい。
  • 言語モデルの物理学 - ジョイジョイジョイ

    言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学的な知識を深めるのではなく、17世紀にケプラーやニュートンが物理学において行ったような原理に基づいた研究を進め、「言語モデルはなぜこのような振る舞いをするのか」という問いに答えられるようになるべきという考え方です。 言語モデルの物理学の特徴は大きく2つあります。 第一は、ウェブから収集したコーパスを使わず、きっちりコントロールされたデータセットを使って言語モデルを訓練するということ。ウェブは誰も全体像を理解できないほど複雑で、ノイズにまみれています。物の物理学でも空気抵抗や摩擦があると、「鉄球は

    言語モデルの物理学 - ジョイジョイジョイ
    rgfx
    rgfx 2025/03/25
  • 「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表

    AppleAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。 この論文は、LLM(大規模言語モデル)が、当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。 研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにした

    「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表
    rgfx
    rgfx 2024/10/13
    ひっかけ問題に弱いの、例えばトラブルシューティングのロールプレイさせてみたらどうなるのかな。(体系づけて切り分けしないと表向きの症状から見える偽の原因に足を取られるやつ)/ https://www.trackingai.org/
  • Quick Start - kotaemon Docs

    This page is intended for end users who want to use the kotaemon tool for Question Answering on local documents. If you are a developer who wants contribute to the project, please visit the development page. Installation (Online HuggingFace Space) - easy (10 mins)¶ Visit this guide. Installation (Offline) - intermediate (20 mins)¶ Download¶ Download the kotaemon-app.zip file from the latest releas