[B! LLM] shoh8のブックマーク

AIがバイナリを直接吐くようにはならない - きしだのHatena

たびたび見かける「そのうちAIが直接バイナリを吐くようになるんでは」という話、原理的に難しいし、できるとしてもだれもやらないし、できるようになったとしてもだれも使わないので、今の仕組みのAIが直接バイナリを吐く未来は来ないと思います。ここらへんも参照 AIがコードを書くようになるなら、AIだけに理解できる言語を作ればいい、のかな？ - きしだのHatena AI専用のプログラミング言語は現れない - きしだのHatena AIが読み書きするコードも読みやすいほうがいい(トランスフォーマの特性の考慮やリーダブルコードについて追記) - きしだのHatena プログラミング言語は人間が扱いやすく機械が実現できるよう論理を表現するものでありプログラムの本体 - きしだのHatena ※ LLMが生成したコードを内部でコンパイラを呼び出してバイナリにするというのは、例えばここにあるようなプログラ

shoh8 2026/01/08

それはそう。コンパイラをAIが外部ツールとしてうまくやるのはあり得ても、AIがバイナリを直接吐くようにはならない

AI
LLM

リンク

アドベントカレンダーをLLMで書くくらいなら何も書かない方がいい。

はじめにこれから話すのは地雷の話で、踏むまではそれを知らない人もいるが一発の被弾が致命傷になる話だ。誰も話してくれないが、静かに起こっているアウトプットへの変化、そのムードについて書く。ムードなので定量的な話ではないが、その辺は差し引いて意見の一つとして読んで欲しい。「アウトプット最高！」の時代 Qiita、はてなブログ、Zennなどに書くのが当たり前の時代。書けば書くほど褒められる、というのが当たり前だった。量的な物の代表格として一人アドベントカレンダーという、12月に25本連続で記事を書くものを称賛する空気もあった。アウトプットの質自体を問われることは実はなかった。初心者も入れるように裾野を広げることは正しいし、内容のレベルによる足切りにはムーブメントを盛り下げるデメリットしかなかった。みんなで書けば所属企業のプレゼンス向上にも繋がるとして企業主導のテックブログが盛り上がり

shoh8 2025/12/01

“一番シンプルな対策はレビューや調査にのみ使い、執筆には使わない” /アドカレは人間が見たいけど、そうでなくなったら一気に興味失ってしまう

LLM

リンク

AIを賢く動かすのは「指示力」ではなく「文脈設計力」

プロジェクトルール（AGENTS.md,CLAUDE.md,copilot-instructions.mdなど）、MCPツール定義（使われなくても消費される）、指示・会話履歴...。これらがコンテキストウィンドウを圧迫していきます。 AIに「何を見せるか」を設計する確率を味方につける LLMは確率的に次の単語を予測しています。つまり、どれだけ賢いAIでも「当たりに向かうよう仕向けてあげる」ことが重要です。その確率の精度を高める方法が、AIに見せる情報（＝コンテキスト）を設計することです。適切な情報を適切な配置で見せれば、より正確な予測ができます。しかし、現代のLLMには大きな制約があります。コンテキストウィンドウのサイズが理想的な大きさに達しておらず、実用的に不足する場面がよくあります。制約の中で、いかに精度を高めるか。それがコンテキストエンジニアリングの本質です。「足し算」から

shoh8 2025/11/06

大枠で言うと、人間相手に仕事してもらうこともそんなに変わらないと思ってる。機嫌や体調がなく何度も文脈のリセットが効くところは人間より使いやすい

リンク

さくらインターネット、生成AI向け推論API基盤「さくらのAI Engine」を一般提供開始 | さくらインターネット

デジタルインフラサービスを提供するさくらインターネット株式会社（本社：大阪府大阪市、代表取締役社長：田中邦裕、以下「さくらインターネット」）は、生成AI向け推論API基盤「さくらのAI Engine（以下、本サービス）」を2025年9月24日（水）より一般提供を開始します。これにより、「さくらのクラウド」のコントロールパネルから本サービスを利用でき、大規模言語モデル（LLM）をはじめとする基盤モデルを、API経由でアプリケーションへ手軽に組み込むことが可能となります。生成AIを実業務やサービスで利用する「推論※1」需要の高まりを受け、企業や地方自治体などが自社サービスに会話生成や音声認識、および検索拡張生成（以下、RAG※2）に対応するベクトルデータベースを最小限の開発作業で実装できる、推論向けAPI基盤の開発に至りました。また、本サービスの提供開始にあわせて、フルマネージドの生成

shoh8 2025/09/25

へー提供開始してるのか

AI
LLM

リンク

RAGで「無関係な」文書をいれると性能が向上する理由を解明

導入こんにちは、株式会社ナレッジセンスの須藤英寿です。今回は、RAGの認知の階層を分析して、ハルシネーションを防ぐ手法「LFD」について紹介します。サマリー以前の我々のブログでLLMに無関係な文書を渡すことでRAGの性能が向上する、という突拍子もない論文を紹介したことがありました。今回紹介する論文では、その無関係な文書がLLM内部でどのような役割を担っているのかを分析し、原因を突き止めました。さらにそこから一歩踏み込み、無関係な文書を渡すことなく、同等の性能を向上させる手法「LFD」を発見しました。課題意識 RAGのハルシネーション RAGはユーザーの知りたい情報を検索して、検索結果をLLMに渡すことで、LLMの知らない情報も回答できるようにする為の技術です。しかし、LLMは自身の知る知識と検索結果を明確に区別できないために、たとえ正確に情報を検索できたとしても、正しい情報を回

shoh8 2025/09/03

外れ値は、叡智の北極星⭐︎

リンク

AIエージェントのサービス構築を検討しているあなたへ

はじめに本記事では、昨今話題の AI エージェントサービスをこれから作る方へ、AI エージェントシステムを作る上での抑えるべきポイントと実践的なハンズオンにて DeepDive していきたいと思います。本記事は 2 部構成になっており、以下の構成です。第 1 部: AI エージェントの基本概念とエージェントシステム構築のガイド第 2 部: Azure AI Agent Service を使ったワークフロールーティングの実装第１部では、OpenAI 社のa-practical-guide-to-building-agents を参考に、AI エージェントの基本概念とエージェントシステム構築のガイドを解説します。第２部では、Anthropic のブログ記事 Building Effective Agents – Workflow Routing で紹介されているワークフロールー

shoh8 2025/07/14

AIエージェントのサービス構築

リンク

降霊術で t_wada を AI に降ろして PR レビューして貰うテクニックが伸びたのでその裏側記事を書きました！｜Ryo@VibeCoder

最近 X（旧 Twitter）では「t_wada の TDD で進めてください」という一言で、テスト駆動の意図を一気に共有する"圧縮プロンプト"がバズっていますよね。この流れをさらに一歩進め、 AI に TDD をさせるのではなく、t_wada 本人を降霊させて "レビュー" をもらうという実験を行い、その結果をポストしたらご本人に言及頂き、インプレッションが非常に大きくなり、注目されました。例のポストみんな t_wada メソッドを TDD で進めるのに使ってるけど自分は PR やコード、テストの品質レビュー、リファクタリングのためのテスト網羅性のレビューなどに t_wada メソッドを使う事を推したい。テストケースの洗い出しの精度が異常に上がって一生レビューして貰ってる。是非ためして欲しい。 — Ryo HIGASHIGAWA (@biwakonbu) July 2, 202

shoh8 2025/07/11

呪文からプロンプトになってまたさらにハイコンテキストな呪文に圧縮され…

リンク

【2025年5月完全版】RAG の教科書

はじめに昨今、AI の進化により、様々な分野での応用が進んでいます。特に、自然言語処理(NLP)の分野では、RAG( Retrieval-Augmented Generation)が注目されています。RAG は、情報検索と生成を組み合わせた手法であり、特に大規模言語モデル(LLM)と組み合わせることで、その性能を大幅に向上させることができます。また、NativeRAG や GraphRAG, AgentRAG などさまざまな RAG のバリエーションが登場しており、これらは特定のユースケースやデータセットに対して最適化されています。今回は、RAG の基本的な概念から、RAG のプロジェクトの進め方、精度向上の方法に至るまで詳しく解説します。みなさんの GenAI Application の開発に役立てていただければ幸いです。本記事は 5 万文字を超える大作となっております。お時

shoh8 2025/05/26

リンク

MCPやAIエージェントに必須の「LLMの外部通信・連携」におけるセキュリティ観点 - GMO Flatt Security Blog

はじめにこんにちは。GMO Flatt Security株式会社セキュリティエンジニアの山川(@dai_shopper3)です。 LLMはテキスト生成、要約、質問応答といった多様な用途に高い能力を発揮しますが、単体での活用にはいくつかの制約があります。そもそもモデル単体には、ただ入力された自然言語に対して文字列を生成するだけの機能しかありませんから、LLMをもとに自律的に行動するAIを作るには、外部と情報をやり取りし、具体的なアクションを実行するための手段が必要です。また、モデルの知識は訓練データの収集時点で停止しており、それ以降の最新情報や特定の非公開情報も知りません（ナレッジカットオフ）。そのため、多くの実用的なアプリケーションにおいては、外部サービスとのAPI連携のような、LLMがモデル外の知識や計算資源にアクセスする仕組みが不可欠となっています。特にLLMが外部と連携できる

shoh8 2025/05/14

個人利用は裁量の中で全然可能なんだが、業務に使おうとしたら、ステークホルダーにそれぞれ説明できる労力と自信がない

リンク

AI エージェントを仕組みから理解する

はじめにこんにちは、ダイニーの ogino です。この記事では、AI エージェントや MCP に入門しようとしている人向けに、エージェントの内部実装について概説します。これを理解することで、現状の AI にできることが明確になり、今後の技術動向を追う上でも役に立つはずです。本記事の要旨 MCP の表層的なプロトコルには大した意味も革新性も無いので、AI エージェントを理解するにはまずコンテキストを把握しましょう。素の LLM の能力と、エージェントの実装を切り分ける AI エージェントは、自律的に判断してファイル操作や Web ブラウザなどのツールを使い分けることが可能です。しかし、その基盤となっている LLM にできるのは、テキストを入力してテキストを出力することだけに限られます[1]。以降では「LLM にできないこと」を掘り下げ、それを補うために AI エージェントがどのよう

shoh8 2025/05/09

リンク

MCPを活用した検索システムの作り方/How to implement search systems with MCP #catalks

MCPを活用した検索システムの作り方。あるいは、MCPサーバーはつなぐだけ、検索機能は別物ということについて。解説ブログ https://dev.classmethod.jp/articles/catalk-how-to-implement-search-systems-with-mcp/ …

shoh8 2025/04/20

MCPサーバはライトに。検索サービスはヘビーに実装。

リンク

ローカルLLMでzoltraakを動かせるか検証してみた

はじめにどんな人向けの記事？ローカルLLMに興味のある人 zoltraakに興味のある方 LLMを用いて要件定義書を作りたい方内容今回は元木さんのZoltraakを使って、自然言語から要件定義書を作ってみようと思います。ただし、リリースされてから2ヶ月以上経ったzoltraakを普通に動かすだけでは面白くないので、この記事ではローカルLLMを使った場合にどの程度の品質のアウトプットが得られるか、そもそもまともに使えるのかを検証してみたいと思います。結論結論から述べると、下記の通りになりました。現状のローカルLLMだけでzoltraakを完全に動作させるのは難しそう。要件定義書は問題なく作成できる。その後の工程の、ディレクトリ・ファイル構成を作成するための実行可能なpythonコードを作ることができなかった。 grimoiresの記載を工夫することで、ある程度は改善できる

shoh8 2024/07/16

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

LLMに関するshoh8のブックマーク (12)

お知らせ

はてなブックマークの計画メンテナンスのお知らせ（2026年1月23日(金) 深夜1:30〜3:00）

今週のはてなブックマーク数ランキング（2026年1月第2週）

月間はてなブックマーク数ランキング（2025年12月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス