タグ

LLMに関するshoh8のブックマーク (12)

  • AIがバイナリを直接吐くようにはならない - きしだのHatena

    たびたび見かける「そのうちAIが直接バイナリを吐くようになるんでは」という話、原理的に難しいし、できるとしてもだれもやらないし、できるようになったとしてもだれも使わないので、今の仕組みのAIが直接バイナリを吐く未来は来ないと思います。 ここらへんも参照 AIがコードを書くようになるなら、AIだけに理解できる言語を作ればいい、のかな? - きしだのHatena AI専用のプログラミング言語は現れない - きしだのHatena AIが読み書きするコードも読みやすいほうがいい(トランスフォーマの特性の考慮やリーダブルコードについて追記) - きしだのHatena プログラミング言語は人間が扱いやすく機械が実現できるよう論理を表現するものでありプログラムの体 - きしだのHatena ※ LLMが生成したコードを内部でコンパイラを呼び出してバイナリにするというのは、例えばここにあるようなプログラ

    AIがバイナリを直接吐くようにはならない - きしだのHatena
    shoh8
    shoh8 2026/01/08
    それはそう。コンパイラをAIが外部ツールとしてうまくやるのはあり得ても、AIがバイナリを直接吐くようにはならない
  • アドベントカレンダーをLLMで書くくらいなら何も書かない方がいい。

    はじめに これから話すのは地雷の話で、踏むまではそれを知らない人もいるが一発の被弾が致命傷になる話だ。 誰も話してくれないが、静かに起こっているアウトプットへの変化、そのムードについて書く。 ムードなので定量的な話ではないが、その辺は差し引いて意見の一つとして読んで欲しい。 「アウトプット最高!」の時代 Qiita、はてなブログ、Zennなどに書くのが当たり前の時代。書けば書くほど褒められる、というのが当たり前だった。量的な物の代表格として一人アドベントカレンダーという、12月に25連続で記事を書くものを称賛する空気もあった。 アウトプットの質自体を問われることは実はなかった。初心者も入れるように裾野を広げることは正しいし、内容のレベルによる足切りにはムーブメントを盛り下げるデメリットしかなかった。 みんなで書けば所属企業のプレゼンス向上にも繋がるとして企業主導のテックブログが盛り上がり

    アドベントカレンダーをLLMで書くくらいなら何も書かない方がいい。
    shoh8
    shoh8 2025/12/01
    “一番シンプルな対策はレビューや調査にのみ使い、執筆には使わない” /アドカレは人間が見たいけど、そうでなくなったら一気に興味失ってしまう
  • AIを賢く動かすのは「指示力」ではなく「文脈設計力」

    プロジェクトルール(AGENTS.md,CLAUDE.md,copilot-instructions.mdなど)、MCPツール定義(使われなくても消費される)、指示・会話履歴...。これらがコンテキストウィンドウを圧迫していきます。 AIに「何を見せるか」を設計する 確率を味方につける LLMは確率的に次の単語を予測しています。つまり、どれだけ賢いAIでも「当たりに向かうよう仕向けてあげる」ことが重要です。 その確率の精度を高める方法が、AIに見せる情報(=コンテキスト)を設計することです。適切な情報を適切な配置で見せれば、より正確な予測ができます。 しかし、現代のLLMには大きな制約があります。コンテキストウィンドウのサイズが理想的な大きさに達しておらず、実用的に不足する場面がよくあります。 制約の中で、いかに精度を高めるか。それがコンテキストエンジニアリングの質です。 「足し算」から

    AIを賢く動かすのは「指示力」ではなく「文脈設計力」
    shoh8
    shoh8 2025/11/06
    大枠で言うと、人間相手に仕事してもらうこともそんなに変わらないと思ってる。機嫌や体調がなく何度も文脈のリセットが効くところは人間より使いやすい
  • さくらインターネット、生成AI向け推論API基盤「さくらのAI Engine」を一般提供開始 | さくらインターネット

    デジタルインフラサービスを提供するさくらインターネット株式会社(社:大阪大阪市、代表取締役社長:田中 邦裕、以下「さくらインターネット」)は、生成AI向け推論API基盤「さくらのAI Engine(以下、サービス)」を2025年9月24日(水)より一般提供を開始します。 これにより、「さくらのクラウド」のコントロールパネルからサービスを利用でき、大規模言語モデル(LLM)をはじめとする基盤モデルを、API経由でアプリケーションへ手軽に組み込むことが可能となります。 生成AIを実業務やサービスで利用する「推論※1」需要の高まりを受け、企業や地方自治体などが自社サービスに会話生成や音声認識、および検索拡張生成(以下、RAG※2)に対応するベクトルデータベースを最小限の開発作業で実装できる、推論向けAPI基盤の開発に至りました。 また、サービスの提供開始にあわせて、フルマネージドの生成

    さくらインターネット、生成AI向け推論API基盤「さくらのAI Engine」を一般提供開始 | さくらインターネット
    shoh8
    shoh8 2025/09/25
    へー提供開始してるのか
  • RAGで「無関係な」文書をいれると性能が向上する理由を解明

    導入 こんにちは、株式会社ナレッジセンスの須藤英寿です。 今回は、RAGの認知の階層を分析して、ハルシネーションを防ぐ手法「LFD」について紹介します。 サマリー 以前の我々のブログでLLMに無関係な文書を渡すことでRAGの性能が向上する、という突拍子もない論文を紹介したことがありました。 今回紹介する論文では、その無関係な文書がLLM内部でどのような役割を担っているのかを分析し、原因を突き止めました。さらにそこから一歩踏み込み、無関係な文書を渡すことなく、同等の性能を向上させる手法「LFD」を発見しました。 課題意識 RAGのハルシネーション RAGはユーザーの知りたい情報を検索して、検索結果をLLMに渡すことで、LLMの知らない情報も回答できるようにする為の技術です。しかし、LLMは自身の知る知識と検索結果を明確に区別できないために、たとえ正確に情報を検索できたとしても、正しい情報を回

    RAGで「無関係な」文書をいれると性能が向上する理由を解明
    shoh8
    shoh8 2025/09/03
    外れ値は、叡智の北極星⭐︎
  • AIエージェントのサービス構築を検討しているあなたへ

    はじめに 記事では、昨今話題の AI エージェントサービスをこれから作る方へ、AI エージェントシステムを作る上での抑えるべきポイントと実践的なハンズオンにて DeepDive していきたいと思います。 記事は 2 部構成になっており、以下の構成です。 第 1 部: AI エージェント の基概念とエージェントシステム構築のガイド 第 2 部: Azure AI Agent Service を使ったワークフロールーティングの実装 第1部では、OpenAI 社のa-practical-guide-to-building-agents を参考に、AI エージェントの基概念とエージェントシステム構築のガイドを解説します。 第2部では、Anthropic のブログ記事 Building Effective Agents – Workflow Routing で紹介されている ワークフロールー

    AIエージェントのサービス構築を検討しているあなたへ
    shoh8
    shoh8 2025/07/14
    AIエージェントのサービス構築
  • 降霊術で t_wada を AI に降ろして PR レビューして貰うテクニックが伸びたのでその裏側記事を書きました!|Ryo@VibeCoder

    最近 X(旧 Twitter)では「t_wada の TDD で進めてください」という一言で、テスト駆動の意図を一気に共有する"圧縮プロンプト"がバズっていますよね。 この流れをさらに一歩進め、 AI に TDD をさせるのではなく、t_wada 人を降霊させて "レビュー" をもらう という実験を行い、その結果をポストしたらご人に言及頂き、インプレッションが非常に大きくなり、注目されました。 例のポスト みんな t_wada メソッドを TDD で進めるのに使ってるけど自分は PR やコード、テストの品質レビュー、リファクタリングのためのテスト網羅性のレビューなどに t_wada メソッドを使う事を推したい。 テストケースの洗い出しの精度が異常に上がって一生レビューして貰ってる。是非ためして欲しい。 — Ryo HIGASHIGAWA (@biwakonbu) July 2, 202

    降霊術で t_wada を AI に降ろして PR レビューして貰うテクニックが伸びたのでその裏側記事を書きました!|Ryo@VibeCoder
    shoh8
    shoh8 2025/07/11
    呪文からプロンプトになってまたさらにハイコンテキストな呪文に圧縮され…
  • 【2025年5月完全版】RAG の教科書

    はじめに 昨今、AI の進化により、様々な分野での応用が進んでいます。特に、自然言語処理(NLP)の分野では、RAG( Retrieval-Augmented Generation)が注目されています。RAG は、情報検索と生成を組み合わせた手法であり、特に大規模言語モデル(LLM)と組み合わせることで、その性能を大幅に向上させることができます。 また、NativeRAG や GraphRAG, AgentRAG などさまざまな RAG のバリエーションが登場しており、これらは特定のユースケースやデータセットに対して最適化されています。 今回は、RAG の基的な概念から、RAG のプロジェクトの進め方、精度向上の方法に至るまで詳しく解説します。 みなさんの GenAI Application の開発に役立てていただければ幸いです。 記事は 5 万文字を超える大作となっております。 お時

    【2025年5月完全版】RAG の教科書
  • MCPやAIエージェントに必須の「LLMの外部通信・連携」におけるセキュリティ観点 - GMO Flatt Security Blog

    はじめに こんにちは。GMO Flatt Security株式会社 セキュリティエンジニアの山川(@dai_shopper3)です。 LLMはテキスト生成、要約、質問応答といった多様な用途に高い能力を発揮しますが、単体での活用にはいくつかの制約があります。そもそもモデル単体には、ただ入力された自然言語に対して文字列を生成するだけの機能しかありませんから、LLMをもとに自律的に行動するAIを作るには、外部と情報をやり取りし、具体的なアクションを実行するための手段が必要です。 また、モデルの知識は訓練データの収集時点で停止しており、それ以降の最新情報や特定の非公開情報も知りません(ナレッジカットオフ)。そのため、多くの実用的なアプリケーションにおいては、外部サービスとのAPI連携のような、LLMがモデル外の知識や計算資源にアクセスする仕組みが不可欠となっています。 特にLLMが外部と連携できる

    MCPやAIエージェントに必須の「LLMの外部通信・連携」におけるセキュリティ観点 - GMO Flatt Security Blog
    shoh8
    shoh8 2025/05/14
    個人利用は裁量の中で全然可能なんだが、業務に使おうとしたら、ステークホルダーにそれぞれ説明できる労力と自信がない
  • AI エージェントを仕組みから理解する

    はじめに こんにちは、ダイニーの ogino です。 この記事では、AI エージェントや MCP に入門しようとしている人向けに、エージェントの内部実装について概説します。これを理解することで、現状の AI にできることが明確になり、今後の技術動向を追う上でも役に立つはずです。 記事の要旨 MCP の表層的なプロトコルには大した意味も革新性も無いので、AI エージェントを理解するにはまずコンテキストを把握しましょう。 素の LLM の能力と、エージェントの実装を切り分ける AI エージェントは、自律的に判断してファイル操作や Web ブラウザなどのツールを使い分けることが可能です。しかし、その基盤となっている LLM にできるのは、テキストを入力してテキストを出力することだけに限られます[1]。 以降では「LLM にできないこと」を掘り下げ、それを補うために AI エージェントがどのよう

    AI エージェントを仕組みから理解する
    shoh8
    shoh8 2025/05/09
  • MCPを活用した検索システムの作り方/How to implement search systems with MCP #catalks

    MCPを活用した検索システムの作り方。あるいは、MCPサーバーはつなぐだけ、検索機能は別物ということについて。 解説ブログ https://dev.classmethod.jp/articles/catalk-how-to-implement-search-systems-with-mcp/ …

    MCPを活用した検索システムの作り方/How to implement search systems with MCP #catalks
    shoh8
    shoh8 2025/04/20
    MCPサーバはライトに。検索サービスはヘビーに実装。
  • ローカルLLMでzoltraakを動かせるか検証してみた

    はじめに どんな人向けの記事? ローカルLLMに興味のある人 zoltraakに興味のある方 LLMを用いて要件定義書を作りたい方 内容 今回は元木さんのZoltraakを使って、自然言語から要件定義書を作ってみようと思います。 ただし、リリースされてから2ヶ月以上経ったzoltraakを普通に動かすだけでは面白くないので、この記事ではローカルLLMを使った場合にどの程度の品質のアウトプットが得られるか、そもそもまともに使えるのかを検証してみたいと思います。 結論 結論から述べると、下記の通りになりました。 現状のローカルLLMだけでzoltraakを完全に動作させるのは難しそう。 要件定義書は問題なく作成できる。 その後の工程の、ディレクトリ・ファイル構成を作成するための実行可能なpythonコードを作ることができなかった。 grimoiresの記載を工夫することで、ある程度は改善できる

    ローカルLLMでzoltraakを動かせるか検証してみた
  • 1