言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学的な知識を深めるのではなく、17世紀にケプラーやニュートンが物理学において行ったような原理に基づいた研究を進め、「言語モデルはなぜこのような振る舞いをするのか」という問いに答えられるようになるべきという考え方です。 言語モデルの物理学の特徴は大きく2つあります。 第一は、ウェブから収集したコーパスを使わず、きっちりコントロールされたデータセットを使って言語モデルを訓練するということ。ウェブは誰も全体像を理解できないほど複雑で、ノイズにまみれています。本物の物理学でも空気抵抗や摩擦があると、「鉄球は
バイブスでコーディング Andrej Karpathy(OpenAI共同創業者)がXで提唱した“vibe coding”の概念が、現在のAIエージェントを使った「ノリや雰囲気、感性」などを重視したコーディングスタイルをうまく言語化していて面白い。 There's a new kind of coding I call "vibe coding", where you fully give in to the vibes, embrace exponentials, and forget that the code even exists. It's possible because the LLMs (e.g. Cursor Composer w Sonnet) are getting too good. Also I just talk to Composer with SuperWhi
はじめに:Deep Researchの衝撃 openai.com 先日、ChatGPTの「Deep Research」という機能がProユーザー向けに提供されました。 Deep Researchは、オンライン上の情報ソースからデータを検索し、詳細なレポートを作成してくれる「リサーチエージェント(アシスタント)」と呼ばれるものです。 実は、ChatGPTに先駆けてGoogleのGeminiにも同名の機能が存在していたり*1、Perplexity AIにも検索結果と応答から詳細なレポートを生成する機能がすでに提供されていました*2。 さらにさかのぼると、LangChainユーザーの間ではGPT Researcherという類似のツールとして知られているかもしれません。 私自身は『その仕事、AIエージェントがやっておきました。』という本を通じて、このようなリサーチエージェントの存在を知りました。
Today, we're open-sourcing the Model Context Protocol (MCP), a new standard for connecting AI assistants to the systems where data lives, including content repositories, business tools, and development environments. Its aim is to help frontier models produce better, more relevant responses. As AI assistants gain mainstream adoption, the industry has invested heavily in model capabilities, achievin
DeepSeek狂奏曲 2025.01.30 Updated by Ryo Shimizu on January 30, 2025, 08:35 am JST DeepSeekという中国製のモデルが世界を席巻している。 OpenAIが有償で提供するo1より高性能だとか、OpenAIの規約に違反した方法で学習されているとか、色々あるのだが、それを噂する人々が不正確な情報に基づいてピーチクパーチクやっているだけなので基本的にメディアにはほぼ出鱈目な情報しか出ていない。 まず、整理しておきたいのは、DeepSeek(特にV3とR1)とは何か、ということだ。 DeepSeek-V3は、GPT-4o相当のAIであり、オープンウェイト(AIの学習結果=重みが公開されている)で公開されている。オープンソースではない。 DeepSeek-R1は、o1相当のAIであり、こちらもオープンウェイトで公開されてい
フィードバックを送信 LLM: 大規模言語モデルとは何でしょうか。 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。 新しいテクノロジーである大規模言語モデル(LLM)は、トークンまたはトークンのシーケンスを予測します。場合によっては、数段落分のトークンを予測します。トークンは、単語、サブワード(単語のサブセット)、単一の文字にすることができます。LLM は、次の理由から、N グラム言語モデルや再帰型ニューラル ネットワークよりもはるかに優れた予測を行います。 LLM には、再帰モデルよりもはるかに多くのパラメータが含まれています。 LLM ははるかに多くのコンテキストを収集します。 このセクションでは、LLM の構築に最も成功し、広く使用されているアーキテクチャである Transformer について説明します。 Transformer とは Transf
The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights
Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we introduce a 1-bit LLM variant, namely BitNet b1.58, in which every single parameter (or weight) of the LLM is ternary {-1, 0, 1}. It matches the full-precision (i.e., FP16 or BF16) Transformer LLM with the same model size and training tokens in terms of both perplexity and end-t
DeepSeek-R1は、ローカル環境での大規模言語モデル(LLM)の実行を可能にする強力なモデルです。Ollamaは、そのセットアップと実行を簡素化するツールとして最適です。この記事では、Ollamaを使用してDeepSeek-R1をローカルで実行する手順を説明します。 DeepSeek-R1をローカルで実行するためのOllamaセットアップ手順 1. システム要件の確認 オペレーティングシステム:macOS、Linux、またはWindows ハードウェア: RAM:最低8GB(推奨16GB以上) GPU:NVIDIA GPU(CUDA対応)を推奨。ただし、GPUがない場合でもCPUでの実行は可能ですが、パフォーマンスは低下します。 ディスク容量:モデルサイズに応じて10GB以上の空き容量 なお、今回はGPUを搭載していないノートPCでOllamaを実行しました。 2. Ollamaのイ
www.youtube.com 昨夜未明、インターネット某所で、プログラミング支援ツール「Cline」と、それを用いたゲーム開発の経験談*1を語り合う会合がありました。 CLINEが持つ、人間の介入を最小限に抑えながら暴走機関車ようにコードを生成する性質を軸に、CopilotやCursorなど既存のAIコーディングツールとの比較や、これまでのコーディングツールのアプローチからの変化、今後の開発における展望も議論されていました。 Clineの性質 ホストの@mizchiさんはClineを「強いパーミッション持って自動で実行されるのでイテレーションの回数が多い」「AIにコーディングのアシスタントではなく主導権を持たせても何とかなるということを気づかせてしまった」と評価していました。Cursorなどと比較してその自律性(相談せず勝手にやっちゃう)に強く惹かれているそうです。 確かに全部読み込ませ
この記事は はてなエンジニアアドベントカレンダー 2024 5 日目の記事です。 昨日は id:susisu さんの Data types à la carte in TypeScript でした。 本人が「アクセス増えたと思ったら別の記事で、全然読まれてない...」と言っていたので「いきなりフランス語で難しそうやからね」と伝えました。本文は日本語なので、みなさんも読んで下さい。 今日は最近見て面白かったコードの紹介です。 ChatGPT が流行って以来、アプリでストリームのレスポンスをよく見るようになりました。 LLM によるテキスト生成はわりと時間がかかる処理で、もしすべて生成し終えてからレスポンスするとユーザーを待たせてしまうからでしょう。テキストがちょっとずつ表示される UI は昔からあるものですが、LLM を使ったアプリケーションが出てきて以来、演出としてではなく実用としてよく見
As AI engineers, our products communicate with large language models using chat messages composed of text prompts. While developing Copilot Chat, we've found that composing prompts with just bare strings is unwieldy and frustrating. Some of the challenges we ran into include: We used either programmatic string concatenation or template strings for composing prompts. Programmatic string concatenati
Fast and Portable Llama2 Inference on the Heterogeneous EdgeNov 09, 2023 • 12 minutes to read The Rust+Wasm stack provides a strong alternative to Python in AI inference. Compared with Python, Rust+Wasm apps could be 1/100 of the size, 100x the speed, and most importantly securely run everywhere at full hardware acceleration without any change to the binary code. Rust is the language of AGI. We cr
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く