You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
アイコンが変わったerukitiです。最近はやりのgpt-4o image generationを使って、顔だけだったアイコンに全身が追加されました。2023年4月10日に初めてのLLMプロダクトの開発キックオフからもうすぐで二年です。rat yearなこの業界なんで、変化がめまぐるしすぎますね。 今回は、真に高速なAIコーディングのメソッドを確立するために、中規模くらいのコードをコーディングエージェントのみに書かせる実験をしています。コーディングエージェントはCline派生であるRoo Code(以後Rooと呼ぶ)を使っています。 ※完全に個人研究としてやっているため、会社のリソースは使っていません。 作っているものはコーディングエージェントのコアライブラリ + おまけのCLI 規模としては136ファイル・26410行(一時期30000行弱までいった) なぜコーディングエージェントを使っ
はじめに Googleが2025年3月14日に発表したGemini-2.0と、続けてOpenAIが2025年3月26日に発表したGPT-4oの画像生成能力は、これまでの画像生成AIでは到達しえないレベルの制御性・品質での画像生成を実現しました。 ここ1年半ほど画像生成AIいじりを仕事にしてきた者としては、これまで積み上げてきた成果や進捗がすべて無に帰すレベルでの進化が突然起き、巨人にすべてを蹴散らされたという感じです。別のスキルを身につけたほうがいいかな… しかし一方で、この進化は決して1日にして為されたものではなく、これまでの研究成果が地道に蓄積された結果です。本記事では、その驚異的な画像生成能力、ひいてはAny-to-Anyの生成能力の裏にある技術的な背景を、分かる範囲でサクッと解説していきます。 これまでの画像生成AI TL;DR: これまで広く利用されてきた画像生成AIは、拡散モデ
言語モデルの物理学 (Physics of Language Models) とは、FAIR (Meta) の Zeyuan Allen-Zhu が提唱した、言語モデルの研究を進めるためのコンセプトです。ざっくり言うと、「あのモデルはこう」とか「そのモデルはこのモデルよりもこう」というような博物学的な知識を深めるのではなく、17世紀にケプラーやニュートンが物理学において行ったような原理に基づいた研究を進め、「言語モデルはなぜこのような振る舞いをするのか」という問いに答えられるようになるべきという考え方です。 言語モデルの物理学の特徴は大きく2つあります。 第一は、ウェブから収集したコーパスを使わず、きっちりコントロールされたデータセットを使って言語モデルを訓練するということ。ウェブは誰も全体像を理解できないほど複雑で、ノイズにまみれています。本物の物理学でも空気抵抗や摩擦があると、「鉄球は
日本語Full-duplex音声対話システムの試作 Paper (To appear) | Model | Code 大橋 厚元,飯塚 慎也,姜 菁菁,東中 竜一郎 名古屋大学 大学院情報学研究科 概要: 人間同士の対話における発話のオーバーラップや相槌など,同時双方向的な特徴をモデル化できるfull-duplex音声対話システムは,近年注目を集めている.しかし日本語においては,full-duplex音声対話システムはほとんど見られず,full-duplex音声対話システムの開発に関する知見は不足している.本研究では,英語における主要なfull-duplex音声対話システムであるMoshi[1] をベースとすることで,日本語で利用可能な最初のfull-duplex音声対話システム J-Moshi[2] を試作し,公開する.
本記事では、現在流行している「RAG」技術について、2024年トレンドの振り返りと、2025年の予想をします。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。 この記事は何 2024年は、RAGが大流行した年でした。この記事では、2024年の技術トレンドを振り返りつつ、2025年のRAGの進展を予想したいと思います。技術的トレンドはもちろん、普段、企業向けにRAGを提供している会社としての、僕の肌感覚も合わせて、お伝えできればと思います。 本題 ざっくりサマリー 結論として、RAGは、来年も変わらず流行し続けると予想します。 まず来年は、これまで以上に回答精度が向上するのは間違いないです。その理由は、LLMの価格低下トレンドと入力できるコンテキスト増大トレンドが、まだ続くためです。加えて、LLMが「視覚・音声」の入力手段を獲得したこと、ベクトルD
We are excited to announce our Series B funding round led by a16z.
本エントリは Ubie 生成AI Advent Calendar 2024 の9日目の記事です。LLMの進化が目覚ましいですが、現状ではLLM単体では対応が難しい課題も多く存在します。そこで重要になるのが、LLMと他のツールとの連携です。 本記事では、LLMで不得意な分野を埋めるツールの一つとして数理最適化との連携方法について、自分の試している内容を簡単に紹介します。 LLMと数理最適化を組み合わせる 数理最適化とは、問題に対して明確に定義された条件(制約条件)や目標(目的関数)をもとに、最適な解を見つけ出す技術です。交通計画や物流の効率化、シフト作成、エネルギー管理など、さまざまな応用があります。 出典: 日本オペレーションズ・リサーチ学会ポスター 数理最適化を用いると、LLMの苦手とする厳密な制約の取り扱いが可能となります。たとえば配送計画では複数の条件(時間枠、移動時間、積載量など)
何が起きたのか 生成AIが好きな個人がなんでも出展できる、 「なんでも生成AI展示会」 というイベントがありまして、 11/16(土) 12:30 ~ 18:00にて「#生成AIなんでも展示会」を開催します🎉 個人の方が生成AIで作っているものを見ることができる・体験することができるイベントになっています! 申し込みURLは以下⬇️https://t.co/aNIQ6myJ4q 以下の方との共同主催です@sald_ra @GianMattya @miketako3 @Yanagi_1112 — ようさん (@ayousanz) September 28, 2024 人づてに出展しないか誘われたので、ストレス解消がてら9月頃から「マルチエージェントLLM(大規模言語モデル)オーケストレーション」というコンセプトで競馬予想をするシステムをシコシコと土日に作っておりました。 (ふだんは仕事でウ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 教科書をLaTeXおよびPDFファイルで自動生成するツールを作りました! プログラムはGithubで公開しており、Google Colabで実行できます。 ツールの名前は、AutoGenBookとしました。 このツールにより、あなたのバックグラウンドを考慮した上で、あなたの知りたい分野の教科書を数十円くらいで作ることができます!! 以下は「機械学習のための線形代数」についての教科書を出力した結果です。PDFはこちらに置いています。 Markdownでの出力にも対応しました(2024/10/19)。 数式だけでなく、プログラムも表示できま
AIと量子コンピューティングの研究開発を行なうKandaQuantumは、2024年8月31日、顧客の要望内容を元に自動的に要件定義を生成し、さらに自律的にシステムを構築する要件定義システム生成AI「Babel(バベル)」をリリースした。 Babelは一行の要望から要望一覧、要件定義まで一気通貫で記載する。「要件定義プログラミング」により、自然言語からコードへの直接変換を実現。顧客の要望やビジョンを入力するだけで、Babelが詳細な要件定義のYAMLファイルを自動生成する。その上で生成された要件定義に基づき、Babelが独自にシステムを設計、開発。技術的な詳細を指定することなく、望む機能やふるまいを記述するだけでシステムが構築される。
はじめに ソースコードをLLMに読んでもらうとき、単一ファイルだと楽なのですが、GitHubのリポジトリのように複数ファイルから構成されるプロジェクトだと困ってしまいますね。 リポジトリごとLLMに読んでもらえるようにいい感じにテキスト化できると良いですね。そんなソフトがありました。しかも2つ。 両方ともほとんどコンセプトは同じです。特に後者のgenerate-project-summaryは使い方も含めて、自分のやりたいことが、すでに開発者の清水れみおさんが以下の記事にまとめていました。 なので、あんまり書く必要ないのですが、せっかくなのでgpt-repository-loaderの使い方と、出力したファイルの別の活用方法について書いてみたいと思います。 追記:以下のも気になるので試してみたいです。試したら追記します。 gpt-repository-loaderでリポジトリをテキストに変
どんな人向けの記事? これからRAGを作ってみたい DifyやLangChainにこだわらず、自分で開発をハンドリングしたい ベクトルDBや埋め込みモデルの選定の勘所をサッと知りたい ここではRAGとは何かのような話題は扱いません。 RAGが、ほぼAI活用の現実的な最適解になりつつある LLMは高度な知的タスクを実行可能である。 そんな理解が世界に広まっていく中で、企業は自らが蓄えたデータをLLMに組み合わせてどう活用するか躍起になっています。これからはビッグデータだ!という時代を経ているため、情報インフラに投資した企業も多く、AIでデータを活用する流れはもはや確定路線と言えます。 この問題を解決する手法として一番最初に思いつくのは、モデル自体を改変するファインチューニングです。しかし、ファインチューニングにはいくつかの実用上の問題があります。ファインチューニング自体に専門知識が必要である
Difyを使ってみました。クラウドベースのLLM特化のワークフロー作成ツールです。ZapierやMakeとの違いはLLMに特化してるかどうか。 私の期待としてはGPTsではできない再起的なLLMの呼び出し、バッチ処理、他のソースの取り込み、コードが書けない人でもRAGが扱えるようにしたいということでした。 結論から書くと期待してたことは大体できそうでした。 入力としてCSVの処理が始めからついている 作ったワークフローについて他のワークフローから呼び出したりWeb APIとしてすぐに使える Notionを知識のソースとして使える(Notionへのデータ挿入もDifyから自動化できるため自動で成長するチャットボットも作れそう) GPTsではできないことがコードなしでできる なおDifyはオープンソースとなっており自前でホスティングすることも可能です。今回はまずはクラウドサービスを利用してみま
AIにデータを構造化させる際に、指定したスキーマに確実に従わせることが可能なモードをOpenAIがリリースしました。 Introducing Structured Outputs in the API | OpenAI https://openai.com/index/introducing-structured-outputs-in-the-api/ 構造化されていないデータを読み取り、構造化されたデータを出力するのはAIの主要なユースケースの一つです。これまでもOpenAIのAPIでは「JSONモード」という設定が存在しており、指定した構造を持つJSONをAIに出力させることが可能でしたが、必ずしも指定した構造通りのデータが出力されるとは限りませんでした。 今回リリースされた「gpt-4o-2024-08-06」モデルでは、strictを「true」に設定することで100%の精度で指定
こんにちは。PharmaXの上野です。 今回はLLMアプリケーションを評価する上で知っておくべき評価の基本をきちんと整理したいと思います。 これまで何度かLLMアプリケーションの評価について語ってきました。 運用についても記事や発表の形でシェアを行ってきました。 ですが、まだまだ「評価とはなにか?」という基本的なところで躓いてしまっている方も多い印象なので、今回は前提から丁寧に評価の全体像をまとめていきたいと思います。 LLMアプリケーションを運用している方の参考になれば嬉しいです! なぜLLMアプリケーションを評価する必要があるのか LLMをアプリケーションに組み込んでいると、LLMの出力を評価する必要が出てきます。 LLMの「出力は確率的である(毎回異なる)」ためです。 また、LLMの出力はハルシネーションを含む可能性がありますし、間違いではないにしてもサービス提供者の意図とは違った出
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く