並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 44件

新着順 人気順

GPT-2の検索結果1 - 40 件 / 44件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

GPT-2に関するエントリは44件あります。 AI機械学習人工知能 などが関連タグです。 人気エントリには 『GPT-1→GPT-2→GPT-3→GPT-3.5→ChatGPT→GPT-4までの進化の軌跡と違いをまとめてみた|スタビジ』などがあります。
  • GPT-1→GPT-2→GPT-3→GPT-3.5→ChatGPT→GPT-4までの進化の軌跡と違いをまとめてみた|スタビジ

    当サイト【スタビジ】の本記事では、昨今のAIの進化のきっかけになっているGPTシリーズについてまとめていきたいと思います。GPT-1から始まりGPT-2、GPT-3、そしてChatGPTであるGPT-3.5、GPT-4と進化してきました。この進化の軌跡と違いについて解説していきます。 こんにちは! データサイエンティストのウマたん(@statistics1012)です! この記事では最近のAIブームの火付け役になったGPTシリーズについて簡単にまとめていきたいと思います。

      GPT-1→GPT-2→GPT-3→GPT-3.5→ChatGPT→GPT-4までの進化の軌跡と違いをまとめてみた|スタビジ
    • rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

      rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています

        rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
      • GPT-2でブログ記事のタイトルをTogetterまとめ風にする「面白いのでやってみて」 - 詩と創作・思索のひろば

        オレ定義だけど Togetter まとめ風というのはこういうやつ。 散歩で急にシロクマと会っても食べるのは肉だけにしたほうがいい「肝臓1gに含まれるビタミンAが致死量を超える」 - Togetter まとめタイトルの終わりに誰かのツイートの引用を挿入する、という形式。よくできたもので、誰かの生の声が入っているだけで、感想やハイライトを抽出し、ちょっと気を引くことができる。まあ一種の演出で、ニュースサイトがやってることもある。 タイトルでアテンションを奪い合わなければならない宿命におけるクリック最適化の手法ということだろう。今回はこれを真似してみることにする。すでに書かれた自分のブログ記事に、括弧書きでセリフっぽいものの引用を捏造して付け加えることで魅力がアップするのか、という実験だ。 こういう生成系のタスクも、とりあえず HuggingFace+Google Colaboratory でや

          GPT-2でブログ記事のタイトルをTogetterまとめ風にする「面白いのでやってみて」 - 詩と創作・思索のひろば
        • rinna、日本語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習 | Ledge.ai

          Top > 学術&研究 > rinna、日本語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習

            rinna、日本語に特化した「GPT-2」「BERT」事前学習モデルを無償公開 75ギガバイトのデータを最大45日間で学習 | Ledge.ai
          • GPT-2におけるテキスト生成

            GPT-2におけるテキスト生成

              GPT-2におけるテキスト生成
            • 13億パラメータ日本語GPT-2を使ってみる

              2021年11月18日にOpenAIが「GPT-3」のウェイティングリストを解除すると発表しました。 これにより申請すれば誰でもGPT-3のAPIを使用できるようになります。 ということで、GPT-3 ... ただ、上記の記事でも紹介していますが、日本語に特化したモデルではなく、やっぱり日本語で生活している人にとっては日本語のGPTが欲しくなりますね。 そこで、13億パラメータを持つGPT-2のモデルを日本語で学習して、公開してくれたのがこの「rinna」社です。 ということで今回は、この日本語GPT-2を触ってみたいと思います。 なお、今回はモデルの説明は一切ありませんので、詳細についてはこちらの記事を参照していただければと思います。 GPT ... 『【論文解説】OpenAI 「GPT」を理解する』 一番仕組みを詳しく解説しています。GPT-2 ... 『【論文解説】OpenAI 「G

                13億パラメータ日本語GPT-2を使ってみる
              • OpenAIが研究を公表、GPT-4でGPT-2のニューロン解析 | Ledge.ai

                サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                  OpenAIが研究を公表、GPT-4でGPT-2のニューロン解析 | Ledge.ai
                • 生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々

                  生成AI(人工知能)を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv(アーカイブ)」である。米OpenAI(オープンAI)や米Google(グーグル)などAI開発を主導するIT企業の多くが、研究成果をarXivに競って投稿している。 そんなarXivの投稿論文から、2024年4月(1日~30日)にSNSのX(旧Twitter)で多く言及されたAI分野の注目論文を紹介する。調査には米Meltwater(メルトウォーター)のSNS分析ツールを利用した。対象はXの全世界のオリジナル投稿、コメント、再投稿、引用投稿である。調査は、日経BPが2024年1月に新設したAI・データラボの活動の一環として実施した。 「GPT2」に再び脚光?スケーリング則の論文 最初に取り上げるのが、大規模言語モデル(LLM)のスケーリング則に関する論文「Phys

                    生成AI業界は「GPT2」で騒然、RAGは実用化へ新手法が続々
                  • 謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に

                    ユーザーがログインせずに様々な言語モデルとチャットしてその出力を評価することができるウェブサイト「LMSYS.org」のChatbot Arenaで、「GPT-4.5」あるいは「GPT-5」と思われるモデルがテストされているのではないかと話題になっています。 GPT-2? https://rentry.co/GPT2 GPT-4.5 or GPT-5 being tested on LMSYS? | Hacker News https://news.ycombinator.com/item?id=40199715 プロンプトエンジニアであるdesuAnon氏によると、LMSYS.orgで利用可能になったモデルの一つである「gpt2-chatbot」は従来のGPT-4モデルやClaude 3 Opusが解決できないレベルの問題に対応し、英語だけではなく日本語の処理能力も高く、アスキーアートの

                      謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に
                    • OpenAIの「超知性」誕生に備える研究チームがGPT-2のような弱いAIモデルでGPT-4のように強力なAIを制御する方法を詳しく説明

                      チャットAI「ChatGPT」などの開発で知られるOpenAIは、人間よりもはるかに賢いAIである「超知性」が2033年までの10年間で開発されると推測しています。しかし、超知性を確実に制御する方法は現状構築されていません。OpenAIでは「スーパーアライメントチーム」を立ち上げ、超知性を制御するための研究が行われており、その方法を解説しています。 WEAK-TO-STRONG GENERALIZATION: ELICITING STRONG CAPABILITIES WITH WEAK SUPERVISION (PDFファイル)https://cdn.openai.com/papers/weak-to-strong-generalization.pdf Weak-to-strong generalization https://openai.com/research/weak-to-st

                        OpenAIの「超知性」誕生に備える研究チームがGPT-2のような弱いAIモデルでGPT-4のように強力なAIを制御する方法を詳しく説明
                      • OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開

                        2019年に公開されるやいなや「危険すぎる」と話題になったOpenAIの「GPT-2」を、ゼロから作成したレポートが公開されました。作成にかかった時間は、1時間14ドル(約2200円)のクラウドコンピューティングサービスで1時間半だったため、総コストは約20ドル(約3100円)に収まっています。 Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20 · karpathy/llm.c · Discussion #481 · GitHub https://github.com/karpathy/llm.c/discussions/481 # Reproduce GPT-2 (124M) in llm.c in 90 minutes for $20 ✨ The GPT-2 (124M) is the smallest model in t

                          OpenAIの共同設立者が「GPT-2」をわずか90分の時間と3100円の費用で再現するレポートを公開
                        • 謎の生成AI「gpt2」登場で騒然 次世代のGPT? アルトマンCEOも言及

                          生成AIブームの火付け役となった「ChatGPT」を提供する米OpenAIは、2023年3月に高性能な大規模言語モデル(LLM)「GPT-4」を提供して以来、次の高性能モデルについて沈黙を守り続けている。そんな中、LLMを比較できるWebサービス上にOpenAIのものらしき謎の高性能なLLMが現れた。同社のサム・アルトマンCEOも言及しており、OpenAIが関連している可能性も少なくなさそうだ。 米カリフォルニア大学バークレー校の研究室が運営するプロジェクト「LMSYS Org」(The Large Model Systems Organization:大規模モデルシステム機関)で公開しているWebサービス「Chatbot Arena」の中に、「gpt2-chatbot」というモデルが突如現れ、4月29日深夜(日本時間、以下同様)から話題になり始めている。 記事執筆時点の30日午後5時現在

                            謎の生成AI「gpt2」登場で騒然 次世代のGPT? アルトマンCEOも言及
                          • rinna、日本語に特化した「GPT-2」の大規模言語モデルを無償公開 | Ledge.ai

                            サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                              rinna、日本語に特化した「GPT-2」の大規模言語モデルを無償公開 | Ledge.ai
                            • Rubyで文章生成AI「GPT-2」を実行して遊んでみた - Qiita

                              はじめに Python 以外の言語から AI にアクセスするのは難しすぎると考えている人が多いと思います。しかし、最近は、事前トレーニング済みのモデルが多数公開されており、さまざまなプラットフォームやプログラミング言語から AI 推論を簡単に実行できるようになっています。 ここでは、Ruby 言語から ONNX ランタイムを実行して英文を生成できる GPT-2 モデルで遊んでみたいと思います。 ONNX ランタイムを使用すると、推論は簡単に実行できます。 事前準備とインストール。 下記の3つのGemをインストールします。 onnxruntime - ONNX Runtime のRubyバインディングです。 tokenizers - Hugging Face の提供しているTokenizerのRubyバインディングです。 numo-narray - Rubyの行列計算ライブラリです。NumP

                                Rubyで文章生成AI「GPT-2」を実行して遊んでみた - Qiita
                              • 【GPT徹底解説】#2 教師ありデータはもう必要ない!GPT-2登場 ~ChatGPT凄さの根源~

                                教師ありデータをもっと減らしたい!! GPTの登場により、それまで何万、何十万も必要だった教師ありデータが、たったの数千個で足りるようになりました. これはとてつもない進歩です! しかし、、皆さんもこう思ったかもしれません、、 「数千個て多くない??」 そうです!全くその通りです! 何十万もの教師ありデータセットと比べるとそれは少ないですが、普通に数千個て多いですよね?笑 僕だったらそんなデータ作りたいと思いません😅 皆さんと僕がそう思ったように、OpenAIさんも同じことを思っていました. そこでOpenAIのエンジニアはまたもやすごいものを作り出したのです! なんとGPTの進化系である「GPT-2」を作り出し、必要な教師ありデータを数個まで減らすことに成功したのです! さすがは自然言語AIのパイオニアOpenAI様ですね、すごすぎます、、 この記事では「GPT-2」とは何なのか、どう

                                  【GPT徹底解説】#2 教師ありデータはもう必要ない!GPT-2登場 ~ChatGPT凄さの根源~
                                • データサイエンティストとは何か論争にAI(gpt-2)で終止符を打とうとした話 - Qiita

                                  みなさん、こんにちは! こちらは「ABEJA AdventCalendar 2021」 の15日目の記事です。 データサイエンティストとは? いきなりですが、データサイエンティストとは何でしょうか? 私自身、データサイエンティストとして働いていますが、最近よく「データサイエンティストになるにはxxxxのスキルが必要だ」とか「データサイエンティストとはxxxxだ」みたいな論争話題をよく聞きます。 データサイエンティストという職業をよく耳にするようになってから、まだ時間も経っていないですし、今後どうなっていくのかも分かりません。 そんな中、データサイエンティストになるべく、データサイエンティストとして今後もキャリアを続けていけるようになるべく、各々がキャリアについて考えているので、色々な意見が出てくるのは自然なことかもしれません。 しかしまぁよく分からないですよね。 ということで、人々による議

                                    データサイエンティストとは何か論争にAI(gpt-2)で終止符を打とうとした話 - Qiita
                                  • rinna/japanese-gpt2-medium · Hugging Face

                                    ","unk_token":"","pad_token":"[PAD]","bos_token":"","cls_token":"[CLS]","sep_token":"[SEP]","mask_token":"[MASK]"}},"createdAt":"2022-03-02T23:29:05.000Z","discussionsDisabled":false,"downloads":7911,"downloadsAllTime":690461,"id":"rinna/japanese-gpt2-medium","isLikedByUser":false,"availableInferenceProviders":[],"inference":"","lastModified":"2025-03-23T10:43:06.000Z","likes":81,"pipeline_tag":"t

                                      rinna/japanese-gpt2-medium · Hugging Face
                                    • gpt2-japaneseのmediumモデルで架空のNAIST生をD進させてD進後の状況を独白してもらう - Seitaro Shinagawaの雑記帳

                                      こんにちは、品川です。 最近仕事でGPT-2,3について調べてたのですが、日本語GPT-2を作っているプロジェクトのことを知りました。 github.com 見てみると学習済みモデル(small, medium)が公開済みで、fine-tuning用のコードなども揃っておりいたく感動しました。 本記事は生成結果をぜひみてみたいということで試してみたという趣旨の記事になります。 使い方は上記リポジトリのREADMEを読んでいただければ良いかと思います。 contextをオプションで指定することで、contextに沿った生成が可能とのこと。なるほど、ならば架空のNAIST生をD進させてD進後の状況を独白してもらうことも可能・・・? 早速試してみる(この結果はフィクションです) python gpt2-generate.py \ --model gpt2ja-medium \ --num_gen

                                        gpt2-japaneseのmediumモデルで架空のNAIST生をD進させてD進後の状況を独白してもらう - Seitaro Shinagawaの雑記帳
                                      • From GPT-2 to gpt-oss: Analyzing the Architectural Advances

                                        OpenAI just released their new open-weight LLMs this week: gpt-oss-120b and gpt-oss-20b, their first open-weight models since GPT-2 in 2019. And yes, thanks to some clever optimizations, they can run locally (but more about this later). This is the first time since GPT-2 that OpenAI has shared a large, fully open-weight model. Earlier GPT models showed how the transformer architecture scales. The

                                          From GPT-2 to gpt-oss: Analyzing the Architectural Advances
                                        • 自然言語処理初心者が「GPT2-japanese」で遊んでみた | 豆蔵デベロッパーサイト

                                          文章を楽に書きたい。 日常生活でそう思ったことはないでしょうか? 文章を書く機会は社会人だけでなく学生でも多いと思います。 報告書やメール、レポート課題、そして今読んでいるようなブログなどです。 その時に出だしは順調でも途中で詰まったり、表現がわからずにネットで調べたりして、ちっとも進まないということがよくあります。 そういった場合に続きの文章を書いてくれる、もしくは続きの候補を出してくれるシステムがあると非常に便利ですよね? 私もそういう楽をしたいために色々探ってみましたが、どうやら文章自動作成ツールを作るには「自然言語処理」というものを学ぶ必要がありそう……。 しかもそれを学ぶ上では数々の用語や知識が必要でなかなか難しそうでした。 楽になるためにはまずは勉強をしなくてはダメか、と諦めかけていたのですが、ネットの海を漂っていると事前学習済みのモデルがあることがわかりました。 そのひとつが

                                          • AI対戦アリーナで無双していた謎の覆面チャットボット「gpt2-chatbot」がOpenAIの新モデルだった可能性が急浮上

                                            チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というサイトに登場するやいなや、GPT-4などの強豪モデルを次々と打ち負かして話題となっていたAIの正体が、OpenAIの新モデルである可能性が高いことが判明しました。 gpt2-chatbot confirmed as OpenAI https://simonwillison.net/2024/May/8/gpt2-chatbot-confirmed-as-openai/ Mystery chatbot is likely a new OpenAI product https://www.axios.com/2024/05/02/mystery-chatbot-openai-gpt2 Is this mystery chatbot really GPT-4.5 in disguise? Here's how to

                                              AI対戦アリーナで無双していた謎の覆面チャットボット「gpt2-chatbot」がOpenAIの新モデルだった可能性が急浮上
                                            • ChatGPTに自然言語処理モデル「GPT2-Japanese」の使用方法を聞きながら実装したら想像以上に優秀だった件 | 豆蔵デベロッパーサイト

                                              前回は ChatGPT と Hugging Face を簡単に触ってみました。 今回は ChatGPT に自然言語処理モデル「GPT2-Japanese」の使用方法を聞きながらプログラムを実装してみたところ、想像以上に優秀だったので、その過程をご紹介したいと思います。 (想像以上ではありましたが、そのままコピペでは動作しなかったので、エラーの回避方法も ChatGPT に問いかけをしながら実装を進めました) ChatGPT の登場以降、SNSでは「プログラマーは失業する」とか「ソフトウェアエンジニアの危機」みたいな情報が散見されるので、ChatGPT がソフトウェア開発にどれくらい役に立つのかを試してみたくなりました。 前回は ChatGPT のベース技術である「Transformer」について調べていたので、その流れで今回は「”ChatGPT”の力を借りて自然言語処理を”実際に”プログラ

                                                ChatGPTに自然言語処理モデル「GPT2-Japanese」の使用方法を聞きながら実装したら想像以上に優秀だった件 | 豆蔵デベロッパーサイト
                                              • rinna、日本語に特化した「GPT-2」の言語モデルをオープンソース化 学習済みモデルも公開

                                                日本マイクロソフトのチャットbot事業を分社化したrinna(東京都渋谷区)は4月7日、日本語に特化した「GPT-2」の言語モデルをオープンソース化した。製品開発に向けた実験のために構築したもので、「GitHub」や自然言語処理モデルのライブラリ「HuggingFace」で公開している。 GPT-2は、AI研究企業の米OpenAIが提供する言語モデル。「人間が使う言葉らしさ」を確率にしたもので、ある単語や文が与えられたときに、次に来る確率が高い自然な単語を推定するという。米NvidiaのGPU「Tesla V100」を使い、70GBの日本語テキストを約1カ月かけてトレーニングさせたため、高度な日本語の文章を生成できるとしている。

                                                  rinna、日本語に特化した「GPT-2」の言語モデルをオープンソース化 学習済みモデルも公開
                                                • GPT-2をファインチューニングしてニュース記事のタイトルを条件付きで生成してみた。 - Qiita

                                                  はじめに GPT-2のファインチューニングの仕方がなんとなくわかってきたので、メモとして残しておきます。 事前学習モデルはrinna社が提供してくれている以下の日本語モデルを使用します。huggingface/transformersから簡単にロードして使うことができます。 https://huggingface.co/rinna/japanese-gpt2-medium こちらのモデルはmediumとあるので、TransformerのDecoderブロックが24層重なったやつですね。 今回紹介する内容はGPT-2条件付き文章生成です。 GPT-2のチュートリアル的な記事でよく見るのが、与えた文章の続きにくる文章を生成するようなものが多いかと思いますが、出力の形式等を入力の段階から制御するようなことをしてみようと思います。 GPT-2自体の理解や、使い方、ファインチューニングの仕方、生成文

                                                    GPT-2をファインチューニングしてニュース記事のタイトルを条件付きで生成してみた。 - Qiita
                                                  • Amazon.co.jp: 作ってわかる! 自然言語処理AI〜BERT・GPT2・NLPプログラミング入門: 坂本俊之: 本

                                                      Amazon.co.jp: 作ってわかる! 自然言語処理AI〜BERT・GPT2・NLPプログラミング入門: 坂本俊之: 本
                                                    • めちゃくちゃ重いけど動くぞ!Excelで「GPT-2」を再現したスプレッドシート

                                                      OpenAIの「ChatGPT」やマイクロソフトの「Copilot」、グーグルの「Gemini」など、対話型AIの心臓部である大規模言語モデル(LLM)。だがその仕組を理解するにはプログラミングの知識が不可欠だ。 「Spreadsheets are all you need.ai」というウェブサイトでは、驚くことにExcelのスプレッドシートを使って、LLM(GPT2)がどのように動作するかを再現している。 GPT-2をローカルで再現 同サイトで提供されている「Spreadsheets-are-all-you-need」は、大規模言語モデル(LLM)の動きを再現するExcelシートだ。 ChatGPTのように、「Mike is quick. He moves(マイクは素早い。彼は◯◯動く)」とセルに入力するとチャット型AIのように「quickly(素早く)」と続きを出力してくれるという。

                                                        めちゃくちゃ重いけど動くぞ!Excelで「GPT-2」を再現したスプレッドシート
                                                      • 【自然言語処理】日本語GPT-2モデルをファインチューニングして文章生成をやってみる

                                                        はじめに 2022年11月にOpenAIが公開したchatGPTの反響が凄いですね。 公開6日目にして100万人がユーザー登録したとか。 今のところは、無料で使うことができますが、いずれは利用が制限されるかもしれませんね。 ここでは、chatGPTよりは精度が落ちますが、無料で使うことができて、日本語に特化した事前学習済みモデルもあるGPT-2を採り上げ、文章生成にチャレンジしたいと思います。 具体的にはrinna社が開発したGPT-2モデルを使用します。 事前学習済みモデルだけでもそれなりの文章を生成できますが、せっかくなので、特定のドメインでファインチューニングさせてみて、文章生成をしていきたいと思います。 rinna社の日本語GPT-2の特徴 言語モデルは、会話や文章の「人間が使う言葉」を確率としてモデル化したものです。優れた言語モデルとは、確率を正確に推定できるものを指します。例え

                                                          【自然言語処理】日本語GPT-2モデルをファインチューニングして文章生成をやってみる
                                                        • 東京都が業務にチャットGPT 23日に全庁導入 5万人が利用へ

                                                          チャットGPTの画面を開き「全庁導入」に向けた取り組みを加速する都職員=7月12日午後2時47分、都庁(外崎晃彦撮影) 自動で文章を作り出すなどの高い利便性で利用が急拡大する生成AI(人工知能)の「チャットGPT」について、東京都は23日から学校職員を含む約5万人の都職員が業務で使えるようにする。文書の作成や要約などに活用し、仕事の効率化やサービス向上を目指す。都民からは情報漏洩などの懸念の声も上がるが、都はセキュリティー配慮や研修などを徹底し、慎重な運用を目指す。 「都民の生活をよくするために、デジタル技術を使って行政を進めている部署です。デジタル技術を使うことで、サービスの質がとてもよくなります」 これは都のデジタルサービス局が、都庁を見学などに訪れた小学生向けに、局の業務を分かりやすく説明する文章の作成をチャットGPTに指示した際の回答だ。業務効率向上のため、チャットGPTの活用の在

                                                            東京都が業務にチャットGPT 23日に全庁導入 5万人が利用へ
                                                          • Huggingface Transformers 入門 (27) - rinnaの日本語GPT-2モデルの推論|npaka

                                                            「rinna」の日本語GPT-2モデルが公開されたので、推論を試してみました。 ・Huggingface Transformers 4.4.2 ・Sentencepiece 0.1.91前回 特徴は、次のとおりです。 ・学習はCC-100のオープンソースデータ。 ・Tesla V100 GPUで70GBの日本語テキストを約1カ月学習。 ・モデルの性能は約18 perplexity。2. rinnaの日本語GPT-2モデルの推論(1) Huggingface TransformersとSentencePieceをインストール。 # Huggingface Transformersのインストール !pip install transformers==4.4.2 # Sentencepieceのインストール !pip install sentencepiece==0.1.91(2) 日本語GPT

                                                              Huggingface Transformers 入門 (27) - rinnaの日本語GPT-2モデルの推論|npaka
                                                            • GitHub - guillaume-be/rust-bert: Rust native ready-to-use NLP pipelines and transformer-based models (BERT, DistilBERT, GPT2,...)

                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                GitHub - guillaume-be/rust-bert: Rust native ready-to-use NLP pipelines and transformer-based models (BERT, DistilBERT, GPT2,...)
                                                              • 【論文解説】OpenAI 「GPT-2」を理解する

                                                                今回は、LINEによる汎用的な超巨大言語モデルの開発の話題もあり、GPT-2以上に話題になっているOpenAI GPT-3について解説したいと思います。 結構長い論文ですが、論文の最後の方の内容も非常 ... まず、GPT-2論文の背景を説明しておきます。 2018年以降、ULMFiT、ELMo、OpenAI GPT、BERTと大規模な言語コーパスを使って教師なし学習で事前学習を行い、そのあとに特定のタスクについて教師あり学習でファインチューニングする手法により、目覚ましい成果があげられています。 しかしながら、これらのモデルもまだ数千や数万といった教師ありデータでファインチューニングしなければなりません。 人間については、そんなに大量のデータで学習しなくても、少しの追加の学習や手引きがあればタスクを解くことができます。 そこでGPT-2では、より人間に近い、汎用的に使えるモデルを構築する

                                                                  【論文解説】OpenAI 「GPT-2」を理解する
                                                                • Understanding the Evolution of ChatGPT: Part 2 - GPT-2 and GPT-3 | Towards Data Science

                                                                  (Image from Unsplash) This is the second article of our GPT series, where we will dive into the development of GPT-2 and GPT-3, with model size increased from 117M to a staggering 175B. In case you are interested in the other articles in this GPT series, check the links below: Part 1: Understanding the Evolution of ChatGPT: Part 1 – An In-Depth Look at GPT-1 and What Inspired It. Part 3: Insights

                                                                    Understanding the Evolution of ChatGPT: Part 2 - GPT-2 and GPT-3 | Towards Data Science
                                                                  • パラメタ数1.5Bのgpt2-XLを学習した話

                                                                    この度、gpt2論文を参考に最大サイズのgpt2の日本語版モデルを学習し公開いたしました。 この記事では学習にあたり工夫した点や問題点等を書き連ねます。シングルノードですが比較的大きなモデルを学習しているので知見などを共有できればと思います。 なお学習はA100(40gb)8枚のノードを使って合計70日程かけて学習しました。 現在公開されているdecoder系モデルのうち今回作成したモデルに近い規模のモデルは知る限り2つあり、こちらはgpt3論文を参考にパラメタ設定をしていると考えられ、今回作成したモデルとは層の深さと隠れ層の次元が異なります。 https://huggingface.co/rinna/japanese-gpt-1b https://huggingface.co/yellowback/gpt-neo-japanese-1.3B rinna/japanese-gpt-1bは生

                                                                      パラメタ数1.5Bのgpt2-XLを学習した話
                                                                    • GitHub - jaymody/picoGPT: An unnecessarily tiny implementation of GPT-2 in NumPy.

                                                                      Accompanying blog post: GPT in 60 Lines of Numpy You've seen openai/gpt-2. You've seen karpathy/minGPT. You've even seen karpathy/nanoGPT! But have you seen picoGPT??!? picoGPT is an unnecessarily tiny and minimal implementation of GPT-2 in plain NumPy. The entire forward pass code is 40 lines of code. picoGPT features: Fast? ❌ Nah, picoGPT is megaSLOW 🐌 Training code? ❌ Error, 4️⃣0️⃣4️⃣ not foun

                                                                        GitHub - jaymody/picoGPT: An unnecessarily tiny implementation of GPT-2 in NumPy.
                                                                      • Huggingface Transformers 入門 (28) - rinnaの日本語GPT-2モデルのファインチューニング|npaka

                                                                        「rinna」の日本語GPT-2モデルが公開されたので、ファインチューニングを試してみました。 ・Huggingface Transformers 4.4.2 ・Sentencepiece 0.1.91 【最新版の情報は以下で紹介】 1. rinnaの日本語GPT-2モデルのファインチューニング(1) 「Colab Pro」のメニュー「編集 → ノートブックの設定」で「GPU」の「ハイメモリ」を選択。 ファインチューニングは大量のメモリを消費するので、この設定が必須になります。 (2) データの永続化 # データの永続化 from google.colab import drive drive.mount('/content/drive') !mkdir -p '/content/drive/My Drive/work/' %cd '/content/drive/My Drive/work

                                                                          Huggingface Transformers 入門 (28) - rinnaの日本語GPT-2モデルのファインチューニング|npaka
                                                                        • openai-community/gpt2 · Hugging Face

                                                                          GPT-2 Test the whole generation capabilities here: https://transformer.huggingface.co/doc/gpt2-large Pretrained model on English language using a causal language modeling (CLM) objective. It was introduced in this paper and first released at this page. Disclaimer: The team releasing GPT-2 also wrote a model card for their model. Content from this model card has been written by the Hugging Face tea

                                                                            openai-community/gpt2 · Hugging Face
                                                                          • rinnaの日本語GPT-2モデルのファインチューニングを試す|npaka

                                                                            「rinnaの日本語GPT-2モデル」のファインチューニングを「Huggingface Transformers 4.23.1」で試したのでまとめました。 ・Huggingface Transformers 4.23.1 1. rinnaの日本語GPT-2モデル「rinnaの日本語GPT-2モデル」は、70GBの日本語テキストをV100で約1カ月学習させた日本語テキスト生成のモデルです。 2. ファインチューニングの実行ファインチューニングの実行手順は、次のとおりです。 (1) Colabで新規ノートブックを作成し、メニュー「編集 → ノートブックの設定で「GPU」を選択。 (2) GPUの確認。 # GPUの確認 !nvidia-smi+----------------------------------------------------------------------------

                                                                              rinnaの日本語GPT-2モデルのファインチューニングを試す|npaka
                                                                            • 日本語GPT-2を強化学習(Policy Gradient)でfine-tuningする - Qiita

                                                                              概要 本記事では言語モデルであるGPT-2を強化学習でfine-tuningしていきます.学習済みのGPT-2は分け隔てない大量の文章で学習されているため,標準的な文章の出力を行うように学習されています.この出力を我々が設定した価値関数などを使って,望む出力に歪められるのではないでしょうか? 具体的に本記事では,日本語版のGPT-2をネガティブな文章ばかり出力するように報酬を設定した強化学習でファインチューニングしていきたいと思います! 関連事項 GPT-2 Transformerベースの自己回帰型の言語モデルで,言語の生成モデルです.自己回帰モデルは単語に対して次の単語を予測する処理を繰り返すことで,文章を生成することができます.単語予測にはGreedySearchやBeamSearch,サンプリングが使用されます.今回はこちらの学習済みモデルを使用させていただいております. 強化学習

                                                                                日本語GPT-2を強化学習(Policy Gradient)でfine-tuningする - Qiita
                                                                              • rinna、日本語に特化したGPT-2の大規模言語モデルをオープンソース化

                                                                                rinnaは4月7日、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開した。 同社はMicrosoftのAI&リサーチ部門でAIチャットボットの研究を行なっていたチームがスピンアウトして2020年6月に設立したAI開発企業。文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表。AIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボット「AIキャラクター」の開発に応用されている。 新たに製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデル(機械学習をもとにした会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの)を構築。日本語のNLP研究コミュニティー

                                                                                  rinna、日本語に特化したGPT-2の大規模言語モデルをオープンソース化
                                                                                • OpenAI、6年ぶりにオープンAIモデル提供へ 「GPT-2」以来

                                                                                  OpenAIが4月1日、6年ぶりにオープンなAIモデルを提供する計画を発表した。2019年にリリースされた「GPT-2」以来、初めての「オープンウェイトモデル」として登場する予定だ。具体的な性能やリリース時期については詳細を明らかにしていないが、「高度な推論能力」を備えているとされ、時期的には2025年夏までにリリースされる可能性が高い。 オープンウェイトモデルとは、開発者がモデルの訓練済みパラメーター(重み)にアクセスし、自身の目的に応じて利用・改良できる形式のモデルのこと。完全なオープンソースモデルとは異なり、基盤となるコードやデータは公開されない。 OpenAIのサム・アルトマンCEOはSNS(X)で、「長年検討してきたが、他の優先事項が先行していた。今こそ重要な時期だと感じている」と述べるとともに、今回の取り組みがAIコミュニティとの協力を強化し、透明性とアクセス性を向上させること

                                                                                    OpenAI、6年ぶりにオープンAIモデル提供へ 「GPT-2」以来

                                                                                  新着記事