並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 42件

新着順 人気順

Crawlerの検索結果1 - 40 件 / 42件

Crawlerに関するエントリは42件あります。 AIweb人工知能 などが関連タグです。 人気エントリには 『AIにニュースの収集を任せている方法(GPT-4からSlack投稿) - toyoshiの日記』などがあります。
  • AIにニュースの収集を任せている方法(GPT-4からSlack投稿) - toyoshiの日記

    キーワードベースで情報収集をしているという下記の記事を読みました。私も似たようなことをしているのですがキーワードは使わない方法でニュースの収集をしていて、そのほうがLLMを活用できていると思うのでその方法を紹介します。 forest.watch.impress.co.jp キーワードではなく自分の目的や関心を伝える 以前私が手動でやっていたのはRSSリーダーにサイトを登録して、記事のタイトルと概要を読んで気になる記事を開いて読むということでした。こういうときに人間はキーワード検索をしていません。何をしているかというと自分の目的や関心があって、それに関連する記事をピックアップするということです。それと同じようなことをさせようというのが今回紹介する方法です。 ポイントは今回の場合は私の所属する会社について情報をプロンプトで与え、それに関連するニュースが何かをLLMに考えさせることです。 今回の

      AIにニュースの収集を任せている方法(GPT-4からSlack投稿) - toyoshiの日記
    • 無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能

      このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。 このシステムは、マウス操作のGUI(Graphical User Interface)を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設

        無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能
      • 今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ

        皆さんこんにちは。CTOの松本です。LLM使ってますか?ChatGPT毎日触ってますか? LLMに熱狂してすでに1年以上が経ちましたが周辺エコシステムが充実してきたことでいろいろな取り組みがとても簡単に実現出来るようになったなーと感じています。 ということで今回はZapierを使った小ネタのご紹介です。 AI・LLM事業部の今 とその前に、AI・LLM事業部での取り組みから着想を得たものでして、AI・LLM事業部について簡単に紹介させてください。 LayerXの新規事業であるAI・LLM事業部では、バクラクでも取り組んできたビジネス文書の解析の延長としてLLMを活用して文書分析エンジンの開発を進めています。現在このエンジンを使ったエンタープライズ向けの新規プロダクト開発にいそしんでおります。とても楽しいですし、最近は様々なお客様からの引き合いも増えておりまして、事業成長に向けて満を持しての

          今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ
        • ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita

          今回やりたかったこと 目標:ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成 するにはどうしたらいいのか、ChatGPT のハードルとかコツとかを知りたい。 ※最終的なプロンプトの入力と出力の全文は本ページ下部に貼り付けてます。 作ったもの概要 保険組合のウォーキングイベントの会社内の3チームの歩数進捗の slack への自動投稿 bot を作成しました。 処理は大きく2つに分かれています。 ウォーキングイベントサイトから歩数をスクレイピング&スプシへアップロード スプシの GAS で投稿文字列作成& slack へ自動投稿 今回 ChatGPT でやったのは1の方です。 2は前回半年前開催分のコードをほぼそのまま流用しました。 運良く(?)今回のタイミングでウォーキングイベントのサービスサイトが変わり、 HTML がまるっと変わり1のスクレイピングコードは作り直しが必

            ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita
          • 月間1.6億秒の Lambda x Node.js 利用から得られた知見

            ストックマークのプロダクト開発・運用では、Node.jsを利用してAWS Lambda を月間1.6億秒利用しています。本記事ではそこから分かった知見を紹介します。

              月間1.6億秒の Lambda x Node.js 利用から得られた知見
            • サイトのコンテンツを無断収集するAIクローラーを捕獲し、脱出できなくするツールが物議【やじうまWatch】

                サイトのコンテンツを無断収集するAIクローラーを捕獲し、脱出できなくするツールが物議【やじうまWatch】
              • 生成AIによるクロールを拒否する設定ができるようになりました - はてなブログ開発ブログ

                このたび、生成AIによるクロールを拒否する設定ができるようになりました。この設定はすべてのプランでご利用いただけます。 初期設定では生成AIによるクロールが可能な状態となっていますが、基本設定から「生成AIによるクロールを拒否」をONに設定すると、ご自身のブログやサイトのrobots.txtファイルに生成AIによるクロールを拒否するルールが自動的に追記されます。 拒否の対象となるユーザーエージェントの詳細は、下記のヘルプをご確認ください。 https://help.hatenablog.com/entry/ai-crawling これまでの経緯と機能制限解除について はてなブログでは、2025年2月6日から2025年6月27日まで、AIクローラーをブロックしておりました。 これは、AIクローラーによる過剰なアクセスに起因する一部障害の発生や、ユーザーの皆さまから、自身のコンテンツが無断で学

                  生成AIによるクロールを拒否する設定ができるようになりました - はてなブログ開発ブログ
                • Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives

                  Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives2025-08-04 We are observing stealth crawling behavior from Perplexity, an AI-powered answer engine. Although Perplexity initially crawls from their declared user agent, when they are presented with a network block, they appear to obscure their crawling identity in an attempt to circumvent the website’s preferences

                    Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives
                  • AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開

                    Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。Webサイト側で対策を講じてもかわされてしまう現状に対抗して、ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。 Nepenthesの名称は、昆虫を袋の中に閉じ込めて捕食する食虫植物「ウツボカズラ」(ネペンテス)にちなむ。これをひそかにWebサイトに仕掛けておけば、Webクローラーによるコンテンツ収集を阻止できるという。さらに「攻撃的な」オプション機能を有効にすれば、クローラーに時間と処理能力を延々と浪費させ、AIモデル学習用データの汚染を狙うこともできるという。 同ツールがベースとしているのは、サイバーセキュリティ業界で迷惑メール対策として使われる「ターピット」と呼ばれる手法。ターピットは「タール穴」の意味で、Nepent

                      AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開
                    • 失われるWebの多様性——AIクローラー戦争が始まった

                      AI企業がモデルの訓練のためにWebサイトから大量のデータを収集する動きに対抗して、クローラーをブロックするサイトが増えている。オープンなWebの理念が危機に瀕している。 by Shayne Longpre2025.02.14 10 この記事の3つのポイント インターネットはクローラーに依存しており半分のトラフィックを占める Webサイト運営者はAIクローラーによるデータ収集を恐れ反撃を始めている Webサイトによるクローラー制限はWebの開放性と透明性を損なう恐れがある summarized by Claude 3 私たちはよく、インターネットを当たり前のように利用している。指先ひとつで情報の大海を回遊でき、快適に利用できる。しかし、このシステムは「クローラー(Crawler)」と呼ばれるボットの群れに依存している。これらのボットはWeb上を巡回し、毎日何百万ものWebサイトにアクセスし

                        失われるWebの多様性——AIクローラー戦争が始まった
                      • Wikipediaがコスト上昇で窮地に。トラフィック急増も、そのほとんどはクローラーbot?【やじうまWatch】

                          Wikipediaがコスト上昇で窮地に。トラフィック急増も、そのほとんどはクローラーbot?【やじうまWatch】
                        • AI学習目的のスクレイピングに対して利用条件や利用料金を通知する仕組み「RSL」が開発中、すでにYahoo・Reddit・オライリーなどが採用を表明

                          AIの開発には膨大なデータが必要であり、AI開発企業はインターネット上に存在するありとあらゆる情報を自動ボット(スクレイパー)を用いて収集しています。このスクレイパーに対して利用条件や利用料金を提示できる仕組み「Really Simple Licensing(RSL)」が開発されています。開発にはRSSの開発陣やO’Reilly Mediaの創業者であるティム・オライリー氏などが関わっており、すでにYahooやReddit、O’Reilly Media、Quora、Mediumなどのサービスが採用を表明しています。 RSL https://rslstandard.org/ New RSL Web Standard and Collective Rights Organization Automate Content Licensing for the AI-First Internet a

                            AI学習目的のスクレイピングに対して利用条件や利用料金を通知する仕組み「RSL」が開発中、すでにYahoo・Reddit・オライリーなどが採用を表明
                          • Introducing pay per crawl: Enabling content owners to charge AI crawlers for access

                            Introducing pay per crawl: Enabling content owners to charge AI crawlers for access2025-07-01 Many publishers, content creators and website owners currently feel like they have a binary choice — either leave the front door wide open for AI to consume everything they create, or create their own walled garden. But what if there was another way? At Cloudflare, we started from a simple principle: we w

                              Introducing pay per crawl: Enabling content owners to charge AI crawlers for access
                            • ChromeDriver でよく使うオプションのチートシート - Qiita

                              はじめに 毎回、気になったときに調べているような気がするのでまとめる。 ついでにnavigator.webdriverの対策もできる。 メモのつもりで書いているので深くは考えていない 2024.11.05 selenium 4.26.0 へオプションの内容を一新 2024.11.05 selenium 4.15.2 のオプションを折りたたみ表示へ 2023.11.20 ファイルのダウンロードに関するオプションを追加、細かな修正 2023.11.15 ヘッドレスモードで起動したとき、コンソールにエラーログが出ないように修正 2023.11.14 selenium 4 にオプションの内容を一新 2023.11.14 selenium 3 のオプションを折りたたみ表示へ 2022.06.03 コピペできるコードブロックに追記、並び替え 2022.04.28 投稿 selenium 4 環境 アイ

                                ChromeDriver でよく使うオプションのチートシート - Qiita
                              • OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

                                米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。 Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。 ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテ

                                  OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明
                                • 「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張

                                  生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリニヴァスCEOが、「robots.txtの指示を無視しているわけではない」「自社のクローラーだけでなく、サードパーティーのクローラーにも依存している」と釈明しました。 Perplexity AI CEO Aravind Srinivas on plagiarism accusations - Fast Company https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-sriniv

                                    「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張
                                  • GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                      GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN
                                    • ローカルLLMのためのプライベートWeb検索エンジンを作った

                                      清水 亮 ryo_shimizu 新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。 Tweet ChatGPT に代表される生成AIを「なんとかローカルで動かしたい」という欲望は、エンジニアなら一度は抱くものだと思う。 「クラウドに一切つながずに、自分のPCだけで完結するAIアシスタント」。響きだけなら最高だ。 しかし、いざやってみるとすぐに壁にぶつかる。 モデルはローカルで動いても、「知識」はローカルにないのである。 ローカルLLMにもWebの知識は必要だが… LLMは大量のテキストで事前学習されているとはいえ、「いま」「ここ」で必要な具体的な情報はだいたいWebにある。 ちょっとマニアックなエラーコードの意味 特定ツールの最新ドキュメント つい最近アップデートされた

                                      • GitHub - niespodd/browser-fingerprinting: Analysis of Bot Protection systems with available countermeasures 🚿. How to defeat anti-bot system 👻 and get around browser fingerprinting scripts 🕵️‍♂️ when scraping the web?

                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                          GitHub - niespodd/browser-fingerprinting: Analysis of Bot Protection systems with available countermeasures 🚿. How to defeat anti-bot system 👻 and get around browser fingerprinting scripts 🕵️‍♂️ when scraping the web?
                                        • The /llms.txt file – llms-txt

                                          A proposal to standardise on using an /llms.txt file to provide information to help LLMs use a website at inference time. Background Large language models increasingly rely on website information, but face a critical limitation: context windows are too small to handle most websites in their entirety. Converting complex HTML pages with navigation, ads, and JavaScript into LLM-friendly plain text is

                                            The /llms.txt file – llms-txt
                                          • AI時代のコンテンツ利用ルールを定める業界標準「RSL 1.0」が正式仕様として公開される

                                            AI企業によるウェブ上のコンテンツ利用をめぐり、パブリッシャー側が用途ごとの利用条件を明確に提示できる仕組みとして注目されてきたReally Simple Licensing(RSL)1.0が、正式な標準仕様として公開されました。すでにCloudflareやAkamaiなどインターネットインフラ企業や多くのメディア企業がRSLの実装を支持する姿勢を示しています。 New RSL Web Standard and Collective Rights Organization Automate Content Licensing for the AI-First Internet and enable Fair Compensation for Millions of Publishers and Creators | RSL: Really Simple Licensing https://

                                              AI時代のコンテンツ利用ルールを定める業界標準「RSL 1.0」が正式仕様として公開される
                                            • 「AI学習に利用するべからず」OpenAIのクローラーをブロックする動き、海外で広がる【やじうまWatch】

                                                「AI学習に利用するべからず」OpenAIのクローラーをブロックする動き、海外で広がる【やじうまWatch】
                                              • GitHub - Florents-Tselai/WarcDB: WarcDB: Web crawl data as SQLite databases.

                                                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                  GitHub - Florents-Tselai/WarcDB: WarcDB: Web crawl data as SQLite databases.
                                                • Trapping misbehaving bots in an AI Labyrinth

                                                  Today, we’re excited to announce AI Labyrinth, a new mitigation approach that uses AI-generated content to slow down, confuse, and waste the resources of AI Crawlers and other bots that don’t respect “no crawl” directives. When you opt in, Cloudflare will automatically deploy an AI-generated set of linked pages when we detect inappropriate bot activity, without the need for customers to create any

                                                    Trapping misbehaving bots in an AI Labyrinth
                                                  • LLMS.txt: AI時代のWebサイト最適化ガイド

                                                    どこまでが仕様で、どこまでが自由記述なのか分かりづらいですが、Markdownで書かれた内容はすべて自由記述です。 導入のメリット予想 LLMによる効率的なサイト理解と情報抽出 将来のAIモデル学習時の優先的なインデックス化 サービスの自動化・統合の促進 例:LLMを介したサービス利用の自動化 APIやサービス機能の効率的な活用 事例I:Anthropic # Anthropic ## Docs - [Get API Key](https://docs.anthropic.com/en/api/admin-api/apikeys/get-api-key) - [List API Keys](https://docs.anthropic.com/en/api/admin-api/apikeys/list-api-keys) - [Update API Keys](https://docs.a

                                                      LLMS.txt: AI時代のWebサイト最適化ガイド
                                                    • GitHub - ai-robots-txt/ai.robots.txt: A list of AI agents and robots to block.

                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                        GitHub - ai-robots-txt/ai.robots.txt: A list of AI agents and robots to block.
                                                      • Web scraping is legal, US appeals court reaffirms | TechCrunch

                                                        Good news for archivists, academics, researchers and journalists: Scraping publicly accessible data is legal, according to a U.S. appeals court ruling. The landmark ruling by the U.S. Ninth Circuit of Appeals is the latest in a long-running legal battle brought by LinkedIn aimed at stopping a rival company from web scraping personal information from users’ public profiles. The case reached the U.S

                                                          Web scraping is legal, US appeals court reaffirms | TechCrunch
                                                        • GitHub - adbar/trafilatura: Python & Command-line tool to gather text and metadata on the Web: Crawling, scraping, extraction, output as CSV, JSON, HTML, MD, TXT, XML

                                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                            GitHub - adbar/trafilatura: Python & Command-line tool to gather text and metadata on the Web: Crawling, scraping, extraction, output as CSV, JSON, HTML, MD, TXT, XML
                                                          • Crawler Test Site

                                                            Default description XIbwNE7SSUJciq0/Jyty

                                                            • GitHub - NaiboWang/EasySpider: A visual no-code/code-free web crawler/spider易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。

                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                GitHub - NaiboWang/EasySpider: A visual no-code/code-free web crawler/spider易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。
                                                              • WebサイトをスクレイピングしてLLMで使いやすいデータにする「Crawl4AI」を試す

                                                                LLM/RAG/エージェントで使うためのスクレイピング&フォーマット変更ツールは以下のようなものを触ってきた。 たまたま以下のYouTube動画を見つけて、Crawl4AIというのもあることを知ったので試してみる。 GitHubレポジトリ Crawl4AI 🕷️🤖 Crawl4AIは、ウェブクロールとデータ抽出を簡素化し、大規模言語モデル(LLM)やAIアプリケーションが利用できるようにします。 🆓🌐 機能✨ 🆓 完全無料かつオープンソース 🤖 LLMに適した出力フォーマット(JSON、クリーンアップされたHTML、マークダウン) 🌍 複数のURLの同時クロールをサポート 🎨 すべてのメディアタグ(画像、音声、動画)を抽出して返します 🔗 すべての外部リンクと内部リンクを抽出 📚 ページからメタデータを抽出 🔄 クロール前の認証、ヘッダー、ページの修正用のカスタムフッ

                                                                  WebサイトをスクレイピングしてLLMで使いやすいデータにする「Crawl4AI」を試す
                                                                • 生成AIによるクロールを拒否する - はてなブログ ヘルプ

                                                                  設定ページの「基本設定」内にて「生成AIによるクロールを拒否」をONに設定すると、ブログやサイトのrobots.txtファイルに、生成AIクローラーによるアクセスを拒否するルールが自動的に追記されます。 拒否の対象となるユーザーエージェント よくある質問 関連記事 拒否の対象となるユーザーエージェント この設定をONにすると、robots.txtに以下のユーザーエージェントを拒否するルールが記述されます。この一覧は、今後の状況に応じて更新される場合があります。 GPTBot (OpenAI) Google-Extended (Google) Applebot-Extended (Apple) anthropic-ai (Anthropic) ClaudeBot (Anthropic) cohere-ai (Cohere) PerplexityBot (Perplexity AI) Perp

                                                                    生成AIによるクロールを拒否する - はてなブログ ヘルプ
                                                                  • GitHub - ScrapeGraphAI/Scrapegraph-ai: Python scraper based on AI

                                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                      GitHub - ScrapeGraphAI/Scrapegraph-ai: Python scraper based on AI
                                                                    • GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts

                                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                        GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts
                                                                      • Bashing JSON into Shape with SQLite

                                                                        Published on 2022-01-04, 1640 words, 6 minutes to read It is clear that most of the world has decided that they want to use JSON for their public-facing API endpoints. However, most of the time you will need to deal with storage engines that don't deal with JSON very well. This can be confusing to deal with because you need to fit a square peg into a round hole. However, SQLite added JSON function

                                                                        • Robotcop: enforcing your robots.txt policies and stopping bots before they reach your website

                                                                          Cloudflare’s AI Crawl Control (formerly AI Audit) dashboard allows you to easily understand how AI companies and services access your content. AI Crawl Control gives a summary of request counts broken out by bot, detailed path summaries for more granular insights, and the ability to filter by categories like AI Search or AI Crawler. Today, we're going one step further. You can now quickly see whic

                                                                            Robotcop: enforcing your robots.txt policies and stopping bots before they reach your website
                                                                          • AI/機械学習のクローラーをサイトからブロックする方法まとめ – Cosmos and Chaos

                                                                            #AI / ML#サイト運営AI(人工知能)や機械学習用のクローラー・botをブロック(オプトアウト)する方法のまとめです。 コピペ用のまとめ 機械学習モデルの学習への利用 機械学習モデルを利用した結果への利用・引用 を拒否するコードのまとめです。 注意 完全に拒否できるわけではありません これらのコードをコピーして設置したからといって、全ての機械学習を禁止できるわけではありません。 明示的に記述していないクローラのアクセスを制御することはできません robots.txtやmetaタグへの記述に技術的な強制力はありません とはいえ何もしないよりは良いでしょう。 悪影響の方が大きい場合は記載していません 機械学習以外のサービスにも影響を与えてしまう場合は、まとめコードには記載していない場合があります。 まとめに含まれない(各項目詳細には記載) 一般的な検索エンジン(Google、Bing等)

                                                                            • https://www.help-note.com/hc/ja/articles/43414600875673-AI%E5%AD%A6%E7%BF%92%E3%81%AB%E5%AF%BE%E3%81%97%E3%81%A6%E6%84%8F%E5%90%91-%E3%82%AA%E3%83%97%E3%83%88%E3%82%A2%E3%82%A6%E3%83%88-%E3%82%92%E7%A4%BA%E3%81%9B%E3%82%8B%E6%A9%9F%E8%83%BD%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6

                                                                              • 報道コンテンツ無断学習から保護 「AI利用、制度整備を」 新聞協会 - 日本経済新聞

                                                                                日本新聞協会は4日、生成AI(人工知能)による無断学習・利用から報道コンテンツを保護するための制度整備を求める声明を発表した。報道機関がコンテンツ保護の技術的な措置をとっているにもかかわらず、それを回避してデータ学習や回答文の生成に利用している例があると指摘。政府や国会に法改正も含めたルールづくりを急ぐように要望した。AI事業者は自動プログラムを使って報道機関の配信記事を大量に収集し、記事内容

                                                                                  報道コンテンツ無断学習から保護 「AI利用、制度整備を」 新聞協会 - 日本経済新聞
                                                                                • 「非倫理的」なAI訓練データセット、削除するだけでは不十分

                                                                                  人工知能(AI)の訓練用にはかつて、ネット上のデータを許可なく集められたものが使われた。後に批判され、データセットを撤回する例が相次いだがが、撤回するだけでは問題の解決にはならない。 by Karen Hao2021.08.23 39 3 19 2016年、マイクロソフトは、顔認識の進歩に拍車をかけることを期待して、世界最大の顔データベースを公開した。「MS-Celeb-1M」と呼ぶこのデータベースには、10万人の有名人の顔を撮影した1000万枚の画像が入っていた。しかし「有名人」といっても、その定義は曖昧なものだった。 3年後、研究者のアダム・ハーベイ(Adam Harvey)とジュール・ラプラス(Jules LaPlace)がこのデータセットを精査したところ、ジャーナリスト、アーティスト、活動家、学者など、仕事のためにネット上で活動している多くの一般人が見つかった。彼らはみな、データベ

                                                                                    「非倫理的」なAI訓練データセット、削除するだけでは不十分

                                                                                  新着記事