Crawlerの人気記事 42件 - はてなブックマーク

1 - 40 件 / 42件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Crawlerの検索結果1 - 40 件 / 42件

Crawlerに関するエントリは42件あります。 AI、 web、人工知能などが関連タグです。人気エントリには『AIにニュースの収集を任せている方法（GPT-4からSlack投稿） - toyoshiの日記』などがあります。

AIにニュースの収集を任せている方法（GPT-4からSlack投稿） - toyoshiの日記
- 788 users
- toyoshi.hatenablog.com
- テクノロジー
- 2023/10/13
キーワードベースで情報収集をしているという下記の記事を読みました。私も似たようなことをしているのですがキーワードは使わない方法でニュースの収集をしていて、そのほうがLLMを活用できていると思うのでその方法を紹介します。 forest.watch.impress.co.jp キーワードではなく自分の目的や関心を伝える以前私が手動でやっていたのはRSSリーダーにサイトを登録して、記事のタイトルと概要を読んで気になる記事を開いて読むということでした。こういうときに人間はキーワード検索をしていません。何をしているかというと自分の目的や関心があって、それに関連する記事をピックアップするということです。それと同じようなことをさせようというのが今回紹介する方法です。ポイントは今回の場合は私の所属する会社について情報をプロンプトで与え、それに関連するニュースが何かをLLMに考えさせることです。今回の
- ChatGPT
- AI
- あとで読む
- slack
- ニュース
- プログラミング
- rss
- 情報収集
- prompt
- GPT
無料Webクローラー「EasySpider」　プログラミングスキル不要、マウスクリックだけで操作可能
- 505 users
- www.itmedia.co.jp
- テクノロジー
- 2023/07/12
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。このシステムは、マウス操作のGUI（Graphical User Interface）を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設
今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ
- 389 users
- tech.layerx.co.jp
- テクノロジー
- 2024/03/12
皆さんこんにちは。CTOの松本です。LLM使ってますか？ChatGPT毎日触ってますか？ LLMに熱狂してすでに1年以上が経ちましたが周辺エコシステムが充実してきたことでいろいろな取り組みがとても簡単に実現出来るようになったなーと感じています。ということで今回はZapierを使った小ネタのご紹介です。 AI・LLM事業部の今とその前に、AI・LLM事業部での取り組みから着想を得たものでして、AI・LLM事業部について簡単に紹介させてください。 LayerXの新規事業であるAI・LLM事業部では、バクラクでも取り組んできたビジネス文書の解析の延長としてLLMを活用して文書分析エンジンの開発を進めています。現在このエンジンを使ったエンタープライズ向けの新規プロダクト開発にいそしんでおります。とても楽しいですし、最近は様々なお客様からの引き合いも増えておりまして、事業成長に向けて満を持しての
- ChatGPT
- AI
- あとで読む
- Zapier
- LLM
- rss
- 情報収集
- ニュース
- マネジメント
- crawler
ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita
- 387 users
- qiita.com/naohikowatanabe
- テクノロジー
- 2023/05/08
今回やりたかったこと目標：ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成するにはどうしたらいいのか、ChatGPT のハードルとかコツとかを知りたい。 ※最終的なプロンプトの入力と出力の全文は本ページ下部に貼り付けてます。作ったもの概要保険組合のウォーキングイベントの会社内の3チームの歩数進捗の slack への自動投稿 bot を作成しました。処理は大きく2つに分かれています。ウォーキングイベントサイトから歩数をスクレイピング＆スプシへアップロードスプシの GAS で投稿文字列作成＆ slack へ自動投稿今回 ChatGPT でやったのは1の方です。 2は前回半年前開催分のコードをほぼそのまま流用しました。運良く（？）今回のタイミングでウォーキングイベントのサービスサイトが変わり、 HTML がまるっと変わり1のスクレイピングコードは作り直しが必

月間1.6億秒の Lambda x Node.js 利用から得られた知見
- 183 users
- tech.stockmark.co.jp
- テクノロジー
- 2022/10/19
ストックマークのプロダクト開発・運用では、Node.jsを利用してAWS Lambda を月間1.6億秒利用しています。本記事ではそこから分かった知見を紹介します。
- lambda
- Node.js
- あとで読む
- スクレイピング
- aws
- scraping
- techfeed
- node
- qiita
サイトのコンテンツを無断収集するAIクローラーを捕獲し、脱出できなくするツールが物議【やじうまWatch】
- 127 users
- internet.watch.impress.co.jp
- テクノロジー
- 2025/01/30
- crawler
- AI
- web
- bot
- コンテンツ
- あとで読む
生成AIによるクロールを拒否する設定ができるようになりました - はてなブログ開発ブログ
- 88 users
- staff.hatenablog.com
- テクノロジー
- 2025/07/30
このたび、生成AIによるクロールを拒否する設定ができるようになりました。この設定はすべてのプランでご利用いただけます。初期設定では生成AIによるクロールが可能な状態となっていますが、基本設定から「生成AIによるクロールを拒否」をONに設定すると、ご自身のブログやサイトのrobots.txtファイルに生成AIによるクロールを拒否するルールが自動的に追記されます。拒否の対象となるユーザーエージェントの詳細は、下記のヘルプをご確認ください。 https://help.hatenablog.com/entry/ai-crawling これまでの経緯と機能制限解除についてはてなブログでは、2025年2月6日から2025年6月27日まで、AIクローラーをブロックしておりました。これは、AIクローラーによる過剰なアクセスに起因する一部障害の発生や、ユーザーの皆さまから、自身のコンテンツが無断で学
Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives
- 78 users
- blog.cloudflare.com
- テクノロジー
- 2025/08/04
Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives2025-08-04 We are observing stealth crawling behavior from Perplexity, an AI-powered answer engine. Although Perplexity initially crawls from their declared user agent, when they are presented with a network block, they appear to obscure their crawling identity in an attempt to circumvent the website’s preferences
- perplexity
- ai
- あとで読む
- 法律と倫理
- crawler
- article
- web
AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開
- 70 users
- www.itmedia.co.jp
- テクノロジー
- 2025/02/06
Webを巡回してAIモデルの学習に使う情報をかき集めるクローラーの横行に対し、反発が強まっている。Webサイト側で対策を講じてもかわされてしまう現状に対抗して、ある海外ユーザーが迷惑クローラーを“出口のない落とし穴”に閉じ込めて撃退するプログラム「Nepenthes」を公開した。 Nepenthesの名称は、昆虫を袋の中に閉じ込めて捕食する食虫植物「ウツボカズラ」（ネペンテス）にちなむ。これをひそかにWebサイトに仕掛けておけば、Webクローラーによるコンテンツ収集を阻止できるという。さらに「攻撃的な」オプション機能を有効にすれば、クローラーに時間と処理能力を延々と浪費させ、AIモデル学習用データの汚染を狙うこともできるという。同ツールがベースとしているのは、サイバーセキュリティ業界で迷惑メール対策として使われる「ターピット」と呼ばれる手法。ターピットは「タール穴」の意味で、Nepent
失われるWebの多様性——AIクローラー戦争が始まった
- 64 users
- www.technologyreview.jp
- テクノロジー
- 2025/02/14
AI企業がモデルの訓練のためにWebサイトから大量のデータを収集する動きに対抗して、クローラーをブロックするサイトが増えている。オープンなWebの理念が危機に瀕している。 by Shayne Longpre2025.02.14 10 この記事の3つのポイントインターネットはクローラーに依存しており半分のトラフィックを占める Webサイト運営者はAIクローラーによるデータ収集を恐れ反撃を始めている Webサイトによるクローラー制限はWebの開放性と透明性を損なう恐れがある summarized by Claude 3 私たちはよく、インターネットを当たり前のように利用している。指先ひとつで情報の大海を回遊でき、快適に利用できる。しかし、このシステムは「クローラー（Crawler）」と呼ばれるボットの群れに依存している。これらのボットはWeb上を巡回し、毎日何百万ものWebサイトにアクセスし
- ai
- crawler
- あとで読む
- 人工知能
- web
Wikipediaがコスト上昇で窮地に。トラフィック急増も、そのほとんどはクローラーbot？【やじうまWatch】
- 51 users
- internet.watch.impress.co.jp
- テクノロジー
- 2025/04/04
- AI
- wikipedia
- bot
- webサービス
- あとで読む
- ネットワーク
- 話題
- network
- trouble
AI学習目的のスクレイピングに対して利用条件や利用料金を通知する仕組み「RSL」が開発中、すでにYahoo・Reddit・オライリーなどが採用を表明
- 48 users
- gigazine.net
- テクノロジー
- 2025/09/11
AIの開発には膨大なデータが必要であり、AI開発企業はインターネット上に存在するありとあらゆる情報を自動ボット(スクレイパー)を用いて収集しています。このスクレイパーに対して利用条件や利用料金を提示できる仕組み「Really Simple Licensing(RSL)」が開発されています。開発にはRSSの開発陣やO’Reilly Mediaの創業者であるティム・オライリー氏などが関わっており、すでにYahooやReddit、O’Reilly Media、Quora、Mediumなどのサービスが採用を表明しています。 RSL https://rslstandard.org/ New RSL Web Standard and Collective Rights Organization Automate Content Licensing for the AI-First Internet a
Introducing pay per crawl: Enabling content owners to charge AI crawlers for access
- 48 users
- blog.cloudflare.com
- テクノロジー
- 2025/07/01
Introducing pay per crawl: Enabling content owners to charge AI crawlers for access2025-07-01 Many publishers, content creators and website owners currently feel like they have a binary choice — either leave the front door wide open for AI to consume everything they create, or create their own walled garden. But what if there was another way? At Cloudflare, we started from a simple principle: we w
- cloudflare
- ai
- crawler
- web
ChromeDriver でよく使うオプションのチートシート - Qiita
- 43 users
- qiita.com/kawagoe6884
- テクノロジー
- 2022/04/28
はじめに毎回、気になったときに調べているような気がするのでまとめる。ついでにnavigator.webdriverの対策もできる。メモのつもりで書いているので深くは考えていない 2024.11.05　selenium 4.26.0 へオプションの内容を一新 2024.11.05　selenium 4.15.2 のオプションを折りたたみ表示へ 2023.11.20　ファイルのダウンロードに関するオプションを追加、細かな修正 2023.11.15　ヘッドレスモードで起動したとき、コンソールにエラーログが出ないように修正 2023.11.14　selenium 4 にオプションの内容を一新 2023.11.14　selenium 3 のオプションを折りたたみ表示へ 2022.06.03　コピペできるコードブロックに追記、並び替え 2022.04.28　投稿 selenium 4 環境アイ
OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明
- 35 users
- www.itmedia.co.jp
- テクノロジー
- 2023/08/08
米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日（現地時間）、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。 Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテ
- OpenAI
- AI
- chatGPT
- あとで読む
- 人工知能
「PerplexityのAIがクローラーをブロックするrobots.txtを無視している」との指摘に対しCEOが「無視しているわけではないがサードパーティーのクローラーに依存している」と主張
- 34 users
- gigazine.net
- テクノロジー
- 2024/06/24
生成AIを利用した検索エンジンの「Perplexity」に対して、検索エンジンやAIトレーニングなどのボット(クローラー)を制御できるテキストファイル「robots.txt」の指示を無視し、管理者がPerplexityの巡回を禁止したウェブサイトにもアクセスしていることが指摘されています。これに対し、Perplexityのアラヴィンド・スリニヴァスCEOが、「robots.txtの指示を無視しているわけではない」「自社のクローラーだけでなく、サードパーティーのクローラーにも依存している」と釈明しました。 Perplexity AI CEO Aravind Srinivas on plagiarism accusations - Fast Company https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-sriniv
- AI
- 人工知能
- illust
- trouble
- search
GitHub - unclecode/crawl4ai: 🚀🤖 Crawl4AI: Open-source LLM Friendly Web Crawler & Scraper. Don't be shy, join here: https://discord.gg/jP8KfhDhyN
- 30 users
- github.com/unclecode
- テクノロジー
- 2024/09/11
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- scraping
- github
- ai
- python
ローカルLLMのためのプライベートWeb検索エンジンを作った
- 29 users
- wirelesswire.jp
- テクノロジー
- 2025/12/05
清水亮 ryo_shimizu 新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。 Tweet ChatGPT に代表される生成AIを「なんとかローカルで動かしたい」という欲望は、エンジニアなら一度は抱くものだと思う。「クラウドに一切つながずに、自分のPCだけで完結するAIアシスタント」。響きだけなら最高だ。しかし、いざやってみるとすぐに壁にぶつかる。モデルはローカルで動いても、「知識」はローカルにないのである。ローカルLLMにもWebの知識は必要だが… LLMは大量のテキストで事前学習されているとはいえ、「いま」「ここ」で必要な具体的な情報はだいたいWebにある。ちょっとマニアックなエラーコードの意味特定ツールの最新ドキュメントつい最近アップデートされた
- あとで読む
GitHub - niespodd/browser-fingerprinting: Analysis of Bot Protection systems with available countermeasures 🚿. How to defeat anti-bot system 👻 and get around browser fingerprinting scripts 🕵️‍♂️ when scraping the web?
- 18 users
- github.com/niespodd
- テクノロジー
- 2021/11/01
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- bot
- scraping
- スクレイピング
- crawler
- github
- browser
- tips
- ブラウザ
- インターネット
The /llms.txt file – llms-txt
- 17 users
- llmstxt.org
- テクノロジー
- 2024/09/04
A proposal to standardise on using an /llms.txt file to provide information to help LLMs use a website at inference time. Background Large language models increasingly rely on website information, but face a critical limitation: context windows are too small to handle most websites in their entirety. Converting complex HTML pages with navigation, ads, and JavaScript into LLM-friendly plain text is
- AI
- web
- language
- 人工知能
- 開発
AI時代のコンテンツ利用ルールを定める業界標準「RSL 1.0」が正式仕様として公開される
- 16 users
- gigazine.net
- テクノロジー
- 2025/12/11
AI企業によるウェブ上のコンテンツ利用をめぐり、パブリッシャー側が用途ごとの利用条件を明確に提示できる仕組みとして注目されてきたReally Simple Licensing（RSL）1.0が、正式な標準仕様として公開されました。すでにCloudflareやAkamaiなどインターネットインフラ企業や多くのメディア企業がRSLの実装を支持する姿勢を示しています。 New RSL Web Standard and Collective Rights Organization Automate Content Licensing for the AI-First Internet and enable Fair Compensation for Millions of Publishers and Creators | RSL: Really Simple Licensing https://
「AI学習に利用するべからず」OpenAIのクローラーをブロックする動き、海外で広がる【やじうまWatch】
- 16 users
- internet.watch.impress.co.jp
- テクノロジー
- 2023/08/29
- ai
- あとで読む
GitHub - Florents-Tselai/WarcDB: WarcDB: Web crawl data as SQLite databases.
- 15 users
- github.com/Florents-Tselai
- テクノロジー
- 2022/06/20
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- sqlite
- クローラー
- github
- OSS
- DB
Trapping misbehaving bots in an AI Labyrinth
- 13 users
- blog.cloudflare.com
- テクノロジー
- 2025/03/23
Today, we’re excited to announce AI Labyrinth, a new mitigation approach that uses AI-generated content to slow down, confuse, and waste the resources of AI Crawlers and other bots that don’t respect “no crawl” directives. When you opt in, Cloudflare will automatically deploy an AI-generated set of linked pages when we detect inappropriate bot activity, without the need for customers to create any
- Crawler
- Cloudflare
- AI
- blog
LLMS.txt: AI時代のWebサイト最適化ガイド
- 13 users
- zenn.dev/minedia
- テクノロジー
- 2025/02/22
どこまでが仕様で、どこまでが自由記述なのか分かりづらいですが、Markdownで書かれた内容はすべて自由記述です。導入のメリット予想 LLMによる効率的なサイト理解と情報抽出将来のAIモデル学習時の優先的なインデックス化サービスの自動化・統合の促進例：LLMを介したサービス利用の自動化 APIやサービス機能の効率的な活用事例I：Anthropic # Anthropic ## Docs - [Get API Key](https://docs.anthropic.com/en/api/admin-api/apikeys/get-api-key) - [List API Keys](https://docs.anthropic.com/en/api/admin-api/apikeys/list-api-keys) - [Update API Keys](https://docs.a
- LLM
- AI
- Rails
- Ruby
GitHub - ai-robots-txt/ai.robots.txt: A list of AI agents and robots to block.
- 11 users
- github.com/ai-robots-txt
- テクノロジー
- 2024/03/28
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- database
Web scraping is legal, US appeals court reaffirms | TechCrunch
- 11 users
- techcrunch.com
- テクノロジー
- 2022/04/19
Good news for archivists, academics, researchers and journalists: Scraping publicly accessible data is legal, according to a U.S. appeals court ruling. The landmark ruling by the U.S. Ninth Circuit of Appeals is the latest in a long-running legal battle brought by LinkedIn aimed at stopping a rival company from web scraping personal information from users’ public profiles. The case reached the U.S
- スクレイピング
- 米国
- 司法
- law
- web
- あとで読む
GitHub - adbar/trafilatura: Python & Command-line tool to gather text and metadata on the Web: Crawling, scraping, extraction, output as CSV, JSON, HTML, MD, TXT, XML
- 7 users
- github.com/adbar
- テクノロジー
- 2023/08/15
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- Python
- OSS
- text
- tool
- web
Crawler Test Site
- 6 users
- crawler-test.com
- テクノロジー
- 2021/07/06
Default description XIbwNE7SSUJciq0/Jyty
- test
GitHub - NaiboWang/EasySpider: A visual no-code/code-free web crawler/spider易采集：一个可视化浏览器自动化测试/数据采集/爬虫软件，可以无代码图形化的设计和执行爬虫任务。别名：ServiceWrapper面向Web应用的智能化服务封装系统。
- 5 users
- github.com/NaiboWang
- テクノロジー
- 2023/05/24
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- github
WebサイトをスクレイピングしてLLMで使いやすいデータにする「Crawl4AI」を試す
- 4 users
- zenn.dev/kun432
- テクノロジー
- 2025/02/07
LLM/RAG/エージェントで使うためのスクレイピング＆フォーマット変更ツールは以下のようなものを触ってきた。たまたま以下のYouTube動画を見つけて、Crawl4AIというのもあることを知ったので試してみる。 GitHubレポジトリ Crawl4AI 🕷️🤖 Crawl4AIは、ウェブクロールとデータ抽出を簡素化し、大規模言語モデル(LLM)やAIアプリケーションが利用できるようにします。 🆓🌐 機能✨ 🆓 完全無料かつオープンソース 🤖 LLMに適した出力フォーマット(JSON、クリーンアップされたHTML、マークダウン) 🌍 複数のURLの同時クロールをサポート 🎨 すべてのメディアタグ(画像、音声、動画)を抽出して返します 🔗 すべての外部リンクと内部リンクを抽出 📚 ページからメタデータを抽出 🔄 クロール前の認証、ヘッダー、ページの修正用のカスタムフッ
生成AIによるクロールを拒否する - はてなブログヘルプ
- 4 users
- help.hatenablog.com
- テクノロジー
- 2025/07/31
設定ページの「基本設定」内にて「生成AIによるクロールを拒否」をONに設定すると、ブログやサイトのrobots.txtファイルに、生成AIクローラーによるアクセスを拒否するルールが自動的に追記されます。拒否の対象となるユーザーエージェントよくある質問関連記事拒否の対象となるユーザーエージェントこの設定をONにすると、robots.txtに以下のユーザーエージェントを拒否するルールが記述されます。この一覧は、今後の状況に応じて更新される場合があります。 GPTBot (OpenAI) Google-Extended (Google) Applebot-Extended (Apple) anthropic-ai (Anthropic) ClaudeBot (Anthropic) cohere-ai (Cohere) PerplexityBot (Perplexity AI) Perp
- あとで読む
GitHub - ScrapeGraphAI/Scrapegraph-ai: Python scraper based on AI
- 4 users
- github.com/ScrapeGraphAI
- テクノロジー
- 2024/05/04
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- github
- oss
- pdf
- ai
- python
- あとで読む
GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts
- 4 users
- github.com/scrapinghub
- テクノロジー
- 2023/08/28
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- scraping
- html
- python
- tool
Bashing JSON into Shape with SQLite
- 4 users
- xeiaso.net
- テクノロジー
- 2022/01/05
Published on 2022-01-04, 1640 words, 6 minutes to read It is clear that most of the world has decided that they want to use JSON for their public-facing API endpoints. However, most of the time you will need to deal with storage engines that don't deal with JSON very well. This can be confusing to deal with because you need to fit a square peg into a round hole. However, SQLite added JSON function
- SQLite
- JSON
Robotcop: enforcing your robots.txt policies and stopping bots before they reach your website
- 3 users
- blog.cloudflare.com
- テクノロジー
- 2024/12/11
Cloudflare’s AI Crawl Control (formerly AI Audit) dashboard allows you to easily understand how AI companies and services access your content. AI Crawl Control gives a summary of request counts broken out by bot, detailed path summaries for more granular insights, and the ability to filter by categories like AI Search or AI Crawler. Today, we're going one step further. You can now quickly see whic
- ai
AI／機械学習のクローラーをサイトからブロックする方法まとめ – Cosmos and Chaos
- 3 users
- cosmoschaos.net
- テクノロジー
- 2023/11/01
#AI / ML#サイト運営AI（人工知能）や機械学習用のクローラー・botをブロック（オプトアウト）する方法のまとめです。コピペ用のまとめ機械学習モデルの学習への利用機械学習モデルを利用した結果への利用・引用を拒否するコードのまとめです。注意完全に拒否できるわけではありませんこれらのコードをコピーして設置したからといって、全ての機械学習を禁止できるわけではありません。明示的に記述していないクローラのアクセスを制御することはできません robots.txtやmetaタグへの記述に技術的な強制力はありませんとはいえ何もしないよりは良いでしょう。悪影響の方が大きい場合は記載していません機械学習以外のサービスにも影響を与えてしまう場合は、まとめコードには記載していない場合があります。まとめに含まれない（各項目詳細には記載）一般的な検索エンジン（Google、Bing等）
https://www.help-note.com/hc/ja/articles/43414600875673-AI%E5%AD%A6%E7%BF%92%E3%81%AB%E5%AF%BE%E3%81%97%E3%81%A6%E6%84%8F%E5%90%91-%E3%82%AA%E3%83%97%E3%83%88%E3%82%A2%E3%82%A6%E3%83%88-%E3%82%92%E7%A4%BA%E3%81%9B%E3%82%8B%E6%A9%9F%E8%83%BD%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6
- 3 users
- www.help-note.com
- 暮らし
- 2025/02/13
- copyright
報道コンテンツ無断学習から保護　「AI利用、制度整備を」　新聞協会 - 日本経済新聞
- 3 users
- www.nikkei.com
- テクノロジー
- 2025/06/05
日本新聞協会は4日、生成AI（人工知能）による無断学習・利用から報道コンテンツを保護するための制度整備を求める声明を発表した。報道機関がコンテンツ保護の技術的な措置をとっているにもかかわらず、それを回避してデータ学習や回答文の生成に利用している例があると指摘。政府や国会に法改正も含めたルールづくりを急ぐように要望した。AI事業者は自動プログラムを使って報道機関の配信記事を大量に収集し、記事内容
- copyright
- law
- japan
「非倫理的」なAI訓練データセット、削除するだけでは不十分
- 3 users
- www.technologyreview.jp
- テクノロジー
- 2021/08/24
人工知能（AI）の訓練用にはかつて、ネット上のデータを許可なく集められたものが使われた。後に批判され、データセットを撤回する例が相次いだがが、撤回するだけでは問題の解決にはならない。 by Karen Hao2021.08.23 39 3 19 2016年、マイクロソフトは、顔認識の進歩に拍車をかけることを期待して、世界最大の顔データベースを公開した。「MS-Celeb-1M」と呼ぶこのデータベースには、10万人の有名人の顔を撮影した1000万枚の画像が入っていた。しかし「有名人」といっても、その定義は曖昧なものだった。 3年後、研究者のアダム・ハーベイ（Adam Harvey）とジュール・ラプラス（Jules LaPlace）がこのデータセットを精査したところ、ジャーナリスト、アーティスト、活動家、学者など、仕事のためにネット上で活動している多くの一般人が見つかった。彼らはみな、データベ
- privacy
- dataset
- research
- AI