WaterCrawl
WaterCrawlは任意のWebサイトをLLMの学習データに変換するオープンソースのWebアプリです。まだベータ版だそうですが、公開デモサイトが用意されており動作を試す事が出来るようになっています。
指定したWebサイトを設定内容に従ってクロールし、LLMの学習向けデータとしてMarkdownやJSONで出力してくれる、というもの。広告やフッター、メニューなど不要なデータは設定不要で除外してくれます。手軽に扱えるLLM学習データ向け(に限るものでは無いけど)Webスクレイパーという理解で良さそうです。Djangoベースで構築されており、スクレイピングにはScrapyが採用されています。
任意のWebサイトのURL、クロールする深度、ページ数、除外ページの指定項目のほか、細かなオプション設定も可能、完了後はDLやデータ確認が可能となっています。Webアプリとして動作するので管理もしやすいのではないかと思います。詳細等はプロジェクトサイトをご覧ください。ライセンスはMIT