任意のWebページから余計な要素を排除してMarkdown化するオープンソースのブラウザ拡張・「.MD this page」

Ads

.MD this page

任意のWebページから余計な要素を排除してMarkdown化するオープンソースのブラウザ拡張・「.MD this page」

.MD this pageは任意のWebページから余計な要素を排除してMarkdown化するオープンソースのブラウザ拡張です。

メインコンテンツを抽出し、それ以外のナビゲーションや広告、定型コンテンツといった本文に無関係の要素を排除した状態で構造化されたMarkdownファイルにしてくれる、というもの。

また、ニーズに合わせて設定も可能で、例えば画像の削除の有無、リンクの削除の有無、メタデータの表示/非表示なども設計も可能です。

この拡張は主にLLMに対しコンテンツを最適化する目的も含まれているそうで、ノイズを極力減らし、適切に構造化する事でLLMの推論の品質向上、トークン効率化する事が出来る、任意のWebページをLLM対応ドキュメントに変換する、というのも目的の1つとしています。

開発にはブラウザ拡張フレームワークのPlasmoをベースに、React、Tailwindなどで構成、Markdownファイルへの変換にはTurndownが採用されています。詳細は以下リポジトリをご参照ください。

.MD this page