Skip to content

Webサイトからデータをインポート

Note: ⚠️ このドキュメントはAIによって自動翻訳されています。不正確な部分がある場合は、英語版を参照してください。

FlexAI のナレッジベースでは、Jina ReaderFirecrawlを利用してウェブページをスクレイピングし、解析したデータをMarkdownの形式でナレッジベースに取り込むことができます。

Info:

Jina ReaderFirecrawlは、オープンソースのウェブページ解析ツールです。ウェブページをクリーンで大規模言語モデル(LLM)が扱いやすいMarkdown形式のテキストに変換します。また、使いやすいAPIサービスも提供しています。

Firecrawl

Firecrawlの認証情報の設定

右上隅にあるアバターをクリックし、DataSourceページでFirecrawlの認証情報を設定する必要があります。

データソース設定ページ

Firecrawl 公式サイト にログインして登録を完了し、APIキーを取得してから入力し、保存します。

Firecrawl APIキー設定

Firecrawl を使用してWebコンテンツをクロールする

ナレッジベース作成のページでSync from websiteを選択し、スクレイピングの対象どしてのウェブページのURLを入力します。

設定項目には、サブページのスクレイピング、スクレイピングするページの上限、ページのスクレイピング深度、ページの除外、指定ページのみのスクレイピング、コンテンツの抽出などが含まれます。設定が完了したら Run をクリックし、解析結果のページをプレビューします。

Webコンテンツをクロールする

解析されたテキストをナレッジベースのドキュメントにインポートし、結果を確認します。Add URL をクリックすると、新しいウェブページをさらにインポートできます。


Jina Reader

Jina Readerの認証情報の設定

右上隅にあるアバターをクリックし、DataSourceページでJina Readerの認証情報を設定する必要があります。

データソース設定ページ

Jina Readerの公式サイト にログインして登録を完了し、APIキーを取得してから入力し、保存します。

Jina Reader APIキー設定

Jina Reader を使用してWebコンテンツをクロールする

ナレッジベース作成のページでSync from websiteを選択し、スクレイピングの対象どしてのウェブページのURLを入力します。

Jina Readerでのウェブページ入力

設定項目には、サブページをクロールするかどうか、クロールされるページ数の上限、サイトマップのクロールを使用するかどうかなどがあります。設定が完了したら Run をクリックし、解析結果のページをプレビューします。

クロール設定と実行

解析されたテキストをナレッジベースのドキュメントにインポートし、結果を確認します。Add URL をクリックすると、新しいウェブページをさらにインポートできます。

クロール結果のインポート

クロールが完了すると、Web ページのコンテンツがナレッジ ベースに組み込まれます。