WEBクローラー
WEBクローラーでは作成したWEBクローラーの一覧の確認・追加・更新ができます。
WEBクローラー一覧
確認方法
[AI/RAG] -> [WEBクローラー]をクリックします。
項目説明
項目 | 説明 |
---|---|
有効 | WEBクローラーが有効かどうかを示します。 |
タイトル | WEBクローラーのタイトルを表示します。 |
クロール対象 | クロールする対象を表示します。 |
履歴 | クリックするとクロールの履歴を確認できます。 |
更新日時 | WEBクローラーが最後に更新された日時を表示します。 |
WEBクローラー編集
確認方法
[AI/RAG] -> [WEBクローラー]をクリックします。
WEBクローラー一覧ページから編集をしたいWEBクローラーの[タイトル]をクリックします。
基本設定
項目 | 説明 |
---|---|
タイトル | WEBクローラーのタイトルを設定します。 |
メモ | メモを記入します。 |
データインポートAPI | 以下の条件のエンドポイントが表示されるので、データインポートに利用するエンドポイントを選択します。
|
クロール対象 | クロールの対象を選択します。現在サポートされている対象は以下です。
|
クロール数制限 | クロール数の制限を設定します。0を指定すると無制限になります。 |
画像収集する | 画像収集する場合は有効にします。 |
強制更新 | 強制更新する場合は有効にします。 |
ステータス | WEBクローラーの有効状態を選択します。 |
WEBページのクロール設定
全般
項目 | 説明 |
---|---|
開始URL | クロールを開始するURLを入力します。改行区切りで複数入力できます。 |
許可されているURL | クロールを許可するURLを入力します。改行区切りで複数入力できます。 |
サイトマップURL | サイトマップのURLを入力します。 |
拒否されるURL | クロールの拒否をするURLを入力します。 |
許可される言語 | 複数の言語がある場合、許可する言語を入力します。 |
リンクの追跡 | HTMLのリンクをたどってクロールする場合は有効にします。 |
二次リンクの追跡 | 二次リンクの追跡をする場合は有効にします。 |
データ変換・インポート設定
項目 | 説明 |
---|---|
メインコンテンツ識別用CSSセレクター | メインコンテンツとして識別するCSSセレクターを入力します。 |
カテゴリ識別用CSSセレクター | カテゴリを識別するためのCSSセレクターを入力します。 |
タイトルタグから除去する文字列 | タイトルタグから除去する文字列を入力します。 |
メインコンテンツから除去するCSSセレクター | メインコンテンツから除去するCSSセレクターを入力します。 |
クロールデータの保存に必要なコンテンツ定義
クロールした結果をコンテンツに保存するには以下のコンテンツ定義を持っている必要があります。
項目名(任意) | 繰り返し | 項目設定 | Slug | 注釈(任意) |
---|---|---|---|---|
日付 | 日付 投稿時間と秒も設定する (hh:mm:ss):有効 | ymd | 更新された日付がセットされます。 | |
Contents | 1 | HTML 全てのタグを許可する:有効 | data | マークダウン形式に変換されたコンテンツが格納されます。 |
URL | 1 | テキスト | url | |
ハッシュ値 | 1 | テキスト | etag | コンテンツの更新状況のチェックに利用します。 |
言語 | 1 | テキスト | lang | |
メインコンテンツのCSSセレクター | 1 | テキスト | selector | ページ内の抽出するコンテンツを指定しています。 |
レスポンスステータス | 1 | 数値 | response_status | |
コンテンツサイズ | 1 | 数値 | content-length | |
コンテンツタイプ | 1 | テキスト | content-type | |
手動調整フラグ | 1 | 単一選択 0:無効:デフォルト 0:有効 | manual_override_flag | 有効にしていると、クローラーで上書きされません。 |
domain | 1 | テキスト | domain | |
description | 1 | テキスト | description | |
icon_url | 1 | テキスト | icon_url | |
ogp_image_url | 1 | テキスト | ogp_image_url | |
画像 | 20 | 以下3項目のグループ化 | images | |
- 画像URL | ファイル(ファイルマネージャーから) | image_url | ||
- 画像src | テキスト | image_src | ||
- altタグ | テキスト | alt | ||
last-modified | 1 | 日付フォーマット 時間(hh:mm)も設定する:有効 | last-modified |
クロールを実行 履歴
確認方法
[AI/RAG] -> [WEBクローラー]をクリックします。
WEBクローラー一覧ページから編集をしたいWEBクローラーの[履歴]をクリックします。
項目説明
項目 | 説明 |
---|---|
ステータス | 現在のクロールの状態を表示します。 |
クロール対象 | クロールする対象を表示します |
コンテンツ | クロールしたページが登録されるコンテンツ定義名を表示します。 |
開始URL | クロールが開始されるURLを表示します。 |
開始日時 | クロールの実行が開始された日時を表示します。 |
終了日時 | クロールが終了した日時を表示します。 |
処理時間 | クロールにかかった処理時間を表示します。 |
終了理由 | クロールが終了した理由を表示します。 |
クロール数 | クロール中に処理されたページ数を表示します。 |
ログ | クリックするとクロールに関するログを確認できます。 |
再実行 | クリックするとクロールを再実行します。 |
サポート
お探しのページは見つかりましたか?解決しない場合は、問い合わせフォームからお問い合わせいただくか、Slackコミュニティにご参加ください。