メインコンテンツまでスキップ

WEBクローラー

WEBクローラーでは作成したWEBクローラーの一覧の確認・追加・更新ができます。

WEBクローラー一覧

確認方法

[AI/RAG] -> [WEBクローラー]をクリックします。

Image from Gyazo

項目説明

Image from Gyazo

項目説明
有効WEBクローラーが有効かどうかを示します。
タイトルWEBクローラーのタイトルを表示します。
クロール対象クロールする対象を表示します。
履歴クリックするとクロールの履歴を確認できます。
更新日時WEBクローラーが最後に更新された日時を表示します。

WEBクローラー編集

確認方法

[AI/RAG] -> [WEBクローラー]をクリックします。

Image from Gyazo

WEBクローラー一覧ページから編集をしたいWEBクローラーの[タイトル]をクリックします。

Image from Gyazo

基本設定

Image from Gyazo

項目説明
タイトルWEBクローラーのタイトルを設定します。
メモメモを記入します。
データインポートAPI以下の条件のエンドポイントが表示されるので、データインポートに利用するエンドポイントを選択します。
  • セキュリティ:動的アクセストークン
  • モデル/オペレーション:Topics::insert
  • topics_group_id:特定のIDを指定
  • lightweight_mode:有効
  • upsert_by_columns:slug
※topics_group_idに指定するコンテンツ定義は特定の項目を持っている必要があります。必要なコンテンツ定義の項目はクロールデータの保存に必要なコンテンツ定義の項目を参照してください。
クロール対象クロールの対象を選択します。現在サポートされている対象は以下です。
  • WEBページをクロール
クロール数制限クロール数の制限を設定します。0を指定すると無制限になります。
画像収集する画像収集する場合は有効にします。
強制更新強制更新する場合は有効にします。
ステータスWEBクローラーの有効状態を選択します。

WEBページのクロール設定

全般

Image from Gyazo

項目説明
開始URLクロールを開始するURLを入力します。改行区切りで複数入力できます。
許可されているURLクロールを許可するURLを入力します。改行区切りで複数入力できます。
サイトマップURLサイトマップのURLを入力します。
拒否されるURLクロールの拒否をするURLを入力します。
許可される言語複数の言語がある場合、許可する言語を入力します。
リンクの追跡HTMLのリンクをたどってクロールする場合は有効にします。
二次リンクの追跡二次リンクの追跡をする場合は有効にします。
データ変換・インポート設定

Image from Gyazo

項目説明
メインコンテンツ識別用CSSセレクターメインコンテンツとして識別するCSSセレクターを入力します。
カテゴリ識別用CSSセレクターカテゴリを識別するためのCSSセレクターを入力します。
タイトルタグから除去する文字列タイトルタグから除去する文字列を入力します。
メインコンテンツから除去するCSSセレクターメインコンテンツから除去するCSSセレクターを入力します。

クロールデータの保存に必要なコンテンツ定義

クロールした結果をコンテンツに保存するには以下のコンテンツ定義を持っている必要があります。

項目名(任意)繰り返し項目設定Slug注釈(任意)
日付日付
投稿時間と秒も設定する (hh:mm:ss):有効
ymd更新された日付がセットされます。
Contents1HTML
全てのタグを許可する:有効
dataマークダウン形式に変換されたコンテンツが格納されます。
URL1テキストurl
ハッシュ値1テキストetagコンテンツの更新状況のチェックに利用します。
言語1テキストlang
メインコンテンツのCSSセレクター1テキストselectorページ内の抽出するコンテンツを指定しています。
レスポンスステータス1数値response_status
コンテンツサイズ1数値content-length
コンテンツタイプ1テキストcontent-type
手動調整フラグ1単一選択
0:無効:デフォルト
0:有効
manual_override_flag有効にしていると、クローラーで上書きされません。
domain1テキストdomain
description1テキストdescription
icon_url1テキストicon_url
ogp_image_url1テキストogp_image_url
画像20以下3項目のグループ化images
- 画像URLファイル(ファイルマネージャーから)image_url
- 画像srcテキストimage_src
- altタグテキストalt
last-modified1日付フォーマット
時間(hh:mm)も設定する:有効
last-modified

クロールを実行 履歴

確認方法

[AI/RAG] -> [WEBクローラー]をクリックします。

Image from Gyazo

WEBクローラー一覧ページから編集をしたいWEBクローラーの[履歴]をクリックします。

Image from Gyazo

項目説明

Image from Gyazo

項目説明
ステータス現在のクロールの状態を表示します。
クロール対象クロールする対象を表示します
コンテンツクロールしたページが登録されるコンテンツ定義名を表示します。
開始URLクロールが開始されるURLを表示します。
開始日時クロールの実行が開始された日時を表示します。
終了日時クロールが終了した日時を表示します。
処理時間クロールにかかった処理時間を表示します。
終了理由クロールが終了した理由を表示します。
クロール数クロール中に処理されたページ数を表示します。
ログクリックするとクロールに関するログを確認できます。
再実行クリックするとクロールを再実行します。

サポート

お探しのページは見つかりましたか?解決しない場合は、問い合わせフォームからお問い合わせいただくか、Slackコミュニティにご参加ください。