メインコンテンツまでスキップ

WEBクローラー

WEBクローラーでは作成したWEBクローラーの一覧の確認・追加・更新ができます。

WEBクローラー一覧

確認方法

[AI/RAG] -> [WEBクローラー]をクリックします。

Image from Gyazo

項目説明

Image from Gyazo

項目説明
有効WEBクローラーが有効かどうかを示します。
タイトルWEBクローラーのタイトルを表示します。
クロール対象クロールする対象を表示します。
履歴クリックするとクロールの履歴を確認できます。
更新日時WEBクローラーが最後に更新された日時を表示します。

WEBクローラー編集

確認方法

[AI/RAG] -> [WEBクローラー]をクリックします。

Image from Gyazo

WEBクローラー一覧ページから編集をしたいWEBクローラーの[タイトル]をクリックします。

Image from Gyazo

基本設定

項目説明
タイトルWEBクローラーのタイトルを設定します。
ステータスWEBクローラーの有効状態を切り替えます。
メモメモを記入します。
連携先コンテンツ定義提供版: β / RCこのクローラーに紐付いているコンテンツ定義の一覧を表示します(既存のWEBクローラーの編集時のみ表示されます)。紐付けはコンテンツ定義の編集画面の「連携クローラー設定」で行います。
クロール対象クロールの対象を選択します。現在サポートされている対象は以下です。
  • WEBページをクロール
  • Kuroco RAGのS3フォルダをクロール
  • 指定したS3フォルダをクロール
S3バケット内の対象ディレクトリクロール対象がS3フォルダの場合に表示されます。S3バケット内の対象ディレクトリを入力します。
クロール数制限クロール数の制限を設定します。0を指定すると無制限になります。
予定提供版: β / RCクロールのスケジュール実行を設定します。「毎日」を有効にすると、指定した時刻にクロールが自動で実行されます。時刻を指定しない場合は03:00が設定されます。
テキストデータ収集テキストデータの収集を有効にする場合はオンにします。クロール対象が「WEBページをクロール」の場合に表示されます。
ファイル収集(PDFやOfficeファイル)PDF・Officeファイル(.pdf/.xlsx/.xls/.docx/.pptx)の収集を有効にする場合はオンにします。クロール対象が「WEBページをクロール」の場合に表示されます。
画像収集する画像収集する場合は有効にします。
強制更新強制更新する場合は有効にします。

WEBページのクロール設定

クロール対象が「WEBページをクロール」の場合に表示されます。

全般
項目説明
開始URLクロールを開始するURLを入力します。改行区切りで複数入力できます。
許可されているURLクロールを許可するURLを入力します。改行区切りで複数入力できます。
サイトマップURLサイトマップのURLを入力します。
拒否されるURLクロールの拒否をするURLを入力します。改行区切りで複数入力できます。
許可される次ページURL二次リンクの追跡で許可するURLを入力します。改行区切りで複数入力できます。
拒否される次ページURL二次リンクの追跡で拒否するURLを入力します。改行区切りで複数入力できます。
許可される言語複数の言語がある場合、許可する言語を入力します。
リンクの追跡HTMLのリンクをたどってクロールする場合は有効にします。
二次リンクの追跡許可されているURLからの次のリンク先までたどる場合は有効にします。
データ変換・インポート設定

このセクションはHTMLのクロールに関する設定です。管理画面では「HTML」バッジ付きの折りたたみセクションとして表示されます。提供版: β / RC

Image from Gyazo

項目説明
メインコンテンツ識別用CSSセレクターメインコンテンツとして識別するCSSセレクターを入力します。
カテゴリ識別用CSSセレクターカテゴリを識別するためのCSSセレクターを入力します。
タイトルタグから除去する文字列タイトルタグから除去する文字列を入力します。
メインコンテンツから除去するCSSセレクターメインコンテンツから除去するCSSセレクターを入力します。

クロールデータの保存に必要なコンテンツ定義

クロールした結果をコンテンツに保存するには以下のコンテンツ定義を持っている必要があります。

項目名(任意)繰り返し項目設定Slug注釈(任意)
日付日付
投稿時間と秒も設定する (hh:mm:ss):有効
ymd更新された日付がセットされます。
Contents1HTML
全てのタグを許可する:有効
dataマークダウン形式に変換されたコンテンツが格納されます。
URL1テキストurl
ハッシュ値1テキストetagコンテンツの更新状況のチェックに利用します。
言語1テキストlang
メインコンテンツのCSSセレクター1テキストselectorページ内の抽出するコンテンツを指定しています。
レスポンスステータス1数値response_status
コンテンツサイズ1数値content-length
コンテンツタイプ1テキストcontent-type
手動調整フラグ1単一選択
0:無効:デフォルト
0:有効
manual_override_flag有効にしていると、クローラーで上書きされません。
domain1テキストdomain
description1テキストdescription
icon_url1テキストicon_url
ogp_image_url1テキストogp_image_url
画像20以下3項目のグループ化images
- 画像URLファイル(ファイルマネージャーから)image_url
- 画像srcテキストimage_src
- altタグテキストalt
last-modified1日付フォーマット
時間(hh:mm)も設定する:有効
last-modified

クロールを実行 履歴

確認方法

[AI/RAG] -> [WEBクローラー]をクリックします。

Image from Gyazo

WEBクローラー一覧ページから編集をしたいWEBクローラーの[履歴]をクリックします。

Image from Gyazo

項目説明

Image from Gyazo

項目説明
ステータス現在のクロールの状態を表示します。
クロール対象クロールする対象を表示します。
コンテンツクロールしたページが登録されるコンテンツ定義名を表示します。
開始URLクロールが開始されるURLを表示します。
開始日時クロールの実行が開始された日時を表示します。
終了日時クロールが終了した日時を表示します。
処理時間クロールにかかった処理時間を表示します。
終了理由クロールが終了した理由を表示します。
クロール数クロール中に処理されたページ数を表示します。
ログクリックするとクロールに関するログを確認できます。
再実行クリックするとクロールを再実行します。

サポート

お探しのページは見つかりましたか?解決しない場合は、問い合わせフォームからお問い合わせいただくか、Slackコミュニティにご参加ください。