WEBクローラー
WEBクローラーでは作成したWEBクローラーの一覧の確認・追加・更新ができます。
WEBクローラー一覧
確認方法
[AI/RAG] -> [WEBクローラー]をクリックします。

項目説明

| 項目 | 説明 |
|---|---|
| 有効 | WEBクローラーが有効かどうかを示します。 |
| タイトル | WEBクローラーのタイトルを表示します。 |
| クロール対象 | クロールする対象を表示します。 |
| 履歴 | クリックするとクロールの履歴を確認できます。 |
| 更新日時 | WEBクローラーが最後に更新された日時を表示します。 |
WEBクローラー編集
確認方法
[AI/RAG] -> [WEBクローラー]をクリックします。

WEBクローラー一覧ページから編集をしたいWEBクローラーの[タイトル]をクリックします。

基本設定
| 項目 | 説明 |
|---|---|
| タイトル | WEBクローラーのタイトルを設定します。 |
| ステータス | WEBクローラーの有効状態を切り替えます。 |
| メモ | メモを記入します。 |
| 連携先コンテンツ定義提供版: β / RC版 | このクローラーに紐付いているコンテンツ定義の一覧を表示します(既存のWEBクローラーの編集時のみ表示されます)。紐付けはコンテンツ定義の編集画面の「連携クローラー設定」で行います。 |
| クロール対象 | クロールの対象を選択します。現在サポートされている対象は以下です。
|
| S3バケット内の対象ディレクトリ | クロール対象がS3フォルダの場合に表示されます。S3バケット内の対象ディレクトリを入力します。 |
| クロール数制限 | クロール数の制限を設定します。0を指定すると無制限になります。 |
| 予定提供版: β / RC版 | クロールのスケジュール実行を設定します。「毎日」を有効にすると、指定した時刻にクロールが自動で実行されます。時刻を指定しない場合は03:00が設定されます。 |
| テキストデータ収集 | テキストデータの収集を有効にする場合はオンにします。クロール対象が「WEBページをクロール」の場合に表示されます。 |
| ファイル収集(PDFやOfficeファイル) | PDF・Officeファイル(.pdf/.xlsx/.xls/.docx/.pptx)の収集を有効にする場合はオンにします。クロール対象が「WEBページをクロール」の場合に表示されます。 |
| 画像収集する | 画像収集する場合は有効にします。 |
| 強制更新 | 強制更新する場合は有効にします。 |
WEBページのクロール設定
クロール対象が「WEBページをクロール」の場合に表示されます。
全般
| 項目 | 説明 |
|---|---|
| 開始URL | クロールを開始するURLを入力します。改行区切りで複数入力できます。 |
| 許可されているURL | クロールを許可するURLを入力します。改行区切りで複数入力できます。 |
| サイトマップURL | サイトマップのURLを入力します。 |
| 拒否されるURL | クロールの拒否をするURLを入力します。改行区切りで複数入力できます。 |
| 許可される次ページURL | 二次リンクの追跡で許可するURLを入力します。改行区切りで複数入力できます。 |
| 拒否される次ページURL | 二次リンクの追跡で拒否するURLを入力します。改行区切りで複数入力できます。 |
| 許可される言語 | 複数の言語がある場合、許可する言語を入力します。 |
| リンクの追跡 | HTMLのリンクをたどってクロールする場合は有効にします。 |
| 二次リンクの追跡 | 許可されているURLからの次のリンク先までたどる場合は有効にします。 |
データ変換・インポート設定
このセクションはHTMLのクロールに関する設定です。管理画面では「HTML」バッジ付きの折りたたみセクションとして表示されます。提供版: β / RC版

| 項目 | 説明 |
|---|---|
| メインコンテンツ識別用CSSセレクター | メインコンテンツとして識別するCSSセレクターを入力します。 |
| カテゴリ識別用CSSセレクター | カテゴリを識別するためのCSSセレクターを入力します。 |
| タイトルタグから除去する文字列 | タイトルタグから除去する文字列を入力します。 |
| メインコンテンツから除去するCSSセレクター | メインコンテンツから除去するCSSセレクターを入力します。 |
クロールデータの保存に必要なコンテンツ定義
クロールした結果をコンテンツに保存するには以下のコンテンツ定義を持っている必要があります。
| 項目名(任意) | 繰り返し | 項目設定 | Slug | 注釈(任意) |
|---|---|---|---|---|
| 日付 | 日付 投稿時間と秒も設定する (hh:mm:ss):有効 | ymd | 更新された日付がセットされます。 | |
| Contents | 1 | HTML 全てのタグを許可する:有効 | data | マークダウン形式に変換されたコンテンツが格納されます。 |
| URL | 1 | テキスト | url | |
| ハッシュ値 | 1 | テキスト | etag | コンテンツの更新状況のチェックに利用します。 |
| 言語 | 1 | テキスト | lang | |
| メインコンテンツのCSSセレクター | 1 | テキスト | selector | ページ内の抽出するコンテンツを指定しています。 |
| レスポンスステータス | 1 | 数値 | response_status | |
| コンテンツサイズ | 1 | 数値 | content-length | |
| コンテンツタイプ | 1 | テキスト | content-type | |
| 手動調整フラグ | 1 | 単一選択 0:無効:デフォルト 0:有効 | manual_override_flag | 有効にしていると、クローラーで上書きされません。 |
| domain | 1 | テキスト | domain | |
| description | 1 | テキスト | description | |
| icon_url | 1 | テキスト | icon_url | |
| ogp_image_url | 1 | テキスト | ogp_image_url | |
| 画像 | 20 | 以下3項目のグループ化 | images | |
| - 画像URL | ファイル(ファイルマネージャーから) | image_url | ||
| - 画像src | テキスト | image_src | ||
| - altタグ | テキスト | alt | ||
| last-modified | 1 | 日付フォーマット 時間(hh:mm)も設定する:有効 | last-modified |
クロールを実行 履歴
確認方法
[AI/RAG] -> [WEBクローラー]をクリックします。

WEBクローラー一覧ページから編集をしたいWEBクローラーの[履歴]をクリックします。

項目説明

| 項目 | 説明 |
|---|---|
| ステータス | 現在のクロールの状態を表示します。 |
| クロール対象 | クロールする対象を表示します。 |
| コンテンツ | クロールしたページが登録されるコンテンツ定義名を表示します。 |
| 開始URL | クロールが開始されるURLを表示します。 |
| 開始日時 | クロールの実行が開始された日時を表示します。 |
| 終了日時 | クロールが終了した日時を表示します。 |
| 処理時間 | クロールにかかった処理時間を表示します。 |
| 終了理由 | クロールが終了した理由を表示します。 |
| クロール数 | クロール中に処理されたページ数を表示します。 |
| ログ | クリックするとクロールに関するログを確認できます。 |
| 再実行 | クリックするとクロールを再実行します。 |
サポート
お探しのページは見つかりましたか?解決しない場合は、問い合わせフォームからお問い合わせいただくか、Slackコミュニティにご参加ください。