チャンク設定¶
Note: ⚠️ このドキュメントはAIによって自動翻訳されています。不正確な部分がある場合は、英語版を参照してください。
チャンクとは?¶
ナレッジベースにインポートされたドキュメントは、チャンクと呼ばれる小さなセグメントに分割されます。チャンクとは、大きな本を章や段落に整理するようなものです。大きなテキストブロックから特定の情報をすぐに見つけることはできませんが、適切に整理されたセクションなら効率的に検索できます。
ユーザーが質問すると、システムはこれらのチャンクから関連情報を検索し、LLMにコンテキストとして提供します。チャンク化がなければ、クエリごとにドキュメント全体を処理することになり、遅くて非効率的です。
主要なチャンクパラメータ
- 区切り文字:テキストを分割する文字またはシーケンス。例えば、
\n\nは段落区切りで分割し、\nは改行で分割します。
Note:
区切り文字はチャンク化の際に削除されます。例えば、`A`を区切り文字として使用すると、`CBACD`は`CB`と`CD`に分割されます。
情報の損失を避けるために、ドキュメント内に自然に出現しない非コンテンツ文字を使用してください。
- 最大チャンク長:各チャンクの最大サイズ(文字数)。この制限を超えるテキストは、区切り文字の設定に関係なく強制的に分割されます。
汎用モード vs 親子モード¶
Note:
チャンクモードは、ナレッジベースを作成した後は変更できません。ただし、区切り文字や最大チャンク長などのチャンク設定はいつでも調整できます。
モードの概要¶
汎用モード:
汎用モードでは、すべてのチャンクが同じ設定を共有します。マッチしたチャンクは検索結果として直接返されます。
**チャンク設定**
区切り文字と最大チャンク長に加えて、**チャンクのオーバーラップ**を設定して、隣接するチャンク間で重複する文字数を指定できます。これにより、意味的なつながりが保持され、重要な情報がチャンクの境界で分断されることを防ぎます。
例えば、50文字のオーバーラップを設定すると、あるチャンクの最後の50文字が次のチャンクの最初の50文字としても表示されます。
親子モード:
親子モードでは、テキストは2つの階層に分割されます:小さな**子チャンク**と大きな**親チャンク**です。クエリが子チャンクにマッチすると、その親チャンク全体が検索結果として返されます。
これは一般的な検索のジレンマを解決します:小さなチャンクは正確なクエリマッチングを可能にしますがコンテキストが不足し、大きなチャンクは豊富なコンテキストを提供しますが検索精度が低下します。
親子モードは両方のバランスを取り、精度の高い検索とコンテキストのある回答を実現します。
**親チャンク設定**
親チャンクは**段落**モードまたは**全文**モードで作成できます。
段落:
ドキュメントは、指定された区切り文字と最大チャンク長に基づいて複数の親チャンクに分割されます。
セクションが適切に構造化された長いドキュメントで、各セクションが独立して意味のあるコンテキストを提供する場合に適しています。
全文:
ドキュメント全体が単一の親チャンクとして扱われます。
特定の詳細を理解するために完全なコンテキストが不可欠な、小さくまとまりのあるドキュメントに適しています。
Note:
**全文**モードでは:
- 最初の10,000トークンのみが処理されます。この制限を超えるコンテンツは切り捨てられます。
- 親チャンクは作成後に編集できません。変更するには、新しいドキュメントをアップロードする必要があります。
**子チャンク設定**
各親チャンクは、独自の区切り文字と最大チャンク長設定を使用してさらに子チャンクに分割されます。
Note:
親チャンクと子チャンクで互いのサブセットとなる区切り文字を使用しないでください。予期しないチャンク動作を引き起こす可能性があります。
例えば、`??`と`?`よりも`??`と`##`の使用を推奨します。
比較表¶
| 項目 | 汎用モード | 親子モード |
|---|---|---|
| チャンク戦略 | 単一階層:すべてのチャンクが同じ設定を使用 | 二階層:親チャンクと子チャンクで別々の設定 |
| 検索ワークフロー | マッチしたチャンクが直接返される | 子チャンクがクエリのマッチングに使用され、親チャンクがより広いコンテキストを提供するために返される |
| 対応するインデックス方式 | 高品質、経済的 | 高品質のみ |
| 最適な用途 | 用語集やFAQなどのシンプルで自己完結したコンテンツ | 技術マニュアルや研究論文などコンテキストが重要な情報密度の高いドキュメント |
チャンク化前のテキスト前処理¶
テキストをチャンクに分割する前に、不要なコンテンツをクリーンアップして検索品質を向上させることができます。
-
連続する空白、改行、タブを置換
-
3つ以上の連続した改行 → 2つの改行
-
複数の空白 → 単一の空白
-
タブ、フォームフィード、特殊なUnicode空白 → 通常の空白
-
すべてのURLとメールアドレスを削除
Info:
この設定は**全文**モードでは無視されます。
サマリー自動生成を有効にする¶
Info: セルフホスト環境でのみ利用可能です。
すべてのチャンクのサマリーを自動生成し、検索性を向上させます。
サマリーも埋め込まれ、検索用にインデックス化されます。サマリーがクエリにマッチすると、対応するチャンクも返されます。
自動生成されたサマリーを手動で編集したり、後で特定のドキュメントのサマリーを再生成することができます。詳細はナレッジコンテンツの管理を参照してください。
Tip:
ビジョン対応のLLMを選択すると、チャンクテキストと添付画像の両方に基づいてサマリーが生成されます。
チャンクをプレビュー¶
プレビューをクリックして、コンテンツがどのようにチャンク化されるかを確認できます。クイックレビュー用に限られた数のチャンクが表示されます。
結果が期待と完全に一致しない場合は、最も近い設定を選択してください。後で手動でチャンクを微調整できます。詳細はナレッジコンテンツの管理を参照してください。
複数のドキュメントの場合、プレビューパネル上部のファイル名をクリックして、ドキュメントを切り替えることができます。