データサイエンスに向けた強力な LLM ナレッジベースを構築する方法

これは、多くの情報を保存し、将来使用できるようにするという概念です。これは次の場合に非常に強力です。

より良い決断を下す
クイックリファレンス
チームを調整する

最近、私はナレッジベースを構築し、上記のすべての点を改善するためにできる限り多くのリファレンスをそこに根付かせることに多くの取り組みを始めました。 LLM が登場する前でも、以前の知識にアクセスするのに常に役立つため、ナレッジベースは常に役に立ちました。ただし、LLM のおかげで知識ベースはますます強力になっています。

これには主に次の 2 つの理由があります。

百科事典でさらに詳しい情報を見つけることができます
ナレッジベースをより簡単にクエリできるようになります (手動で参照する必要がありません)。

この記事では、LLM を利用した独自のナレッジベースをセットアップする必要がある理由、できるだけ多くの情報を取得する方法、およびナレッジベースを積極的に使用する方法について説明します。

データサイエンスに向けた強力な LLM ナレッジベースを構築する方法 — このインフォグラフィックは、この記事の主な内容を強調しています。コーディングエージェントを利用してナレッジベースを構築する方法、そうする必要がある理由、そこに情報をルーティングする方法、推論中にその情報を使用する方法について説明します。画像はchatgptによる。

このトピックについては以前にも議論したことがありますが、ナレッジベースのトピックが非常に人気があるため、私はナレッジベースにさらに興味を持つようになりました。たとえば、Y Combinator の社長が GBrain を作成したり、Andrzej Karpathy が LLM wiki を作成したりするとします。どちらもナレッジベースの例です。

もちろん、知識ベースを構築する最適な方法についての根拠となる真実はありません。最も重要なことは、実際にすべての参照をナレッジベースに保存し始めて、たとえばコードを書いているときや会議中など、常にナレッジベースに効果的にクエリを実行する方法を見つけることだと思います。

なぜナレッジベースが必要なのでしょうか?

まず、ナレッジベースが必要な理由を説明したいと思います。さまざまな知識ベースがあるかもしれません。たとえば、個人的に持っているすべての参考資料を含む個人ベースがある場合や、会社が持つ知識や参考資料を含む全社的な知識ベースがある場合があります。

情報は非常に貴重であるため、知識ベースが必要です。より多くの情報を保存し、後で必要なときにアクセスできるほど、パフォーマンスが向上します。たとえば、次のことができるようになります。

より多くのコンテキストにアクセスできるため、より適切な意思決定が可能になります
トピックに関する情報を得るためにさまざまなソースを調べる必要がなく、過去のトピックをより迅速に選択できます。
同じ真実の情報源を持っているため、さまざまな人々が集まります。

基本的には、個人のナレッジベースがある場合と、全社的なナレッジベースがある場合の両方に同じ概念が当てはまります。また、これらの知識ベースは LLM で質問できるため、はるかに強力になったと私は信じています。以前は、関連情報を見つけるにはナレッジベースを手動で参照する必要がありました。自分の記憶を使って、特定の情報がナレッジベースに保存されているかどうかを思い出し、その情報の検索に時間を費やすかどうかを決定する必要があります。

今では、これは完全に変わりました。たとえば、LLM は、RAG タイプのアプローチを使用してナレッジベース自体にクエリを実行し、関連情報を即座に自動的に検索できます。 LLM は、知識ベースをいつ使用するかを自分で決定できます。

つまり、知識に基づいて情報にアクセスするための人間参加要件であるレイヤーを完全に削除することで、情報がより強力になります。

ナレッジベースに情報を取り込む

もちろん、百科事典の最初のステップは、情報を百科事典に組み込むことです。ナレッジベースの構築方法に応じて、これはいくつかの異なる方法で発生する可能性があります。

ただし、最初に行うことをお勧めするのは、個人でも会社でも、アクセスできるさまざまな情報源すべてについて考えてみることです。たとえば次のとおりです。

ミーティング
Linear などのプロジェクト管理ツール。
Cloud Code や Codex などのコーディングエージェント。最近これらのモデルでどのような作業を行っていますか (また、どのようなタスクが完了しましたか)
物理的なオフィスでのディスカッション。

他にも多くの情報源が考えられるでしょう。もちろん、これはあなたの働き方と働く場所によってある程度異なります。重要なのは、これらのさまざまな情報ソースをすべて計画し、これらのソースからナレッジベースに情報を送信する自動化された方法を見つけ出す必要があるということです。

あなたや他の人は、ナレッジベースに手動で情報を入力することにそれほど多くの時間を費やしたくないかもしれません。ナレッジベースを常に最新の状態に保つために、これを自動的に行う方法を見つける必要があります。

ソースからナレッジベースへの情報のルーティングを完全に自動化することが重要です。手動の手順が必要な場合 (たとえば、会議メモをナレッジベースに貼り付けるなど)、間違いなくそれを忘れて重要なコンテキストが失われ、ナレッジベースの概念全体に反します。ナレッジベースの本質は、絶対にすべての情報をそこに保存し、何も取り残さないことです。これがナレッジベースを非常に強力にする理由です。

たとえば、会議メモを使用すると、毎日同期する cron ジョブを実行できます。各会議で社内の全員が発言した内容、または個人的に発言した内容が考慮され、ナレッジベースに保存されます。リニアまたはプロジェクト管理ツールに対して同様の cron ジョブを設定して、そこで発生するすべてのことを同期できます。コーディングエージェントを、作業中の内容やコーディングエージェントと話し合ったことなどと同期します。これらはすべて、毎日の cron ジョブを使用してナレッジベースに簡単に同期できます。

物理的なオフィスでのディスカッションは、完全に自動化することが難しいポイントの 1 つです。私自身もまだ完全には理解できていませんが、選択肢は 2 つあります。

進行中のすべてを常に記録するには、もちろん同意が必要です
または、オフィスで議論した後、手動で書き留める

ただし、オフィスでのディスカッションを明示的に保存する必要さえないかもしれません。なぜなら、ほとんどの場合、オフィスで物理的にディスカッションを行った後、ディスカッションを行った相手または私がそのディスカッションからコンテキストを取得して、コーディングエージェントに書き込むからです。その議論は通常、実装に関する質問によって引き起こされたものであるため、その知識が後でコーディングエージェントで積極的に使用される場合は、コーディングエージェントのログから取得できます。

したがって、この手順を正常に完了し、毎日遭遇するすべての参照をナレッジベースに保存できれば、ほとんどの作業は完了したことになります。これがナレッジベースの難しい部分です。次のセクションでは、意思決定をしたり、コーディングエージェントとやり取りしたりするときにナレッジベースからの情報を積極的に使用するという簡単な部分について説明します。

ナレッジベースの情報の使用

必要な情報をすべて備えた調整されたナレッジベースがある場合は、この情報を積極的に使用することができます。ナレッジベースの情報を使用するには、主に 2 つのアプローチがあると思います。

質問がある場合は、ナレッジベースから質問できます。もちろん、これはコーディングエージェントを通じて行う必要があります。あなたが彼に質問すると、彼は答えを見つけるために自分が持っている知識に基づいて質問しなければならないことを知っている必要があります。
2 つ目は、コーディングエージェントがナレッジベースが機能するたびに受動的に使用することです。

ここでの最初のアプリケーションは非常にわかりやすいと思います。何かわからないことがあれば、いつでもこの質問をしてください。そこで、ここでは 2 番目の点についてもう少し時間をかけて議論したいと思います。

コーディングエージェントは、コードの実装やバグの修正など、作業を行うたびにナレッジベースを受動的に使用します。これは非常に強力です。繰り返しになりますが、これを行うには主に 2 つのアプローチがあると思います。

グラフベースの推定

1 つ目は、ナレッジベース全体とさまざまな情報の場所を説明するトップレベルの Markdown ファイルをナレッジベースに含めることです。もちろん、ナレッジベースに情報を追加するたびに、このファイルは更新されます。

このアプローチの利点は、grep を使用していることです。 grep は、必要なときに適切な情報を見つけるのに優れているため、通常、埋め込みベースの検索よりも強力です。ただし、そのためには、Markdown ファイルを使用している LLM のコンテキスト内に常に維持する必要があります。この Markdown ファイルは非常に大きくなる可能性があり、しばらくすると問題が発生する可能性があります。

埋め込みベースの推論

ナレッジベースを積極的に使用するもう 1 つの方法は、埋め込みベースの推論を実行することです。これがGBrainの目的です。基本的に、クエリを実行するときは常に、ナレッジベースに対して RAG などの埋め込み検索を実行し、ナレッジベースから関連する部分を取得します。 LLM は、埋め込み検索を使用して関連情報を見つけたと判断した場合、関連ファイルをさらに詳しく調べることができます。

これは、アクティブな検索を必要とせず、すべての操作でナレッジベースに大量の入力トークンを費やす必要がないため、おそらく推論中にナレッジベースを使用するより良い方法だと思います。

ただし、どのアプローチが最も効果的かは、もちろんユースケースによって異なります。

結論

全体として、次のことを強くお勧めします。

知識ベースの確立を試みる
できるだけ多くの情報を書き込んでください
他の人がこれらのナレッジベースをどのようにセットアップしたかを読む
自分で取り付けてみてください

コーディングエージェントを使用してコンピュータで作業するときは常に、このナレッジベースを積極的に使用する必要があります (基本的にすべての作業に使用する必要があります)。ナレッジベースは今後数年間で信じられないほど強力で価値のあるものになると信じていますが、多くの情報にアクセスできることは将来的には明らかな利点となるため、ナレッジベースは堀を与えることもあります。さらに、これは会社または個人のコンテキストに固有のデータであり、多くの場合、あなただけがアクセスできます。したがって、情報を保存しないと、将来その情報にアクセスすることはできなくなります。

👋 お問い合わせ

👉 私の無料の電子書籍とウェビナー:

🚀 LLM でエンジニアリングを 10 倍にする (無料の 3 日間の電子メールコース)

📚 無料の Vision Language Model 電子ブックを入手してください

💻視覚言語モデルに関する私のウェビナー

👉 ソーシャルメディアで私を見つけてください:

💌 サブスタック

🔗リンクトイン

🐦