LLMSとセマンティックレイヤー: 自己サービスが登場しました | Zenlytic
By Data Council · 2024-04-13
データ分析の世界では、LLMS(何かの略語)とセマンティックレイヤーが注目されています。これらは、自己サービス型の分析とデータ提供を実現し、これまで不可能であった形態を可能にしています。
データ分析の新時代:LLMSとセマンティックレイヤーがもたらす革新
- データ分析の 世界では、LLMS(何かの略語)とセマンティックレイヤーが注目されています。これらは、自己サービス型の分析とデータ提供を実現し、これまで不可能であった形態を可能にしています。
- LLMSとは何か、セマンティックレイヤーとは何か。これらが組み合わさることで、技術的な知識がなくても自己サービス型の分析が可能となりました。これにより、データ科学者以外の人々もデータにアクセスしやすくなりました。
- 自己サービス型の分析を追求する上で、我々はデータ科学者の仕事が何かを考える必要があります。非技術的な人々にとっての自己サービスとは、何がデータ科学者の仕事でないかを考えることでもあります。
- 過去に考えられた自己サービスが、技術の進化と共に変化しています。静的なダッシュボードを見ることすら、その一形態と言えるかもしれませんが、それだけでは現在の自己サービスとは言えません。
- テクノロジーの進歩により、Tableauのようなツールが登場しました。これにより、既存のダッシュボードのフィルタリングや編集、グループ化などが可能となり、さらなる自己サービスが実現されました。
- そして今、次の大きなテクノロジーの進化が自己サービスを前進させる機会をもたらしています。この進化により、どこにでも探索することが可能となり、具体的な用語を知らなくても質問をすることで適切な回答が得られるようになります。

データ分析の新時代:LLMSとセマンティックレイヤーがもたらす革新
データの重要性:ビジネスコンテキストとセマンティックレイヤーの結びつき
- データは現代のビジネスにおいて非常に重要な役割を果たしています。しかしながら、データだけでは十分ではありません。データを活用する際には、ビジネスコンテキストとセマンティックレイヤーの結びつきが不可欠です。
- ビジネスコンテキストとは、企業固有のニーズや定義、目標に基づいた情報です。例えば、ネット収益やアクティブユーザーがどのように定義されるかは企業ごとに異なります。ビジネスコンテキストを理解することで、正確なデータ分析が可能となります。
- そして、セマンティックレイヤーは、メトリクスやダイメンションの定義が含まれる領域です。これは、ネット収益やアクティブユーザーなどの概念を包括し、企業内部で使用される特定の用語や略語など を統一的に定義します。
- データ分析を行う際には、単にテキストからSQLを生成するだけでは不十分です。ビジネスコンテキストとセマンティックレイヤーを結びつけることで、正確性と信頼性の高いデータを得ることができます。
- この結びつきによって、機械学習モデルもより適切な意思決定を行うことが可能となります。コンプリヘンション(理解力)を持つLLM(Large Language Model)が、ビジネスコンテキストを把握し、適切な行動や情報提供を行うことができるのです。

データの重要性:ビジネスコンテキストとセマンティックレイヤーの結びつき
セマンティックレイヤー:データの正確性と効果的な自己サービスの重要性
- ビジネスにおいてデータの扱いは重要です。多くの企業で、データはそのままの形で保存され、理解しやすくない場合があります。そこで、セマンティックレイヤーが登場します。セマンティックレイヤーは、Gitで管理された情報を活用して、正確な情報を提供し、SQLを生成することができるソリューションを提供します。
- セマンティックレイヤーの最大の価値は正確性にあります。これまでのLアイテムでは理解度が重要でしたが、セマンティックレイヤーでは正確性が保証されます。つまり、集客しているユーザー数や離脱率などの計算をする際に、どのような結合やスライス、フィルタリングを行っても常に同じ定義を使用し、正確な数値が計算されることが保証されます。
- セマンティックレイヤーの中核機能は正確性を提供することです。セマンティックレイヤーは効果的なセルフサービスのために不可欠であり、セマンティックレイヤーなしでは、BIツールにおけるいくつかの進化や課題が浮かび上がります。
- 例えば、多くの企業ではBIサービスを利用してCSVファイルをダウンロードし、ShopifyやRechargeから別のCSVファイルをダウンロードして、Excelで大量のVLOOKUPを行うといった過程があります。これには多くの時間がかかり、データには時折誤りが生じ、組織内で混乱が生じることがあります。
- あるいは、ダッシュボードが乱立し、陳腐化した定義が9つもあったり、適切でない定義が混在しているケースもあります。これらの陳腐化した定義は正しいものもあれば、間違っているものもあり、結局何が正しいのかが利用者にとっては明確ではありません。
- さらに、技 術チームがいても、SQLを書く必要があり、すべての質問に対してアドホックなSQLを書くことが多いです。フレームワークが不在のため、新たな質問に対応する際にもSQLを新たに作成する必要があり、これは困難で時間がかかります。誤りが生じやすく、ミスを犯しやすいので注意が必要です。
- 素晴らしいセマンティックレイヤーは正確性を提供し、効果的なセルフサービスを可能にします。例えば、Warby Parkerはデータを駆使しており、そのデータチームは定義とメトリクスについてかなりの時間を費やしています。他社とは異なり、大量のアドホックな質問に回答するのではなく、適切な結合やメトリクスの定義、ステークホルダーとの協力に力を注いでいます。
- しかし、最高水準のセマンティックレイヤーやトップクラスのデータチームがあっても、完全なセルフサービスには至りません。最終的には、結果を統合する必要があります。エンドユーザーは、異なるテーブルに情報が散在している場合にどこにあるのか把握するのが難しく、インターフェースを適切にナビゲートすることが困難です。これがBIツールの普及率が低い理由であり、エンドユーザーがツールを使うよりも誰かに問い合わせる方が簡単で信頼できるという状況に結びついています。
