【データの読み方】データのライフサイクル
コラム:データの読み方
データ駆動、データを基にした意思決定。。。
古くはAlibabaやSpotifyが得意としてきました。最近はラーメンの山岡家も活用しているデータ。
現場にいるとこのデータの読み方がいまいち苦手な方が多くいらっしゃいます。
私自身まだ「AI」という言葉がここまで浸透する前に自然言語ベースのレコメンドエンジンを武器として、おすすめ記事のCTRを50%上昇させた経験があります。
データとは何か一緒に考えていきましょう
ライフサイクルとはなにか
ライフサイクルという言葉を確認しましょう。
ライフサイクルとは、一般的には発生から消費または消失サイクルを指します。
サイクルというと消費や消失が次の発生の起因となるように感じられるかもしれませんが、そうでない場合でもサイクルという言葉を使います。
データの場合、「データの発生」→「データの加工」→「データの利用」となります。データの場合、消費というよりも「利用」されることが目的となります
データの加工と利用について考える
加工
ライフサイクルのうち、加工と利用はとらえやすいです。
加工はデータを利用できる形に変換したり集積したりすること。
例えばWebの生のログはシステムによって異なりますが下記のような形のことが多いです
192.0.2.15 - - [17/Sep/2025:14:23:45 +0900] "GET /index.html HTTP/1.1" 200 5123 "https://example.com/start" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
203.0.113.42 - - [17/Sep/2025:14:24:01 +0900] "POST /login HTTP/1.1" 302 1234 "https://example.com/login" "Mozilla/5.0 (Macintosh; Intel Mac OS X 13_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.0 Safari/605.1.15"
198.51.100.23 - - [17/Sep/2025:14:25:12 +0900] "GET /images/logo.png HTTP/1.1" 304 0 "https://example.com/index.html" "Mozilla/5.0 (Linux; Android 13; Pixel 7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Mobile Safari/537.36"
普通の人はなんのこっちゃさっぱりだと思います。なれるとこれだけで意味が分かります。映画マトリックスで数字のられるにしか見えないものが実態に見えてくるのと同じです()
これを必要な単位で切りだして、計算するのが加工です。どんな計算がいいか。これは、利用目的次第になります。つまり、加工は利用ありき
利用から考えないといけないのです。
利用
実際には一番大切なところになります。何のために利用するのか。
究極は売上向上、利益向上以外ないと思いますが、その方法については様々あります。
見える化による意思決定が主流でしたが、2025年現在はレコメンデーションやオートメーションで、メール配信などのネクストアクションにそのままつなげ、収益化を図ることが主流になりました。
例えば、’複数回アクセスしている人に新商品情報を送る’など、利用の一例です。
上記の利用を目的とする場合、’加工’は「アクセスログから顧客ごとのアクセス数を算出する」となります。
データの発生
データの発生とは、文字通りデータが生まれる場面です。
実はデータの扱いではここがとても重要になります。
というのも、加工や利用に際してきわめて多くの注意を払わなければならくなるからです。
先ほど見たアクセスデータを例にとってみましょう。
文字通り、Webページへアクセスしたデータです。ここにアクセスした人は「全人類の代表」とみていいでしょうか?
ここまで大げさにかくとわかるかと思いますが、答えはNoですね。
アクセスしてくれる人は「サイトを訪れた人」でしかありません。これは「完全なランダム」ではありません。サイトに興味を持ったか、何かの拍子にアクセスしたか、何かしらのきっかけがあります。
こういった完全にランダムでない要因を「偏向」または「バイアス」といいます。バイアスがないデータはほとんど存在しません。
ほとんどというのも「全数調査」ができる場合は、このバイアスが生じません。全数調査の具体例は「国勢調査」です。(この国勢調査も本当に全数なのかという政治的な問題はありますが、また別の研究になるので、ここではおいておきます)
なので、すべてのデータは’バイアスがある’と考えてもいいです。
このバイアスが何かを常に考える。これが今回言いたいことになります。
さいごに:
今回はライフサイクルといいつつ、その発生とバイアスの存在について強調しました。
次回は、わかりやすい「利用」を詳しく見ていきましょう