ビッグデータって、どれくらいヤバいの?

「ビッグデータ」という言葉はちょくちょく耳にするかけど、いったいそれはなんなの? そしてわたしたちの生活にどんな影響を及ぼすの?と、日々なんとなくモヤっと引っかかっているかたに、ざっくしと説明してみたいと思います。

 

FacebookとかGoogleなどのウェブサービスが、日々、世界中のネットユーザーから尋常ではないほどのデータを受け取って、それをサバいているというのは、たぶん想像するのはそれほど難しくないですよね。

 

上の可愛い象さんマークの「hadoop」というのは、その膨大なデータを保存して、分析するためのテクノロジーだと思ってください。そちらの詳細は今回は割愛させていただきます。そのデータがどれくらい大きくなってきているか、「Tutorials Point」というサイトで紹介されていたので、翻訳してみました。

 

Due to the advent of new technologies, devices, and communication means like social networking sites, the amount of data produced by mankind is growing rapidly every year.

 

The amount of data produced by us from the beginning of time till 2003 was 5 billion gigabytes. If you pile up the data in the form of disks it may fill an entire football field.

 

The same amount was created in every two days in 2011, and in every ten minutes in 2013. This rate is still growing enormously.

 

Though all this information produced is meaningful and can be useful when processed, it is being neglected.

 

テクノロジーや、デバイス、そしてソーシャルネットワーキングサイトなどのコミュニケーション手段の発展のおかげで、人類によって生み出されるデータ量は毎年猛烈な早さで大きくなっています。

 

人類の歴史が始まってから2003年までのあいだに作り出されたデータ量は50億ギガバイトでした。もしそれをディスクに保存して積み上げると、サッカー場をまるまる埋め尽くす量です。

 

2011年には、それと同じだけの量がたったの2日で作られ、2013年にはなんとその期間は10分にまで短縮してしまったのです。 この成長速度は今なおすさまじい勢いで早まっているのです。(けっこう意訳してます)

 

これらの情報は処理されて初めて有用なものへと変わるにも関わらず、その多くはまだ手がつけられていません。

 

うーん、ちょっとやる気のある人なら、この分野にはまだまだ多くの金脈が埋まっている匂いを嗅ぎつけたのではないでしょうか。 わたしも実は密かに「データ分析」について、学習を初めていたりします。

 


すいません、ちょっと疲れてしまったので、Google翻訳さんにお願いしました。簡潔な説明なので、機械翻訳でもけっこううまく翻訳できていますね。

 

ビッグデータとは何ですか?


ビッグデータは、従来のコンピューティング技術を用いて処理することができない大規模なデータセットのコレクションです、本当に大きなデータを意味します。ビッグデータは、むしろ、それは様々なツール、technqiuesとフレームワークを伴う完全な対象となっている、単なるデータではありません。

 

何がビッグデータの下に来ますか?


ビッグデータは、異なるデバイスおよびアプリケーションによって生成されたデータを必要とします。下記のビッグデータの傘の下に来るフィールドの一部です。

  • ブラックボックスデータ:それはそれは、運航乗務員の声、マイクとイヤホンの録音、および航空機の性能情報をキャプチャなど、ヘリコプター、飛行機、およびジェットのコンポーネントです。
  • ソーシャルメディアデータ:そのようなFacebookやTwitterなどのソーシャルメディアは、情報、世界中の何百万人もの人々によって投稿ビューを保持します。
  • 証券取引所のデータは:株式交換データは、顧客によって行われたさまざまな企業の株式で行われた「買い」と「売り」の意思決定についての情報を保持します。
  • パワーグリッドデータ:電力グリッドデータは、基地局に対して、特定のノードで消費される情報を保持しています。
  • 交通データ:トランスポートデータは、車両のモデル、容量、距離と可用性を備えています。
  • 検索エンジンデータ:検索エンジンは、異なるデータベースから大量のデータを取得します。