ビッグデータとデータサイエンスの学習
DX検定攻略 Part11【学習用】「ビッグデータとデータサイエンス」動画公開の動画を追加しました。
本日も、DX検定試験の攻略をはじめましょう!
ここでは、最新2023年版公式シラバスに掲載されている用語を1つづ解説していきます。(音声で読み上げますので、繰り返し、聞き流しでもご利用ください。)技術領域の「ビッグデータとデータサイエンス」のワード(IT用語、バズワード)を解説します。また、こちらの動画で学習できましたら、確認動画も合わせてご視聴ください。この動画にある24ワードを学習とは異なる順番で、5秒間の時間をおきながら、流しますので、5秒以内で、説明ができるか学習の状況確認でご利用ください。
収録しているワード(IT用語、DX用語、バズワード)は、下記になります。
・ビッグデータの種類
人間では全体を把握することが難しい巨大なデータ群。「マルチメディアデータ」 Web上の音声や動画「ソーシャルメディアデータ」プロフィールやコメント。「オフィスデータ」ビジネス文書やメール。「ログデータ」Webサーバーの自動生成アクセスログ。「センサーデータ」GPSやICカードなどセンサー情報。「オペレーションデータ」販売管理POSや取引明細など。
・ビッグデータの分析手法
ビッグデータの分析手法は、大きく6種類。「主成分分析」複雑なデータをシンプルな傾向に分類。「クロス集計」属性ごとの傾向やニーズ。「クラスター分析」類似グループごとの傾向。「アソシエーション分析」データ同士の相関性。「ロジスティック回帰分析」事象の発生確率を予測。「決定木分析」複数の要因を整理可能。
・データマイニング
構造化されたデータベースから情報を抽出し、自動的に傾向やパターンを発見する分析手法のこと。発生確率予測、データ分類、関連性抽出が目的。「知識発見・探索的データマイニング」蓄積データから新しいルールやパターンを発見する。「仮説検証・目的志向的データマイニング」仮説や目的にそって検証したい課題を解決する。
・オルタナティブデータ
「代替データ」のこと。他のユーザーが使用してないデータソースから収集したデータのこと。オルタナティブデータを分析に活用することで、業界標準のデータソースでは、得ることができない洞察を取得することが可能。主なデータは、「衛星データ」「モバイルデータ」「センサーデータ」「Web データ」の4つ。
・DWHアプライアンス
Data Ware Houseの略。膨大なデータを格納するシステムのこと。「データ分析」を目的として蓄積されたもの。主なシステムは、「b→dash」「Amazon Redshift」「Azure Synapse Analytics」「BigQuery」など。
・GDPR
2018年5月、EUで制定された「一般データ保護規則」欧州経済領域における個人情報の取り扱いについて、法的要件を定めた規則のこと。個人情報とプライバシー保護の強化が目的。従来のEUデータ保護指令では、EU域内に、現地法人や支店、サーバーなど物理的施設を保有していることが、対象であったが、GDPRでは、EU物理的施設を保有しない場合でも、適用を受ける域内に、場合あり。
・プローブデータ
自動車の走行時の位置、速度、加速度、ブレーキ状態などの情報のこと。自動車を1つのセンサーとみなし、多数の自動車 から通信ネットワーク等を通じて取得する。
・NIIデータセット
NII(国立情報学研究所)が提供する「企業のデータセット」のこと。NIIが提携している「企業のデータセット」を、NIIから「研究者」に提供。データセットには、「Yahoo知恵袋」「楽天市場」「リクルート」「ニコニコ」などがある。
・データクレンジング
データを使いやすい形に整備すること。NULL値や、想定外のデータを持つレコードを取り除いたり、誤字や書式を統一したり、データの過不足を解消したりする。
・Hadoop
「Apache Hadoop」と呼ばれる。ASF(Apache Software Foundation)が開発した大規模データの分散処理オープンソースのソフトウェアフレームワークのこと。複数のサーバーにデータ処理を分散し、並列処理することでペタバイト級のデータを、超高速処理できるため「ビッグデータ」活用の主要技術。
・MapReduce
Googleが開発した、大規模なデータを効率的に、分散処理するためのプログラミングモデルのこと。MapReduceは、 「Amazon Elastic MapReduce」「Apache Hadoop」などで利用されている。
・データサイエンス
「回帰分析」や「K-最近傍法」を利用し、データから有益な知見を得ようとする学問分野のこと。統計学やデータ分析・データ解析を行い、データから科学や社会、ビジネスなどに役立つ価値を引き出す。人のスキルによって、導きだされる価値が異なるため、高いデータ処理能力やデータ分析力が求められる。専門家を「データサイエンティスト」と呼ぶ。
・アナリティクス
データの中から「意味のあるパターン」を見つけ出し、伝えることを指す。様々な分析手法や、ソフトウェアベースのアルゴリズムを駆使しながら、データに潜んでいる、特定のパターンや、相関関係などの知見を抽出する。4つのアナリティクスタイプがある。①記述的(Descriptive) ②診断的(Diagnostic) ③予測的(Predictive) ④処方的(Prescriptive)
・R言語
統計解析向けのオープンソース・フリーソフトウェアのプログラミング言語、及び、その開発実行環境のこと。「統計解析」「機械学習」「テキストマイニング」「t検定の利用」「ベイズ統計」等が可能。メリット:統計計算をパッケージを使って実行できる。オープンソースで、習得が容易である。デメリット:アプリ化、システム化を実施するためには、単独ではできず、他の言語が必要。
・データサイエンスツール
データの分析や可視化、統計学的仮説検定、予測モデルの作成などが行えるツールのこと。BIツール(Business Inteligence Tool)とも呼ばれる。「Tableau」「Yellowfin」「Microsoft Power BI」などがある。
・Apache Spark
カリフォルニア大学バークレー校のAMPLabが開発した大規模データ用のクラスターコンピューティング向け、分散処理フレームワークのこと。従来のMapReduceに対して、処理速度の改善、反復処理のスタイルの改善したもの。主に、ビッグデータや機械学習などで利用される。日経BP「ITインフラテクノロジーAWARD2015」でDockerに次ぐ準グランプリを受賞。
・Jupyter Notebook
Webブラウザ上でソフトウェア開発できる対話型開発環境のこと。Python、Ruby、Rなど約40言語をサポート。Webアプリケーションで、実行時の結果表示や、グラフ描画機能が充実している。プログラムを記述すると、すぐに結果表示可能。配布型パッケージ「Anaconda」に同梱されている。
DX DX検定 DX検定攻略 DX試験 DX問題 DX攻略 DX事例 DX2025 DX検定攻略 DX検定過去問 IT IT用語 バズワード エンジニアリングDX プラットフォーム メタバース VR AR MR xR ガートナー ITメディア デジタルトランスフォーメーション 最新ビジネス用語 ビジネス用語 最新用語 最新情報 DX検定攻略サイト
コメント