FC2ブログ

PySpark って何?

2019-04-17 :  PCクリニック
ふと立ち寄った書店で見かけた本のタイトル:
「PySpark」


これは何?

「PySpark」で検索、・・・・・


Apache Sparkの初心者が環境構築とPySparkでのデータ集計までやって …
  はじめに

  Apache Sparkの初心者がPySparkで、DataFrame API、SparkSQL、Pandasを
  動かしてみた際のメモです。
  Hadoop、Sparkのインストールから始めていますが、インストール方法等は
  何番煎じか分からないほどなので自分用のメモの位置づけです。


  環境
  お試し用に以下のバージョンのHadoop(HDFS)とSparkをインストールします。

   ・Apache Hadoop 3.1.1
   ・Apache Spark 2.3.2

  ・・・・・
  ・・・・・


PySparkを試す 1日目 - Qiita
  動機

  仕事でAWS Glueを使っている。、GlueはSparkが内部で動いており、
  PySparkで処理を記述することができる。
  まだコードが満足に書けない中、実行に何分もかかると辛いので
  ローカルで動かないかなという感じ。

  やったこと

  PySparkの実行

  ローカルにいろいろ入れたくないのでDockerから実行。

  ・・・・・
  ・・・・・


【pyspark】sparkでクラスタ組んでjupyterでデータ分析がしたい
  はじめに

  研究でデータサイエンスやってるけど、研究室にデータ分析基盤的なのがない。
  計算用のサーバーがいくつかあるからクラスタ組んで分散処理してみたいと思い、
  sparkをいじってみる。
  pythonをいつも使っているからsparkのAPIをpythonで動かせるpysparkに挑戦。

  体系的にまとまってる記事がないからいくつかに分けて書いてみる。
  あと、物理マシンでクラスタ組む点もかなり試行錯誤したから書き残しておきたい。

  ゴール

  とりあえず、分散処理をさせることを目的とする。
  1. pysparkを動かす
  2. クラスタを組む
  3. standaloneモードで分散処理をする
  4. jupyter notebookでpysparkする

  ・・・・・
  ・・・・・


などなど、・・・・・

と云うことは、「Apache Spark」のPythonバインド?


「Apache Spark」と検索すると、

Apache Spark - Wikipedia
  Apache Sparkはオープンソースのクラスタコンピューティング
  フレームワークである。カリフォルニア大学バークレー校のAMPLabで
  開発されたコードが、管理元のApacheソフトウェア財団に寄贈された。
  Sparkのインタフェースを使うと、暗黙のデータ並列性と耐故障性を備えた
  クラスタ全体をプログラミングできる。

  日経BP社が発表した「ITインフラテクノロジーAWARD 2015」において、
  SparkはDockerに次ぐ準グランプリとされた。

  概要
  フォールトトレラントシステムで管理され、複数マシンのクラスタに分散
  されたデータ項目の読み取り専用多重集合であるRDD(resilient distributed
  dataset)と呼ばれるデータ構造を中心とするアプリケーションプログラミング
  インターフェイスを備えている。MapReduceは、分散プログラム上で特定の
  線形データフロー構造を強制するクラスタコンピューティングプログラミング
  パラダイムの制限に対応して開発された。MapReduceは、ディスクから
  入力データを読み込み、データ全体に関数をマップし、削減結果をディスクに
  格納する。SparkのRDDは、 分散共有メモリの (意図的に)制限された形式で
  提供する分散プログラムのワーキングセットとして機能する。

  RDDの可用性は、ループ内で複数回データセットを参照する反復法アルゴリズム、
  および対話型/探索型データ分析、データ反復のデータベースクエリの両方の
  実装を容易にする。このようなアプリケーションのレイテンシ(Apache Hadoop
  スタックでは一般的であったMapReduce実装と比較して)は、桁違いに低下する
  可能性がある。反復アルゴリズムのクラスの中には、 機械学習のための訓練
  アルゴリズムがあり、Apache Sparkを開発の初期の刺激となった。

  クラスタマネージャと分散ストレージシステムが必要であり、クラスタ管理の
  ためにスタンドアロン(ネイティブのSparkクラスタ)、Hadoop YARN、
  Apache Mesosに対応している。分散ストレージの場合、Hadoop分散ファイル
  システム、MapRファイルシステム(MapR-FS)、Apache Cassandra、
  OpenStack Swift、Amazon S3、Kudu、カスタムソリューションを実装できる。
  擬似分散ローカルモードも対応しており通常は開発やテスト目的でのみ
  使用される。分散ストレージは不要でローカルファイルシステムを代わりに
  使用でき、CPUマルチコアごとに1台のマシン上で実行される。

  ・・・・・
  ・・・・・


なるほど?


本日はここまで。


Anaconda ( Python ) 学習は続く。


見ていただいた序でとは厚かましい限りですが、
お帰りに投票して頂けるとなお嬉しいです。 ⇒

190224
関連記事
スポンサーサイト



コメントの投稿

管理者にだけ表示を許可する

人気blog Ranking



最新記事
カレンダー
07 | 2021/08 | 09
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -
月別アーカイブ
カテゴリ
最新コメント
検索フォーム
リンク
プロフィール

<紙>

Author:<紙>
ようこそ。
「パソコンヲタクの雑記帳」
もろもろなことを綴っています。
パソコン ヲタクってねくら?
画像は kami でなく kani です。

FC2 / i2i / Google




Google Analytics
ブックマーク