Alteryx上ではPythonを実行することができる。
予測モデルは標準でRのpackageが「予測ツール」内で使用できるが、元々Pythonでコードを書いていた人や、Alteryx上のRのpackageでは希望とする予測モデルが容易されてない、という場合に便利かと。
ツール
相変わらずツールが多すぎて場所が分かりづらい・・のですが
上部メニュー >> 開発者 >> Python から利用できます。
Jupiterインターフェイス
何もしなくても Pythonツール からJupiterが利用できる。
ライブラリのインストール
尚、初期の状態では以下のpackageがインポートされているらしい。
・matplotlib
・numpy
・pandas
・requests
・scikit-learn
・scipy
・six
・SQLAlchemy
・statsmodels
とりあえず揃ってる風だけど、seaborn だけ使いたいのでインストールする(pipではインストールできないのでAlteryx上でinstallPackagesコマンドを使う)
1 |
Package.installPackages("seaborn") |
ところが、もうあるよ・・・と言われた。
Pathを見てみると、純正Pythonのsite-package直下にseabornはもうあるよ。というアラートがでている。Alteryx単体でPythonがあるわけではなく、既存のPythonを使っているのですかね。
尚、私のPCには別にcondaで管理しているPythonもあるが、Alteryxは純正のほうを見に行っている模様。
tool入れすぎてPath設定が偉いこっちゃになっている・・・ので調査は後回しにしてとりあえず先に進む(汗)
Helpコマンド
Alteryx上のJupiterで
1 |
Alteryx.help () |
と叩くとHelpを確認できる。キャプチャは気になっていたpandasデータフレームに入れたデータの呼び出し方が確認できた。
Alteryx.readコマンド
pandasのread_csvはAlteryx.readコマンドで代用できる。
1 |
df = Alteryx.read("store_tb") |
引数には(画面ではstore_tb)Alteryx上の接続名称を記入すればいいらしい。デフォルトでは#1とか良くわからない名前になっているので変えておくと良い↓↓↓
読み込んだデータフレームをdescribe関数を用い基礎統計量を見てみる↓↓↓
ちゃんと表示されました。
また、Alteryxを噛ませている以上、WEB上のCSV等を直接読みにいくことは無いかもしれないが、下記のようにURLを指定してPandasにデータを読みにいかせることも勿論できる。
1 2 |
df = pd.read_csv('https://310ch.net/share/data/titanic.tsv' , sep='\t') #データはありませんのでリンクしないように! |
Pythonライブラリを使用した可視化
Alteryx上でseabornを使ってみます。
1 |
sns.pairplot(df, hue="Region") |
結果↓↓
ちゃんと動いていますね!!
若干Alteryxを噛ませている分、Pythonの動きがモサモサしている気がしますが、案件で質問されそうな気もするので(私が使いたいわけではない:笑)様子見で使っていきたいと思います。