froglog

プログラミングや統計の話など

2014-01-01から1年間の記事一覧

【勉強会】 Machine Learning with Apache Spark で発表しました

Machine Learning with Apache Spark 一昨日(2014-11-20)開催された Machine Learning with Apache Spark #sparkjp で「Spark MLlib でやってみる協調フィルタリング」というタイトルでお話させていただきました。 以下、発表資料です。 ここではないどこ…

MCMC と EM アルゴリズムを比べてみた

このエントリについて 前回のエントリで PyStan の MCMC によって GMM (混合正規分布)を学習してみました。 一方、GMM の学習と言えば一般的には EM アルゴリズムが使われることが多いかと思います。 参考: EMアルゴリズム - Wikipedia 混合モデルとEMアル…

PyStan で多次元混合正規分布を学習する

このエントリについて PyStan の実行環境を用意したので、モデルパラメータ推定に使ってみました。 個人的に慣れのある多次元の混合正規分布(GMM: Gaussian Mixture Model)のパラメータを学習してみます。 GMM 複数の正規分布の重なりによって表される確率…

Mac OS X に PyStan をインストールした

このエントリについて PyStan とは、MCMC サンプリング等を高速に実行するために C++ で実装されたプログラミング言語 Stan の Python インターフェースです。 このエントリでは PyStan を Mac のインストールしたときの手順を残します。 事前準備 ドキュメ…

クラスタリング結果の評価の尺度基準

このエントリについて クラスタリングの結果を定量評価するときの基準を数年に1回ぐらい調べてる気がするのと、日本語であまりまとまった情報を見ない気がしたので挙げてみます。今回挙げるのはハード(クリスプ)クラスタリングについての指標です。後で追…

性能要件重視のシステム開発の定石について考える

このエントリについて 最近参加したとある勉強会や業務をしている上で思うところありまして。 性能要件に価値を置くようなシステムの開発において、性能面でのリスクを軽減するような進め方って?というところを考えてみました。 機能要件と性能要件 私はい…

k-means 法の注意点とオレオレベストプラクティス

このエントリについて クラスタリングでよく使われている k-means 法ですが、最近は BI ツールでサポートされていて自称データサイエンティストさんでも誰でもデータを突っ込めば何かしらのクラスタリング結果が得られるわけです。 が、手法の特徴を把握せず…