2014-01-01から1年間の記事一覧
Machine Learning with Apache Spark 一昨日(2014-11-20)開催された Machine Learning with Apache Spark #sparkjp で「Spark MLlib でやってみる協調フィルタリング」というタイトルでお話させていただきました。 以下、発表資料です。 ここではないどこ…
このエントリについて 前回のエントリで PyStan の MCMC によって GMM (混合正規分布)を学習してみました。 一方、GMM の学習と言えば一般的には EM アルゴリズムが使われることが多いかと思います。 参考: EMアルゴリズム - Wikipedia 混合モデルとEMアル…
このエントリについて PyStan の実行環境を用意したので、モデルパラメータ推定に使ってみました。 個人的に慣れのある多次元の混合正規分布(GMM: Gaussian Mixture Model)のパラメータを学習してみます。 GMM 複数の正規分布の重なりによって表される確率…
このエントリについて PyStan とは、MCMC サンプリング等を高速に実行するために C++ で実装されたプログラミング言語 Stan の Python インターフェースです。 このエントリでは PyStan を Mac のインストールしたときの手順を残します。 事前準備 ドキュメ…
このエントリについて クラスタリングの結果を定量評価するときの基準を数年に1回ぐらい調べてる気がするのと、日本語であまりまとまった情報を見ない気がしたので挙げてみます。今回挙げるのはハード(クリスプ)クラスタリングについての指標です。後で追…
このエントリについて 最近参加したとある勉強会や業務をしている上で思うところありまして。 性能要件に価値を置くようなシステムの開発において、性能面でのリスクを軽減するような進め方って?というところを考えてみました。 機能要件と性能要件 私はい…
このエントリについて クラスタリングでよく使われている k-means 法ですが、最近は BI ツールでサポートされていて自称データサイエンティストさんでも誰でもデータを突っ込めば何かしらのクラスタリング結果が得られるわけです。 が、手法の特徴を把握せず…