froglog

プログラミングや統計の話など

機械学習を利用するプロダクトのテスト

このエントリについて 2種類の要件 性能要件のテスト offline と online offline 性能テストの自動化 A/B テストはすぐにほしい 機能要件のテスト 性能テストのみで十分なのでは? テストデータ生成 機能テストをいつ作るか まとめ このエントリについて ポ…

線形分類器のオンライン学習を実装してみた

このエントリについて 最近読んだオンライン学習の本が分かりやすくて面白かったので、紹介されているアルゴリズムを実装して遊んでみました。 書籍紹介 オンライン機械学習 (機械学習プロフェッショナルシリーズ)作者: 海野裕也,岡野原大輔,得居誠也,徳永拓…

レコメンデーションシステムのオフライン評価、どうやるんですか

カエルなので分かりません、誰か教えてください。 レコメンデーションシステムのオフライン評価について調べてました。 そのメモ的なエントリです。 ここでいうレコメンデーションシステムについてはよくある EC サイトの商品推薦のようなものをイメージして…

人材流動性を高めました

このエントリについて いわゆる退職エントリです。 と言っても退職したのはおよそ1ヶ月前ですが。 退職の経緯 8月末で株式会社 ALBERT を退職しました。 2年と2ヶ月の在籍でした。 退職を決めた理由は、 新しい分野・環境に身を置きたくなったこと 上場して…

はじめての Apache Spark アプリケーション開発で困ったところ

このエントリについて ここ2ヶ月ぐらい Apache Spark でバッチ処理をするアプリケーションを作っていました。 Apache Spark でがっつり何かを作るのは今回が初めてで、結構詰まったりしたところがありました。 自戒、および他の誰かの役にたてばという意味を…

【勉強会】 Machine Learning with Apache Spark で発表しました

Machine Learning with Apache Spark 一昨日(2014-11-20)開催された Machine Learning with Apache Spark #sparkjp で「Spark MLlib でやってみる協調フィルタリング」というタイトルでお話させていただきました。 以下、発表資料です。 ここではないどこ…

MCMC と EM アルゴリズムを比べてみた

このエントリについて 前回のエントリで PyStan の MCMC によって GMM (混合正規分布)を学習してみました。 一方、GMM の学習と言えば一般的には EM アルゴリズムが使われることが多いかと思います。 参考: EMアルゴリズム - Wikipedia 混合モデルとEMアル…

PyStan で多次元混合正規分布を学習する

このエントリについて PyStan の実行環境を用意したので、モデルパラメータ推定に使ってみました。 個人的に慣れのある多次元の混合正規分布(GMM: Gaussian Mixture Model)のパラメータを学習してみます。 GMM 複数の正規分布の重なりによって表される確率…

Mac OS X に PyStan をインストールした

このエントリについて PyStan とは、MCMC サンプリング等を高速に実行するために C++ で実装されたプログラミング言語 Stan の Python インターフェースです。 このエントリでは PyStan を Mac のインストールしたときの手順を残します。 事前準備 ドキュメ…

クラスタリング結果の評価の尺度基準

このエントリについて クラスタリングの結果を定量評価するときの基準を数年に1回ぐらい調べてる気がするのと、日本語であまりまとまった情報を見ない気がしたので挙げてみます。今回挙げるのはハード(クリスプ)クラスタリングについての指標です。後で追…

性能要件重視のシステム開発の定石について考える

このエントリについて 最近参加したとある勉強会や業務をしている上で思うところありまして。 性能要件に価値を置くようなシステムの開発において、性能面でのリスクを軽減するような進め方って?というところを考えてみました。 機能要件と性能要件 私はい…

k-means 法の注意点とオレオレベストプラクティス

このエントリについて クラスタリングでよく使われている k-means 法ですが、最近は BI ツールでサポートされていて自称データサイエンティストさんでも誰でもデータを突っ込めば何かしらのクラスタリング結果が得られるわけです。 が、手法の特徴を把握せず…