このエントリについて 2種類の要件 性能要件のテスト offline と online offline 性能テストの自動化 A/B テストはすぐにほしい 機能要件のテスト 性能テストのみで十分なのでは? テストデータ生成 機能テストをいつ作るか まとめ このエントリについて ポ…
このエントリについて 最近読んだオンライン学習の本が分かりやすくて面白かったので、紹介されているアルゴリズムを実装して遊んでみました。 書籍紹介 オンライン機械学習 (機械学習プロフェッショナルシリーズ)作者: 海野裕也,岡野原大輔,得居誠也,徳永拓…
カエルなので分かりません、誰か教えてください。 レコメンデーションシステムのオフライン評価について調べてました。 そのメモ的なエントリです。 ここでいうレコメンデーションシステムについてはよくある EC サイトの商品推薦のようなものをイメージして…
このエントリについて いわゆる退職エントリです。 と言っても退職したのはおよそ1ヶ月前ですが。 退職の経緯 8月末で株式会社 ALBERT を退職しました。 2年と2ヶ月の在籍でした。 退職を決めた理由は、 新しい分野・環境に身を置きたくなったこと 上場して…
このエントリについて ここ2ヶ月ぐらい Apache Spark でバッチ処理をするアプリケーションを作っていました。 Apache Spark でがっつり何かを作るのは今回が初めてで、結構詰まったりしたところがありました。 自戒、および他の誰かの役にたてばという意味を…
Machine Learning with Apache Spark 一昨日(2014-11-20)開催された Machine Learning with Apache Spark #sparkjp で「Spark MLlib でやってみる協調フィルタリング」というタイトルでお話させていただきました。 以下、発表資料です。 ここではないどこ…
このエントリについて 前回のエントリで PyStan の MCMC によって GMM (混合正規分布)を学習してみました。 一方、GMM の学習と言えば一般的には EM アルゴリズムが使われることが多いかと思います。 参考: EMアルゴリズム - Wikipedia 混合モデルとEMアル…
このエントリについて PyStan の実行環境を用意したので、モデルパラメータ推定に使ってみました。 個人的に慣れのある多次元の混合正規分布(GMM: Gaussian Mixture Model)のパラメータを学習してみます。 GMM 複数の正規分布の重なりによって表される確率…
このエントリについて PyStan とは、MCMC サンプリング等を高速に実行するために C++ で実装されたプログラミング言語 Stan の Python インターフェースです。 このエントリでは PyStan を Mac のインストールしたときの手順を残します。 事前準備 ドキュメ…
このエントリについて クラスタリングの結果を定量評価するときの基準を数年に1回ぐらい調べてる気がするのと、日本語であまりまとまった情報を見ない気がしたので挙げてみます。今回挙げるのはハード(クリスプ)クラスタリングについての指標です。後で追…
このエントリについて 最近参加したとある勉強会や業務をしている上で思うところありまして。 性能要件に価値を置くようなシステムの開発において、性能面でのリスクを軽減するような進め方って?というところを考えてみました。 機能要件と性能要件 私はい…
このエントリについて クラスタリングでよく使われている k-means 法ですが、最近は BI ツールでサポートされていて自称データサイエンティストさんでも誰でもデータを突っ込めば何かしらのクラスタリング結果が得られるわけです。 が、手法の特徴を把握せず…