企業で統計分析・機械学習の実応用をしています。
大学院では素粒子物理学の研究をしていました。
このブログは自分の学習のログやハマったことのメモ・本の感想などを書いています。Zenn にも技術記事を書いています。
記事は個人の見解であり、所属する企業の意見や方針を代表するものではありません。
ベイズ統計に基づく仮説検定の手法として、ベイズファクターと呼ばれる量を用いるものがある。頻度論による検定の問題を克服する手段としてベイズが挙げられるときは、ベイズファクターのような手法を想定している場面が多いと思う。仕事ではこれまで頻度論による検定で間に合ってしまう場面が多くあまり触れてこなかったが、最近になってようやく勉強したので、簡単にまとめておきたい。
仕事で漫然と Python に型ヒントをつけていると、type checker の警告を理解できないことがある。実際に遭遇したケースの一つをかなり単純化して書いてみよう
年末年始にこのブログの SSG を Zola に移行してみた。
Zola
Your one-stop static site engine
この記事は JuliaLang Advent Calendar 2022 14日目の記事です。
最近趣味で、Lux.jl という Julia 製のニューラルネットのフレームワークを使って拡散モデルを実装していた。
yng87/DDIM.jl
Contribute to yng87/DDIM.jl development by creating an account on GitHub.
学習データには Oxford 102 flowers dataset という花のデータセットを使っていて、うまく学習できると以下のような画像が生成できる
このブログは github pages でデプロイしている。 そのため今まではデフォルトの yng87.github.io というドメイン名だったが、自身に帰属感を持たせ記事執筆のモチベを上げるため、独自ドメインを導入してみた。
ぼんやりと過ごしているうちに、世間では DALL·E 2 や Imagen のような高性能の生成モデルが話題になっていました。いつの間にか生成部分にGANではなく、diffusion model というものが使われるようになっていたのも知りました。
このままでは時代に取り残されてしまうと思い diffusion model の草分けと思われる論文の一つarXiv:2006.11239 を理解しようと読み始めたのですが、式の導出が思ったより大変だったので過程をまとめておきたい、というのがこの記事の趣旨です。
Denoising Diffusion Probabilistic Models
We present high quality image synthesis results using diffusion probabilisticmodels, a class of latent variable models inspired by considerations fromnonequilibrium thermodynamics...
最近Kaggleで開催されていた、H&M主催のファッション推薦コンペに参加しました。自分はファッションEC企業でレコメンドシステムの構築に関わっており、このコンペはまさに自分が扱っている技術・ドメインの問題です。腕試しと技術研鑽のため、参加することにしました。
結果は25位という、なんとも言えない悔しい結果になってしまいましたが (gold が欲しかった)、色々学びがあったので記録を残しておきます。
H&M Personalized Fashion Recommendations
Provide product recommendations based on previous purchases
A/Bテスト実践ガイドという本を読んでいたら、有意水準5%、検出力80%のt検定に必要なサンプルサイズを求める公式として以下のようなものが書かれていました
$$n = \frac{16\sigma^2}{\delta^2}.$$
ここで$\sigma$は分散(両群で等しいとする)、 $\delta$ は検出したい二群の平均の差です。この式がどこから出てくるのかパッとわからなかったので考えました。