カテゴリー
機械学習チーム日記
テキスト
投稿日
Apr 18, 2025
こんにちは。機械学習チームの瓦です。
 
他のチームが公開していた「チームメンバーがおすすめする一冊」をみて、機械学習チームでも何かできないかと思い立ちました。せっかくなんで機械学習チームっぽさ(?)を出すために各メンバー(+スペシャルゲスト!)におすすめの論文を聞いてみました!
 
以下は他のチームのおすすめの一冊記事です。
 
各紹介のタイトルに論文のリンクも紐づけているので、興味を持った論文はぜひ元の論文にも目を通してみてください! それでは機械学習チームのおすすめの論文たちをどうぞ!
 

ハン

 
🔍 概要
機械学習の実運用に関する様々な事例を調査し、業界や用途を問わず共通する課題を明らかにしている。課題はMLの導入ワークフロー全体にわたって存在し、各ステージで実務者が直面する問題があることを示している。
 
おすすめポイント
機械学習は一見スマートな技術に見えますが、実際にはデータ収集、前処理、モデルの学習・評価など、多岐にわたる工程と地道な作業が必要です。さらに、画像・音声・自然言語といった多様なドメインに応じて異なる手法が求められ、実運用レベルのシステム構築には高度な工夫と統合力が求められます。 「AIは魔法の道具」と誤解されがちな今だからこそ、ML開発の現実的なワークフローを体系的に理解することで、実務に即した議論や提案が可能になります。
 
👀 こんな人におすすめ!
  • クライアントとの対話や提案の場面で、機械学習について説得力のある説明を求められる方
  • 自社や担当プロジェクトで、機械学習技術の導入・活用を具体的に検討している方

鷲崎

 
🔍 概要
音声codecにおいて、話者情報の除去のためのGRLの活用などにより、潜在空間をイントネーション(話し方)、コンテンツ(話している内容)などに分割するfactorized vector quantization(FVQ)を提案。また、テキストから得られた潜在空間をdiffusionモデルで予測することで、音声を合成しており、最先端の性能を示している。
 
✨ おすすめポイント
FVQにより、複雑な音声を効率的にモデル化しており、より少ないデータで音声を表現する空間を学習できる手法で、データ数が少ない日本語音声合成で価値があると考えている。 また、データ数やモデルサイズのスケールに伴い精度が向上することも示しており、検証がしっかりしている論文で読み応えがある。
 
👀 こんな人におすすめ!
音声codec + 潜在空間を拡散モデルで予測という、今どきな構造について学べます。 また、GRLなど、あまり使われていないけど、知ればいろんな活用法が考えられる手法が盛り沢山で、読む価値アリです。

塚本

 
🔍 概要
対照学習において、時系列データに対するデータ拡張法を生成するモジュール(LEAVES)を提案した論文。 従来の画像ベースの手法が空間的なノイズのみを加えるのに対し、敵対的学習を用いて時系列データの空間的・時間的なゆがみを自動生成し、効果的なデータ拡張を実現した。
 
✨ おすすめポイント
時系列データのためのデータ拡張を自動化して、有効な結果を得られていること。 そもそも時系列のデータ拡張に関してあまり散見されないので、その上でSOTAを達成しているのは見どころかなと思います。
 
👀 こんな人におすすめ!
  • 時系列データを扱い、データ拡張の最適化に苦労している方。
  • センサーや医療系の時系列データの性能向上に関心がある人。
 

塚本

 
🔍 概要
普遍的最速フロー問題における動的ネットワークフローに時間拡大ネットワークを用いたアルゴリズムを提案した論文。 対象としている問題を都市部における避難所の容量が災害時に十分かどうかを図るものとしている。 都市をグラフとしてモデル化し、各ノードに人数や避難所の容量、道路の幅や移動速度を設定し、最適な避難経路や所要時間を計算する手法を提案している。 実際に京都市のデータを用いて数値実験を行っている。
 
✨ おすすめポイント
かなり前の論文だが、時間拡大ネットワークを利用した、動的ネットワークの解析を取り扱うことについてかなり体系的にまとめられていて、応用や転用として利用しやすい。 実際のデータが利用されているので、読みやすくもあると思う。
 
👀 こんな人におすすめ!
  • 動的ネットワークフロー問題に取り掛かる定式化やアルゴリズムの検討をしている方

大久保

 
🔍 概要
長期記憶、短期記憶、適切に忘却、推論しながら学習ができます。
 
✨ おすすめポイント
これの最小のモデルから質問するように初期のシステムプロンプトを設定すれば、どんどん勝手に賢くなるモデルができそう。 Google Researchということもあり、ちまたで Transformer 2.0といわれていて、公式実装はなくてもいろんな人が実装していて、注目度の高さがわかります。 2024の大晦日に出したってのは何か考えがあったのか?
 
👀 こんな人におすすめ!
野心的なモデルを作りたい人!

樋口

📝 タイトル:GRAPH ATTENTION NETWORKS
 
🔍 概要
グラフ構造を用いたニューラルネットワーク (GNN) の一種で、周囲のノードから情報を集約してノード表現のアップデートを行う GCN (Graph Convolutional Network) を改良し、ノード情報の集約時に Attention を取り入れてみたという論文
 
✨ おすすめポイント
GNN系の論文で図がわかりやすかったからおすすめです!
 
👀 こんな人におすすめ!
グラフの形をした面白いニューラルネットワークもあるんだよ!ってことを伝えたかった。 タンパク質の構造やSNSなど、グラフ構造を持つデータの予測や分類等をやってみたい!って人におすすめ!

石橋

 
🔍 概要
deep learningをタンパク質折り畳み問題を解くために使ってめっちゃ精度が上がったと話題になった時の論文
 
✨ おすすめポイント
使っている技術とかに目新しいこととかはあまり無くオーソドックスな一方で、ドメイン知識(ラマチャンドランプロットとか)を使って、立体的に無理のない構造の角度でしか推論しないように工夫をした解き方がモデルに組み込まれているところ。(この論文は初期のモデルのバージョンで今は2, 3と次世代モデルが出ているらしい)
 
👀 こんな人におすすめ!
deep learningをこんなことにも利用できるんだ!って思いたい人

📝 タイトル:Attention is All You Need
 
🔍 概要
言わずと知れた、"Attention" という仕組みだけで機械翻訳タスクを解く Transformer モデルを提案した論文。BERT や GPT などの大規模なモデルの祖となった。
 
✨ おすすめポイント
それまでは RNN に Attention を組み込んでいたが、「もう全部 Attention でいいじゃん」という発想がすごい! また、position encoding や Multi Head Attention のようなよく見かける手法に関しても載っていて、目を通しておけばより LLM を理解できること間違いなしだと思います!
 
👀 こんな人におすすめ!
LLM を使っているが、仕組みを知らない人。処理の中身を知ることで、最近のモデルのアップデート内容や、Vision Transformer や HuBERT のような画像、音に対する適用手法についても理解できるようになると思います!
 
 


 
Loading...