雨宿り

だいぶスローペース

2019-07-07から1日間の記事一覧

PPOの実装(ネットワーク共有版)

はじめに 学習モデル Memory finish_path() get_batch() Agent get_action() update() 学習ループ おわりに 参考 はじめに PolicyとValueのネットワークをタイプのものを全然見かけなかったので、 勉強も兼ねてPyTorchで実装してみました。 コードは以下に置…