Monday, 2023/12/04

  • 東京工業大学
  • 情報理工学院
  • 情報工学系
  • Switch Language
    • ja日本語
    • enEnglish (英語)

下坂研究室

Shimosaka Research Group pursuing MIUBIQ (machine intelligence in UbiComp Research)

  • ホーム
    • メンバー
    • 所在地
  • ニュース
  • プロジェクト
  • 発表論文
  • 受賞
  • アーカイブ
    • コード
    • データセット
Navigation
プロジェクト 危険行動の時間的局所性に着目した負例導入逆強化学習の安定化

危険行動の時間的局所性に着目した負例導入逆強化学習の安定化

2023/09/14 | プロジェクト | 211 views |

近年,人為的ミスに起因する交通事故の抑制につながる自動運転システムが注目されています.自動運転の鍵となるのは,ドライバーの意思決定を自動化することです.特に,複雑な運転行動を人が書き下したルールで定義することは困難であるため,データから最適な行動規範をモデリングできる逆強化学習への期待が高まっています.

これまでの取り組みでは,安全な行動データ(正例)と危険な行動データ(負例)を用いて,交通事故を避けるための意思決定を模倣することを目的とした逆強化学習手法が提案されています.しかしながら,運転行動に限れば,危険な行動データの中の行動が常に危険とは限りません.例えば,障害物にぶつかる行動は危険ですが,それに至るまでの一連の行動の全ては必ずしも危険ではありません.すなわち,行動が常に安全な正例と行動のごく一部の時間のみが危険な負例の間にコンフリクトが存在し,このコンフリクトは学習の収束を遅める問題を引き起こします.

本プロジェクトでは,この課題に取り組み,危険行動のごく一部の時間のみを負例として扱い,大半は正例として扱うべきであることに着目し,危険行動の時間的局所性に着目した負例導入逆強化学習を提案しました.この提案手法では,危険行動の時間的パターンを時系列正負ラベルとして捉え,これを従来の逆強化学習の枠組みに組み込みました.

障害物回避シナリオにおける実験により,提案手法が既存の方法よりも正確に障害物を回避できることが確認されました.また,提案手法による正例と負例間のコンフリクトを解消することにより,学習の収束が速くなるだけでなく,正例と負例の比率によらず安定して最適報酬が得られることも示しました.

—– 発表論文 —–
趙 茗璐, 羊 少宇, 下坂 正倫. 危険行動の時間的局所性に着目した負例導入逆強化学習の安定化. ロボティクス・メカトロニクス講演会2023 講演論文集 (Robomech2023), 名古屋, 6 2023.

  • tweet

Comments are disabled for this post

Social Networks

  • twitter
  • rss

Recent News

  • 情報処理学会UBI研究会第80回研究発表会にてウェアラブルデバイスを用いた表情認識とGPS位置履歴等を用いた混雑予報に関する2本の論文を発表します 2023/11/20
  • 天井設置UWBセンシングによるデバイスフリー屋内行動測位・認識 2023/10/26
  • CityScouterアプリケーションについて, UbiComp 2023にてデモ発表を行います 2023/10/11
  • 群衆密度モニタリングのための効率的なBluetoothビーコン配置についてUbiComp2023にて発表いたします 2023/10/05
  • 景観画像と地理的特性を考慮した都市における雰囲気の定量化 2023/10/05
  • 早期群衆動態予報の高精度化に関する論文が IEEE Pervasive Computing に再録されました 2023/10/03
  • 楽音合成技術にヒントを得た 混雑の生起・継続・終了状態の認識に基づく 混雑寿命予報 2023/09/25
  • 情報処理学会UBI研究会第79回研究発表会にてBLEビーコン配置最適化とUWBを用いたデバイスフリー屋内測位に関する2本の論文を発表します 2023/09/21
  • IPIN2023にて,データ駆動電波強度シミュレーションについて発表します 2023/09/14
  • 危険行動の時間的局所性に着目した負例導入逆強化学習の安定化 2023/09/14

Search

Copyright 2015 · Shimosaka Research Group at TITECH