97精品国产高清自在线看超,日韩av无码制服丝袜,91嫩草国产在线看网站

亞馬遜云科技DeepRacer模型訓(xùn)練指南及標(biāo)準(zhǔn)硬件配置流程

時(shí)間：2023-04-13 13:51 來(lái)源：今日頭條責(zé)任編輯：青青

　　原標(biāo)題：亞馬遜云科技DeepRacer模型訓(xùn)練指南及標(biāo)準(zhǔn)硬件配置流程

　　Amazon DeepRacer介紹

　　Amazon DeepRacer是一個(gè)綜合性的學(xué)習(xí)系統(tǒng)，可供各個(gè)水平的用戶(hù)用來(lái)學(xué)習(xí)和探索強(qiáng)化學(xué)習(xí)以及試驗(yàn)和構(gòu)建自動(dòng)駕駛應(yīng)用程序。

　　DeepRacer可分為兩個(gè)主要部分：

　　Amazon DeepRacer Console：在線訓(xùn)練和評(píng)估強(qiáng)化學(xué)習(xí)模型在模擬自動(dòng)駕駛環(huán)境;

　　Amazon DeepRacer車(chē)輛：1/18比例的RC車(chē)輛，導(dǎo)入訓(xùn)練好的Amazon DeepRacer模型上運(yùn)行推理用于自動(dòng)駕駛。

　　本文從兩個(gè)主要部分討論DeepRacer的使用：

　　DeepRacer在線訓(xùn)練：從獎(jiǎng)勵(lì)函數(shù)、賽車(chē)知識(shí)和強(qiáng)化學(xué)習(xí)參數(shù)3個(gè)方向出發(fā)，優(yōu)化模型線上及線下的性能;

　　DeepRacer物理賽車(chē)：提供DeepRacer硬件使用過(guò)程中的標(biāo)準(zhǔn)流程，避免錯(cuò)誤的配置流程導(dǎo)致性能不佳，包括：初次開(kāi)箱配置、再次使用時(shí)的檢查流程，以及debug流程。

　　獎(jiǎng)勵(lì)函數(shù)基本思想

　　DeepRacer底層技術(shù)基于強(qiáng)化學(xué)習(xí)，在強(qiáng)化學(xué)習(xí)中，agent(智能體)學(xué)習(xí)的目標(biāo)被表示為reward(收益)，收益通過(guò)environment(環(huán)境)傳遞給agent reward在每個(gè)時(shí)間點(diǎn)上是一個(gè)標(biāo)量。而agent的目標(biāo)，是最大化收到的總體reward。因此，與計(jì)算機(jī)中的貪心算法不同，強(qiáng)化學(xué)習(xí)的agent的目標(biāo)并非最大化當(dāng)前的reward，而是最大化長(zhǎng)期reward的累計(jì)公式。

　　在DeepRacer訓(xùn)練中，模擬器通過(guò)給agent返回reward來(lái)與其交互，而agent根據(jù)reward來(lái)更新自己的策略。在《Reinforcement learning: An introduction》一書(shū)中，reward由狀態(tài)，動(dòng)作和下一個(gè)狀態(tài)共同決定。

　　在強(qiáng)化學(xué)習(xí)項(xiàng)目中，reward function的設(shè)計(jì)是其中重點(diǎn)，也是最耗費(fèi)時(shí)間的部分，因?yàn)樵谔岣遖gent能力的同時(shí)，還要避免agent投機(jī)取巧，找到提高獎(jiǎng)勵(lì)值的方法。

　　使用上面的獎(jiǎng)勵(lì)函數(shù)，通常可以訓(xùn)練出一個(gè)比較穩(wěn)定的模型，然而DeepRacer競(jìng)賽評(píng)判的標(biāo)準(zhǔn)除了穩(wěn)定，還關(guān)注速度，因此，我們可以將更多的params提供的參數(shù)用上。

　　強(qiáng)化學(xué)習(xí)的參數(shù)理解

　　深度強(qiáng)化學(xué)習(xí)算法

　　DeepRacer的底層算法是深度強(qiáng)化學(xué)習(xí)，其中可以選擇的算法有兩個(gè)，我們可以根據(jù)訓(xùn)練的時(shí)間和賽道類(lèi)型選擇合適的模型：

　　PPO(Proximal Policy Optimization)：基于Policy Gradient的思想，是主流的深度強(qiáng)化學(xué)習(xí)算法之一。PPO對(duì)樣本的利用效率較低，訓(xùn)練時(shí)需要大量樣本，魯棒性較高，對(duì)超參數(shù)不敏感，收斂效果較好。

　　SAC(Soft Actor-Critic)：基于DDPG的思想，與PPO相比，對(duì)樣本的利用程度更高，所需要的樣本數(shù)更少。但SAC魯棒性較低，對(duì)超參數(shù)敏感，收斂效果較差。

　　超參數(shù)

　　深度強(qiáng)化學(xué)習(xí)的底層是神經(jīng)網(wǎng)絡(luò)結(jié)合強(qiáng)化學(xué)習(xí)，因此我們可以配置的超參數(shù)分為2大類(lèi)：

　　強(qiáng)化學(xué)習(xí)超參數(shù)

　　神經(jīng)網(wǎng)絡(luò)超參數(shù)

　　深度學(xué)習(xí)參數(shù)的簡(jiǎn)介如下：

　　Gradient descent batch size：從經(jīng)驗(yàn)緩沖區(qū)中隨機(jī)采樣的最近車(chē)輛經(jīng)驗(yàn)數(shù)，用于更新基礎(chǔ)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重。

　　Number of epochs：在梯度下降期間，遍歷訓(xùn)練數(shù)據(jù)(經(jīng)驗(yàn)緩沖區(qū)的隨機(jī)樣本)以更新神經(jīng)網(wǎng)絡(luò)權(quán)重的次數(shù)。

　　Learning rate：更新權(quán)重時(shí)，新權(quán)重的占比。

　　Entropy：不確定性概率，模型有一定概率選擇隨機(jī)探索。

　　Discount factor：未來(lái)獎(jiǎng)勵(lì)對(duì)預(yù)期獎(jiǎng)勵(lì)的影響程度。

　　Loss type：損失函數(shù)的類(lèi)型。分為Mean squared error loss(均方誤差損失)和Huber loss(Huber損失)類(lèi)型。

　　Number of experience episodes between each policy-updating iteration：經(jīng)驗(yàn)緩沖區(qū)的大小，用于記錄過(guò)去的經(jīng)驗(yàn)。

　　根據(jù)以上超參數(shù)的定義，有如下調(diào)參建議：

　　如果獎(jiǎng)勵(lì)函數(shù)過(guò)于激進(jìn)，導(dǎo)致模型不易收斂，可以嘗試降低learning rate或選擇huber loss，讓學(xué)習(xí)的過(guò)程更加平滑;

　　如果模型在過(guò)彎時(shí)反應(yīng)不夠靈敏，或轉(zhuǎn)彎時(shí)機(jī)總是比較晚，可以嘗試提高discount factor，讓模型更注重遠(yuǎn)期獎(jiǎng)勵(lì);

　　反之，如果模型在過(guò)彎時(shí)過(guò)于靈敏，過(guò)早轉(zhuǎn)彎，可以嘗試降低discount factor，避免模型過(guò)于關(guān)注遠(yuǎn)期獎(jiǎng)勵(lì)，同時(shí)，也可以使用waypoints來(lái)解決;

　　Reward的延遲也要在discount factor的設(shè)置中考慮，如果reward設(shè)置的的延遲較高時(shí)，可以適當(dāng)提高discount factor值;而reward實(shí)時(shí)性較好時(shí)，可以降低discount factor值;

　　Batch size與epoch越大，模型在訓(xùn)練的權(quán)重更新則越平滑。但如果Batch size或epoch過(guò)大，會(huì)導(dǎo)致訓(xùn)練速度降低及收斂至局部最優(yōu)，因此可以聯(lián)合調(diào)試Batch size和epoch的值;

　　適當(dāng)增加經(jīng)驗(yàn)緩沖區(qū)大小，會(huì)提升模型的收斂的穩(wěn)定性，如果模型始終不收斂或性能震動(dòng)較大，可以嘗試適當(dāng)增加經(jīng)驗(yàn)緩沖區(qū)的大小;

　　與PPO模型相比，在使用SAC模型時(shí)，建議使用更高的epoch來(lái)緩解算法本身對(duì)超參數(shù)敏感的問(wèn)題;

　　如果模型訓(xùn)練過(guò)程中的性能提升過(guò)于緩慢，可以適當(dāng)增加entropy值，提升模型隨機(jī)探索的可能性;

　　如果模型的性能提升過(guò)于緩慢或變動(dòng)較小，可以適當(dāng)增加entropy值;反之，如果模型在收斂過(guò)程中震蕩較大，可以適當(dāng)降低entropy值。

　　Action Space

　　Action space指的是agent可選的動(dòng)作范圍，在DeepRacer訓(xùn)練配置中，可以選擇下面兩種action space：

　　Continuous action space：連續(xù)動(dòng)作空間，提供速度和轉(zhuǎn)角的上下限，agent可在范圍中尋找合適的值;

　　Discrete action space：離散動(dòng)作空間，提供action的組合(速度+轉(zhuǎn)角)。

　　通常情況下，continuous action space較難收斂，需要更多的訓(xùn)練時(shí)間和更精細(xì)的獎(jiǎng)勵(lì)函數(shù)配置。

投稿郵箱：chuanbeiol@163.com 詳情請(qǐng)?jiān)L問(wèn)川北在線：http://sanmuled.cn/

>>相關(guān)文章

泰盈科技兵乓激情

多力黃金3益玉米胚芽油：科技引領(lǐng)，健康油品再升級(jí)

力合科創(chuàng)攜卡拉歐克參觀廣東工業(yè)大學(xué)，共促科技創(chuàng)新與人才合作

九號(hào)公司推出送物機(jī)器人以智能科技提升物品配送效率

南通瑞金制鏈科技有限公司：以創(chuàng)新為翼，推動(dòng)圓環(huán)鏈產(chǎn)業(yè)新高度

江蘇量點(diǎn)科技亮相老齡產(chǎn)業(yè)論壇共探銀發(fā)經(jīng)濟(jì)新機(jī)遇

數(shù)禾科技數(shù)字金融活力正在厚積薄發(fā)，朝著更好的方向發(fā)展

匯洲財(cái)富引領(lǐng)金融科技創(chuàng)新，AI智能投顧服務(wù)震撼上線

匯洲財(cái)富攜手AI技術(shù) 打造未來(lái)金融投資新高地

川北在線-川北全搜索版權(quán)與免責(zé)聲明

①凡注明"來(lái)源：XXX(非在線)"的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，本網(wǎng)不承擔(dān)此類(lèi)稿件侵權(quán)行為的連帶責(zé)任。
②本站所載之信息僅為網(wǎng)民提供參考之用，不構(gòu)成任何投資建議，文章觀點(diǎn)不代表本站立場(chǎng)，其真實(shí)性由作者或稿源方負(fù)責(zé)，本站信息接受廣大網(wǎng)民的監(jiān)督、投訴、批評(píng)。
③本站轉(zhuǎn)載純粹出于為網(wǎng)民傳遞更多信息之目的，本站不原創(chuàng)、不存儲(chǔ)視頻，所有視頻均分享自其他視頻分享網(wǎng)站，如涉及到您的版權(quán)問(wèn)題，請(qǐng)與本網(wǎng)聯(lián)系，我站將及時(shí)進(jìn)行刪除處理。

娛樂(lè)百科

360GAME

探索發(fā)現(xiàn)

愛(ài)美·BEAUTY

知識(shí)百科

精彩看點(diǎn)

玉米種植技術(shù)與管理
雅樂(lè)之舞修剪注意事項(xiàng)
玫瑰干花怎么做并且顏色不變
多肉如何葉插繁殖
月季花扦插多久生根
養(yǎng)殖君子蘭盆栽其實(shí)有這四大基本好處

娛樂(lè)	財(cái)經(jīng)
體育	房產(chǎn)
文化	交通
文苑	教育

科技	IT
百度	游戲
奇虎	讀報(bào)
搜狗	觀點(diǎn)

美女	社會(huì)
熱點(diǎn)	衛(wèi)生
搞笑	食品
綠植	美通社

樂(lè)活	愛(ài)美
育兒	養(yǎng)生
探索	百科
游戲	硬件