算法人生(7):從“時間折扣策略”看“戰(zhàn)勝拖延”(等待最佳時機版)

0 評論 1119 瀏覽 2 收藏 9 分鐘

現(xiàn)代人拖延理由千奇百怪,有的害怕失敗;有的因為完美主義傾向而拖延;有的不想走出“舒適區(qū)”。作者在本篇文章中從“時間折扣策略”上來戰(zhàn)勝拖延,想要改變拖延的朋友們一起來看看吧~

現(xiàn)代人拖延產(chǎn)生的原因有很多,比如因為害怕失敗而拖延,因為完美主義傾向而拖延,不想走出“舒適區(qū)”而拖延等等, 今天我們要針對一個常見的原因“一直覺得沒有準備好,想等最佳時機再開始”而產(chǎn)生的拖延來看,如何從“時間折扣策略”的思路中找到些啟發(fā)。

一、時間折扣策略簡介

在強化學(xué)習中,智能體需在環(huán)境中作出決策以最大化其長期累計獎勵。時間折扣的原理正是為了幫助智能體在短期和長期獎勵之間做出平衡。通過貼現(xiàn)未來獎勵,智能體能更偏向于選擇那些短期內(nèi)帶來更大總價值,但同時也會考慮到長期利益的決策。

1. 時間折扣策略大致的步驟

  1. 初始化參數(shù):首先,它會設(shè)置貼現(xiàn)率γ,它決定了對未來獎勵的重視程度。
  2. 計算未來獎勵的價值:在每個時間步t,智能體會根據(jù)當前狀態(tài)和行動獲得即時獎勵R_t,并考慮接下來所有時間步的未來獎勵。每一項未來獎勵都要乘以相應(yīng)的貼現(xiàn)因子γ^(t+n),其中n是從當前時間步到未來獎勵發(fā)生的時間間隔。
  3. 更新價值函數(shù):使用強化學(xué)習算法(如Q學(xué)習等)更新價值函數(shù)或策略,將未來獎勵貼現(xiàn)后的價值納入考量。
  4. 決策制定:基于更新后的價值函數(shù)或策略,智能體在每個時間步選擇一個動作,目標是最大化未來(貼現(xiàn)后)獎勵的累計和。
  5. 重復(fù)學(xué)習過程:智能體在與環(huán)境的不斷交互中,持續(xù)迭代上述步驟,不斷優(yōu)化其策略,以便在考慮時間折扣的情況下,更好地平衡短期與長期的利益。

2. 時間折扣策略思想的特色

  • 對未來不確定性的應(yīng)對:未來充滿了不確定性,人們無法確切知道未來的收益是否能夠兌現(xiàn),因此傾向于將未來的獎勵打折扣。時間折扣作為一種保守的策略,減少了智能體對未來過于樂觀或悲觀的預(yù)期,使其更穩(wěn)健地適應(yīng)環(huán)境變化。
  • 決策效率與適應(yīng)性:時間折扣策略體現(xiàn)了在資源有限的情況下,如何更高效地分配資源以達到最大的總體收益。?通過時間折扣機制,智能體能夠更快地學(xué)習到有價值的策略,提高其在動態(tài)環(huán)境中的適應(yīng)能力。
  • 風險偏好與耐心程度:貼現(xiàn)因子反映了個體的風險承受能力和耐心程度。貼現(xiàn)率越低,說明個體越能忍受延遲滿足,愿意為了長遠利益犧牲眼前享受;反之,貼現(xiàn)率越高,則顯示個體更傾向于短期收益,對未來的不確定性和等待成本也就越敏感。

綜上所述,時間折扣策略是一種將未來事件的價值折算到現(xiàn)在價值的技術(shù),它通過合理地設(shè)定貼現(xiàn)率,幫助智能體在復(fù)雜的決策問題中找到最優(yōu)策略。時間折扣背后的價值觀和思想主要體現(xiàn)了在綜合考量未來的不確定性、風險偏好和耐心程度后,在決策時對即時滿足與長遠利益之間的權(quán)衡。

二、心理陷阱:等待“最佳時機”

在現(xiàn)代人普遍的拖延中,有一種原因是很多人常常陷入的一種心理陷阱:等待“最佳時機”。他們相信,在某個特定的、完美的時刻開始行動,將會得到最好的結(jié)果。然而,這種等待往往成為了行動的障礙,它會對個人的生活造成一些負面的影響:

  • 機會的流失:在等待“最佳時機”的過程中,我們可能會錯過真正的機會,因為機會往往不會等待我們準備好。
  • 動力的消耗:正所謂一鼓作氣再而衰三而竭。長期的等待會消耗我們的內(nèi)在動力,使得當機會真正來臨時,我們已經(jīng)失去了最初的熱情和決心。
  • 自我懷疑的增加:等待過程中的不斷猶豫和反思,可能會讓我們開始懷疑自己的能力和決策,增加了內(nèi)心的不安和焦慮。

那么,我們應(yīng)該怎么應(yīng)用時間折扣策略來改善拖延呢?

  • 重塑行動認知,應(yīng)對不確定性:我們首先要意識到,接受并欣賞當下可以開始行動的任何狀態(tài),越早地開始行動,目標價值的折現(xiàn)損失就越少。追求所謂的“最佳時機”可能導(dǎo)致機會的流失,而立即行動所帶來的經(jīng)驗和體會又是書本上難以獲得的收獲。不論結(jié)果是否完美,行動本身就蘊含著不可忽視的價值,它推動我們不斷調(diào)整策略,才能逐漸靠近成功??梢韵駮r間折扣策略那樣,對未來美好的獎勵結(jié)果進行打折,從而應(yīng)對未來的不確定性,推動自己開始行動以驗證未來的獎勵。
  • 分解任務(wù),高效分配:將宏偉的大任務(wù)拆分成一系列短期可實現(xiàn)的小目標,不僅降低了行動的壓力感,而且每達成一個小目標都會立刻帶來成就感,相比長時間空等所謂最佳時機,積少成多的方式更能激發(fā)行動力,有效克服拖延心理。同時,在分解任務(wù)的過程中,目標會變得更聚焦,也能更知道當下的資源應(yīng)該如何分配才可能獲取更大的收益,更有益于提升對高效分配資源的適應(yīng)力。
  • 結(jié)合風險和忍受度,設(shè)定啟動時間窗:就像系統(tǒng)會在指定時間點執(zhí)行任務(wù)一樣,為自己的拖延設(shè)立一個明確且的啟動時間,這個啟動時間應(yīng)該是結(jié)合了個人對未來風險的承受能力和耐心度的基礎(chǔ)上設(shè)定的,也就是自己能接受最晚開始的時間。那到了那個啟動時間,無論我們的準備狀態(tài)如何(只要不是無法開始),我們都應(yīng)堅定地在那個時間點開始行動,這樣才能打破“等待最佳時機”的惡性循環(huán)。

生活中,難免對想做好的事情有更高地期待,所以要等待“準備好”,這種“配得感”在大多數(shù)場景上都是有益于個人發(fā)展的,它促使我們認真對待要做的事情。但是如果這份“配得感“過多,進而造成了拖延,我們就需要重視起來,因為相比較于“最佳時機”,“行動起來”更接近于事情的正向結(jié)果!

本文由 @養(yǎng)心進行時 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!