无限模式最优选择

修改于4 小时前6 浏览
涉及参数有
幸运值p
一次游程第n为反第n-1次的收益a(n-1)+b
也就是能量收益为b
连击奖励为a
仅手动或使用宏影响抛掷速度,故不考虑抛掷速度
一轮n次游程的组成为,n-1次正和1次负,n-1正1负后的收益为(a(n-2)+2b)(n-1)/2,发生一轮n次游程的概率为(1-p)p^(n-1),故一轮n次游程的收益为an=(1-p)p^(n-1)(a(n-2)+2b)(n-1)/2n
每轮游程的期望收益为lim(n→∞)Sn=bp/(1-p)+ap^2/(1-p)^2
每次的期望为bp+ap^2/(1-p)
可以计算三种选择对应的下一步的结果相减除以消耗的钱数来决定
2
2
1