无限模式最优选择

修改于4 小时前6 浏览

涉及参数有

幸运值p

一次游程第n为反第n-1次的收益a(n-1)+b

也就是能量收益为b

连击奖励为a

仅手动或使用宏影响抛掷速度，故不考虑抛掷速度

一轮n次游程的组成为，n-1次正和1次负，n-1正1负后的收益为(a(n-2)+2b)(n-1)/2，发生一轮n次游程的概率为(1-p)p^(n-1)，故一轮n次游程的收益为an=(1-p)p^(n-1)(a(n-2)+2b)(n-1)/2n

每轮游程的期望收益为lim(n→∞)Sn=bp/(1-p)+ap^2/(1-p)^2

每次的期望为bp+ap^2/(1-p)

可以计算三种选择对应的下一步的结果相减除以消耗的钱数来决定

2

2

1