Joss认为 1+1=2 很有可能,当然 =3 或 =1 也有可能发生,只是概率比较小。这是他的看法。
发布于: 2025年10月18日 · 作者: Joss ·
从前 x 表示自变量,y 叫做因变量,它表示的是 x 与 y 之间的关系如何。
例如 2=1×1+0。在这里 x、y、k、b 都是实数。
然而现在任务的方向变了。我们想要找到最好的 k 和 b,使得它能够表示所有的 x 与 y 并且效果最好。于是换一种表达方法:
y =θ0+θ1x
我们不想关注 x 与 y 是怎么变化了,想把重点放在θ上,于是有这样一种表达:
yθ =θ0+θ1x
这样就可以表达了。
如果有 x有两维呢,也就是 x=(x1x2) ,那么自然θ就是三维,也就是说:
yθ =θ0+θ1x1+θ2x2
在这里,θ=θ0θ1θ2
因此,yθ就可以表示为:
yθ=θ⋅(1x)
也就是说:
yθ=θ0θ1θ2⋅1x1x2
有一些非常讨厌的写法,例如∑i=0nθixi或者是θTx,因为x0根本没有定义,即使它们在数学上是等价的。 因此,你不能先约定x是二维向量,然后又说θ0对应x0。
不妨令x=(1x)
现在,我们来约定一下最终的写法:
y=θTx
我们采集了一些自变量 x 与目标 y ,例如第一个x 与第一个 y ,第二个x 与第二个 y ,该怎么表示这些x 与 y 呢?
最垃圾的教科书会想当然这样写:x1x2y1y2。理由很简单:x1x2y1y2都没被定义过,用下标表示不同的样本是很常见的方法啊,直接用就好了。然而下标这个方法在上一节表示的是向量的分量啊!
一般垃圾的教科书会这样写:x1x2y1y2,发现和幂函数冲突了,于是美滋滋加个括号就给读者端上来:x(1)x(2)y(1)y(2)。
在这里,用Y表示多个y从左到右一列一列排好,用X表示多个x从左到右一列一列排好,原来的公式也成立:
Y=θTX
至于单个样本的情况,就用
y=θTx
来表示就好了。
然后我们发现,对于每个样本,实际上不可能真正测量到线性相关的关系,而是存在一定的误差ϵ,也就是说,
y=θTx+ϵ
这太麻烦了!来一点假设吧。假设 随机误差相互独立服从正态分布,也就是说ϵ∼N(0,σ2),也就是说:
p(ϵ)=2πσ1exp(−2σ2ϵ2)
可以得到:
p(y∣x,θ)=2πσ21exp(−2σ2(y−θTx)2)
其中p(y∣x)表示输入x得到y的概率,p(θ)表示θ的概率,正是我们想要的。
现在来考虑关于θ的似然函数:
L(θ)=∏(x,y)∈(X,Y)[2πσ21exp(−2σ2(y−θTx)2)]
顺理成章取对数:
LL(θ)=∑(x,y)∈(X,Y)ln[2πσ21exp(−2σ2(y−θTx)2)]
从而得到:
LL(θ)=∑(x,y)∈(X,Y)[−21ln(2πσ2)−2σ2(y−θTx)2]
观察图中的公式,为了最大化似然函数LL(θ),得到损失函数J(θ)平方误差和(SSE):
J(θ)=21∑(x,y)∈(X,Y)(θTx−y)2