Softmax 回归简介

社会科学家邓肯·卢斯于1959年在*选择模型*(choice model)的理论基础上 发明的了*softmax函数*: softmax函数能够将未规范化的预测变换为非负数并且总和为1,同时让模型保持 可导的性质。

为什么叫Softmax呢?Softmax从字面上来说,可以分成soft和max两个部分。max故名思议就是最大值的意思。Softmax的核心在于soft,而soft有软的含义,与之相对的是hard硬。很多场景中需要我们找出数组所有元素中值最大的元素。

Softmax函数是一个在数学和计算机科学中常用的函数,特别是在机器学习的分类问题中。它可以把一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在`$$(0,1)$$`之间,并且所有元素的和为1。这使得Softmax函数的输出可以被解释为概率分布。

交叉熵损失

熵 信息论中熵的概念首次被香农提出,目的是寻找一种高效/无损地编码信息的方法:以编码后数据的平均长度来衡量高效性,平均长度越小越高效;同时还需满足“无损”的条件,即编码后不能有原始信息的丢失。这样,香农提出了熵的定义:无损编码事件信息的最小平均编码长度。 假设一个信息事件有 N 种可能的状态,且各状态等可能性,即每种状态的可能性为 P = \frac{1}{N}。则编码该信息所需的最小编码长度可以 […]