数海钩沉

本笔记的主要内容是关于学习中可能用到的数学知识。之所以叫《数海钩沉》是为了致敬研一上过的一门关于逻辑学的课程的老师,在课上老师提起了一段关于数海钩沉的往事。数海钩沉,从词义上看便能看出写此笔记的本意,数学是现代科学的基础,为了做研究我们时时在这之间沉浮。在沉浮之间,愿各位都能在各自的领域中有所成就。

kappa系数

混淆矩阵简介

  混淆矩阵,也称误差矩阵,Confusion Matrix。是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。
  混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目:如下图,第一行第一列中的43表示有43个实际归属第一类的实例被预测为第一类,同理,第一行第二列的2表示有2个实际归属为第二类的实例被错误预测为第一类。

类1类2类3
类14320
类25451
类32349

  在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。

kappa系数

  Kappa系数用于一致性检验,也可以用于衡量分类精度,但kappa系数的计算是基于混淆矩阵的。
  kappa系数是一种衡量分类精度的指标。它是通过把所有地表真实分类中的像元总数(N)乘以混淆矩阵对角线(Xkk)的和,再减去某一类地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果,再除以总像元数的平方减去某一类地表真实像元总数与该类中被分类像元总数之积对所有类别求和的结果所得到的.

计算公式如下:

其中,$p_0$ 是每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度 。$p_e$为每一类预测分类数和实际分类数的乘积之和除以预测样本数的平方。
  以上面的混淆矩阵为例:

因此,$k=\frac{0.9133-0.3333}{1-0.3333}=0.8699$

结果判定

  kappa计算结果为-1~1,但通常kappa是落在 0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)、0.21~0.40一般的一致性(fair)、0.41~0.60 中等的一致性(moderate)、0.61~0.80 高度的一致性(substantial)和0.81~1几乎完全一致(almost perfect)。

To be continue…

感谢你的阅读!