大家好,很高兴再次与大家见面,我是你们的朋友全栈君。
在传统的机器学习问题中,我们通常假设训练集和测试集的分布是相似的,在训练集上训练的模型可以直接在测试集上进行测试。然而,在实际应用中,测试场景往往无法控制,导致测试集和训练集的分布存在显著差异,进而引发所谓的过拟合问题:模型在测试集上的表现不尽如人意。以人脸识别为例,如果使用东方人的面部数据进行训练,然后用于识别西方人的面部,识别性能相对于东方人会明显下降。当训练集和测试集的分布不一致时,根据经验误差最小化原则在训练数据上训练的模型在测试时的表现会不佳,因此出现了迁移学习技术。
领域自适应(Domain Adaptation)是迁移学习中的一种典型方法,它利用信息丰富的源域样本来提升目标域模型的性能。在领域自适应中,有两个关键概念:源域(source domain)指的是与测试样本不同的领域,但拥有丰富的监督信息;目标域(target domain)指的是测试样本所在的领域,可能没有标签或只有少量标签。源域和目标域通常属于同一类任务,但分布不同。根据目标域和源域的不同类型,领域自适应问题可以分为四种不同的场景:无监督的、有监督的、异构分布和多个源域问题。通过在不同阶段进行领域自适应,研究者提出了三种不同的领域自适应方法:1)样本自适应,通过对源域样本进行加权重采样,逼近目标域的分布。2)特征层面自适应,将源域和目标域投影到公共特征子空间。3)模型层面自适应,通过修改源域的误差函数,考虑目标域的误差。
样本自适应的基本思想是对源域样本进行重采样,使得重采样后的源域样本与目标域样本的分布基本一致,然后在重采样的样本集合上重新学习分类器。
样本迁移(Instance based TL)在源域中寻找与目标域相似的数据,调整这些数据的权重,使其与目标域的数据匹配,然后增加这些样本的权重,使其在预测目标域时的影响加大。优点是方法简单,易于实现。缺点是权重的选择和相似度的度量依赖于经验,且源域与目标域的数据分布往往不同。

特征自适应的基本思想是学习公共的特征表示,在公共特征空间中,源域和目标域的分布应尽可能相同。
特征迁移(Feature based TL)假设源域和目标域存在一些共同的交叉特征,通过特征变换,将源域和目标域的特征变换到相同的空间,使得在该空间中源域数据与目标域数据具有相同的数据分布,然后进行传统的机器学习。优点是对大多数方法适用,效果较好。缺点是难于求解,容易发生过适配。链接:https://www.php.cn/link/f93899894f2c43279dc0013b9ad2849d

模型自适应的基本思想是在模型层面直接进行自适应。模型自适应的方法有两种思路,一是直接建模模型,但在模型中加入“domain间距离近”的约束,二是采用迭代的方法,逐步对目标域的样本进行分类,将信度高的样本加入训练集,并更新模型。
模型迁移(Parameter based TL)假设源域和目标域共享模型参数,是指将之前在源域中通过大量数据训练好的模型应用到目标域上进行预测。例如,利用上千万的图像来训练一个图像识别系统,当遇到一个新的图像领域问题时,就不需要再收集几千万个图像来训练,只需将原有的训练好的模型迁移到新的领域,在新的领域往往只需几万张图片就足够了,同样可以获得很高的精度。优点是可以充分利用模型之间存在的相似性。缺点是模型参数不易收敛。

注:博众家之所长,集群英之荟萃。发布者:全栈程序员栈长,转载请注明出处:https://www.php.cn/link/c396792b21918eff5479ce2440f63d84
以上就是迁移学习——Domain Adaptation的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号