Keras二分类模型预测单一类别问题分析与解决策略

聖光之護
发布: 2025-11-21 13:30:39
原创
656人浏览过

Keras二分类模型预测单一类别问题分析与解决策略

本文旨在解决keras二分类模型在平衡数据集上始终预测单一类别的问题。文章深入分析了数据中可能缺乏底层相关性、特征复杂性以及模型选择不当等潜在原因。我们提供了一套全面的解决策略,包括强化探索性数据分析(eda)、优先尝试传统统计模型以验证特征有效性、精细化特征工程,以及在数据理解基础上优化深度学习模型的实用建议,旨在帮助开发者构建更鲁棒、准确的分类器。

当Keras构建的二分类模型在训练后始终预测单一类别时,这是一个常见的、令人困扰的问题,即使数据集本身是平衡的。这种现象表明模型未能从数据中学习到有效的区分模式,而是采取了最保守的策略——总是输出训练集中损失最小的那个类别。

问题复现与初步分析

开发者遇到的问题是,一个用于预测“销售额”(sales)的Keras神经网络模型,在经过训练后,其混淆矩阵显示所有预测都集中在“Negative”(或类别0)上,即True Positives (TP) 和 False Positives (FP) 均为零。这意味着模型完全无法识别正类别。

开发者采取了以下典型步骤:

  1. 数据准备:

    Tellers AI
    Tellers AI

    Tellers是一款自动视频编辑工具,可以将文本、文章或故事转换为视频。

    Tellers AI 78
    查看详情 Tellers AI
    • 将sales列二值化(False或True),并使用LabelEncoder对类别和布尔类型特征进行编码
    • accessed_date时间戳转换为浮点数。
    • 分离特征(X)和目标(Y),并对X进行Normalizer标准化处理。
      import numpy as np
      import pandas as pd
      from sklearn.preprocessing import LabelEncoder, Normalizer
      from sklearn.model_selection import train_test_split
      import tensorflow as tf
      from tensorflow.keras.models import Sequential
      from tensorflow.keras.layers import Dense, Dropout
      from tensorflow.keras.initializers import he_normal
      登录后复制

    假设 purchase_data 已加载

    data = purchase_data.copy() labelencoder = LabelEncoder() target_sum = 120 data.loc[data['sales'] <= target_sum, 'sales'] = False data.loc[data['sales'] > target_sum, 'sales'] = True

    编码类别和布尔特征

    for col in data.columns.values.tolist(): if data[col].dtype == "object" or data[col].dtype == "bool": data[col] = labelencoder.fit_transform(data[col])

    转换日期时间

    data['accessed_date'] = data['accessed_date'].apply(lambda x: x.timestamp())

    分离特征和目标

    array = data.values class_column = 'sales' X = np.delete(array, data.columns.get_loc(class_column), axis=1) Y = array[:,data.columns.get_loc(class_column)] Y = Y[:, np.newaxis] # 调整Y的形状以适应Keras

    标准化输入特征

    scaler = Normalizer().fit(X) X = scaler.transform(X)

    登录后复制
  2. 数据集划分:

    • 使用train_test_split将数据划分为训练集和测试集,并设置stratify=Y以确保训练集和测试集中的类别分布与原始数据保持一致。
      seed = 1
      X_train, X_test, Y_train, Y_
      登录后复制

以上就是Keras二分类模型预测单一类别问题分析与解决策略的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号