首页 > 数据分析

python使用pandas抽样训练数据中某个类别实例

时间:2020-08-08 数据分析 查看: 938

废话真的一句也不想多说,直接看代码吧!

# -*- coding: utf-8 -*- 

import numpy 
from sklearn import metrics 
from sklearn.svm import LinearSVC 
from sklearn.naive_bayes import MultinomialNB 
from sklearn import linear_model 
from sklearn.datasets import load_iris 
from sklearn.cross_validation import train_test_split 
from sklearn.preprocessing import OneHotEncoder, StandardScaler 
from sklearn import cross_validation 
from sklearn import preprocessing 
import scipy as sp
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest ,chi2
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
#import iris_data 

'''
creativeID,userID,positionID,clickTime,conversionTime,connectionType,
telecomsOperator,appPlatform,sitesetID,positionType,age,gender,
education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label
'''


def test():
 df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",")
 df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID",
    "positionType","age","gender","education","marriageStatus",
    "haveBaby","hometown","residence","appCategory","label"]]
 print df1["label"].value_counts()
 N_data = df1[df1["label"]==0]
 P_data = df1[df1["label"]==1]
 N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0)
 #print df1.loc[:,"label"]==0
 print P_data.shape
 print N_data.shape

 data = pd.concat([N_data,P_data])
 print data.shape
 data = data.sample(frac=1).reset_index(drop=True) 
 print data[["label"]]
 return

补充拓展:pandas实现对dataframe抽样

随机抽样

import pandas as pd
#对dataframe随机抽取2000个样本
pd.sample(df, n=2000)

分层抽样

利用sklean中的函数灵活进行抽样

from sklearn.model_selection import train_test_split
#y是在X中的某一个属性列
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)

以上这篇python使用pandas抽样训练数据中某个类别实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持python博客。

展开全文
上一篇:Python编程快速上手——Excel到CSV的转换程序案例分析
下一篇:新手入门学习python Numpy基础操作
输入字:
相关知识
python数据挖掘使用Evidently创建机器学习模型仪表板

在本文中,我们将探索 Evidently 并创建交互式报告/仪表板。有需要的朋友欢迎大家收藏学习,希望能够有所帮助,祝大家多多进步早日升职加薪

Python多进程共享numpy 数组的方法

本文章主要介绍了Python多进程共享numpy 数组的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

python数据分析近年比特币价格涨幅趋势分布

这篇文章主要为大家介绍了python分析近年来比特币价格涨幅趋势的数据分布,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步

python调用matlab的方法详解

这篇文章主要为大家介绍了python调用matlab,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助