15。stalk-col:brown=n,buff=b,=c,gray=g,e=o,pie=w,yellow=y
&ype:partial=p,universal=u
17。veil-color:bre=o,=y
18。ring-number:
19。ring-type:cobwebby=est=e,flaring=f,large=l,=p,sheathing=s,zone=z
20。spore-print-color:bla=n,buff=b,chocolate=h,green=r,e=o,purple=u,=y
21。population:abundant=a,clustered=umerous=n,scattered=s,several=v,solitary=y
22。habitat:grasses=g,leaves=l,meado,urban=u,oods=d
首先使用pandas读取数据,这是一个强大的数据处理工具。通过显示数据形状可以看到共有8124行、24列。
In[5]:importpandasaspd
importnumpyasnp
In[6]:data=pd。read_exushroom。xlsx',header=0)
In[7]:data。shape
Out[7]:(8124,24)
使用如下命令观察前5行数据。
In[8]:data。head(5)
Out[8]:
样本编号标记属性1属性2属性3属性4属性5属性6属性7属性8。。。
属性13属性14属性15属性16属性17属性18
01。0pxsntpf。。。so
12。0exsytafcb。。。so
23。0ebswtlfcb。。。so
34。0pxywtpf。。。so
45。0exsgfnfo
属性19属性20属性21属性22
0pksu
1pnng
2pnnm
3pksu
4enag
[5rowsx24ns]
进行数据拆分,获得输入数据X和对应的类别标记Y,这个过程是为了准备训练数据。用以下代码获取类别标记。
Ia['标记']
#读取标记列
In[10]:label=np。array(label)
#转化成数组,这是Python最常使用的数据格式
In[11]:label。shape
Out[11]:(8124,)
#获得标记的个数。实际标记是8123个,需要剔除最后一个''标记
In[12]:label=label[0:-1]