金融回归分析之(数据处理)

2024-10-16 19:45:12

1、加载pandas和urllib.request库中的urlretrieve包。从网站下载数据到本地。es_url和vs_url分别是从STOXX网站下载的2个数据的网址;urlretrieve表示直接将远程数据下载到本地的data目录下,分别命名为es.txt和vs.txt;如图所示

金融回归分析之(数据处理)

2、数据处理(删除空格)。lines=open('C:/Users/***/Documents/data/es.txt','r').readlines()表示读取文件到lines;lines=[line.replace(' ','') for line in lines]表示删除lines中的所有空格;lines[:6]表示展现lines的前6行数据;如图所示

金融回归分析之(数据处理)

4、数据处理(分号处理:添加辅助列)。new_file=open('C:/Users/***/Documents/data/es50.txt','w')表示将要写入的新文件;new_file.writelines('date'+lines[3][:-1]+';DEL'+lines[3][-1])表示将lines的最后一列用缺失值填充,字段名为'DEL';new_file.writelines(lines[4:])表示从lines的第5行往后的数据写入新文件;new_file.close()表示关闭新文件;new_lines=open('C:/Users/***/Documents/data/es50.txt','r').readlines()表示打开新文件;new_lines[:5]表示查看前5行数据;如图所示

金融回归分析之(数据处理)

6、数据处理(删除多余列:辅助列)。del es['DEL']表示删除多余的辅助列;es.info()表示删除后查看es的数据信息;如图所示

金融回归分析之(数据处理)

8、数据导入(另一个数据集)。vs=pd.read_csv('C:/Users/***/Documents/data/vs.txt',index_col=0,header=2, parse_dates=True,sep=',',dayfirst=True)表示读入数据集vs.txt,index_col=0表示使用第一列为索引,header=2表示标题行数量为2行,parse_dates=True表示解析索引例如日期,sep=','表示以逗号分隔,dayfirst=True表示使用欧洲惯用日期格式DD/MM;vs.info()表示查看vs的数据信息,如图所示

金融回归分析之(数据处理)
猜你喜欢