Python中关于pandas的有用的东西。
#1 可以使用apply()来把一个function apply到一列上
1
2
3
4
5
6
7
def ranking(x):
if x<5000:
return "low"
else:
return "high"
my_df["Rank"]=my_df['size'].apply(ranking)
#2 concat和merge
concat就是两个直接拼一起;merge则可以指定根据什么作为index来合并。拼了之后通常还会用reset_index来重置index从0开始顺序增加。
#3 yfinance
从雅虎财经API拿数据。
#4 实用的分析函数
.sum(),.describe(),.pct_change(1)*100
.value_counts()用来数分类数据很好用,比如自己写个function把收益率分类之后对类别那一列使用count
#5 可视化
matplot、seaborn和plotly。
Plotly Express基于plotly,便利一点。cufflinks提供了另外的便利工具。
官方notebook里面有一个plot_financial_data用来在同一个图里面画几组数据的function很好用,以后可以翻阅。
饼图需要先把数据做了分类之后,把分类那一列做.value_counts(),才能plot。可以看notebook来解决“如何释放index”的问题