kaztomo日記(10-20[長年日記])

2017/10/20

_ [Python]nested dictionary の Array を読み込むのは大変 (+_+)

ネストされた辞書型の要素を json_normalize で取得できることは解ったけど、それが複数行の配列になっている状態から DataFrame化したい。

配列(Series) を json_normalize で処理させようとするとエラー (>_<) 入力として受け付けてくれるのは辞書型だけで、辞書型の配列はダメみたいだ。

ググってみたところ、json_normalize -> DataFrame -> concat する手順を見つけた。

その例に沿って記述してみた。

dict = '{key1:{key2:VVV,key3:[1,2,3,4]}},
        {key1:{key2:WWW,key3:[5,6,7,8]}},
        {key1:{key2:XXX,key3:[9,10,11,12]}}'
new_df = pd.concat( [pd.DataFrame( json_normalize(json.loads(x)) ) for x in dict], ignore_index=True)
print(new_df)

出力結果

key1.key2   key1.key3
VVV         [1,2,3,4]
WWW         [5,6,7,8]
XXX         [9,10,11,12]

希望の結果は得られたけど、実際のデータは 63万行くらいあって、それを読み込むのに数十分かかった (>_<)

1行ずつ処理しているからなんだろうけど、単に DataFrame 化したいだけなんだから並列化とかして高速処理できないものだろうか。orz

参考にさせていただいたサイト：

Python: json_normalize a pandas series gives TypeError

[ツッコミを入れる]

2018/10/20

_ 今日の学び

アイデアが大事
すぐに使えるモノがあるなら、統一感にはこだわらず早く試してみる
ストーリーを練り、事前にシミュレーションする

[ツッコミを入れる]


		2017年 10月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

kaztomo日記

2017/10/20

2018/10/20

最近の日記

最近のツッコミ