kaztomo日記(2017-07-11)

2017/07/11

_ [Python]簡単ではあるけど HTML Table から配列化できた

数日前の日記：ここ数日進展がないで悪戦苦闘していた HTML Table からの抜き出しがようやく出来上がった。

例によってエッセンスだけ (^^;;

html = urlopen(urls).read()
soup = BeautifulSoup(html, "lxml")
bbody = soup.find_all(class_="blogbody")

# --------------------------------------------------
# Table を展開する
import numpy as np
import pandas as pd

raw_html="<html><body>"+str(bbody)+"</body></html>"
dta = pd.read_html(raw_html, header=0)[0]
t = pd.read_html(raw_html, header=0)[1]
a = t.as_matrix()

for xa in range(len(a)):
   for ya in range(len(a[xa])):
       if isinstance(a[xa][ya], unicode) and \
          (a[xa][ya] in u"◎○△" or a[xa][ya] in u"SSAA"):
           break
   else:
       continue

   print(", ".join([str(s).decode('utf-8') for s in a[xa][0:4]]))

結果：実力不足のため 3行目変だけど (^^; なんとか、注目の指標の時間が取得できた。

10:30, nan, 豪)NAB企業景況感指数, △

18:00, nan, 英)ホールデンMPC委員の発言, △

nan, 英)ブロードベントBOE副総裁の発言, △, 要人発言

21:15, nan, 加)住宅着工件数, △

25:30, nan, 米)ブレイナードFRB理事の発言, A

26:00, nan, 米)3年債入札 →過去発表時[ユーロドル][ドル円], A

参考にさせて頂いたサイト：

[ツッコミを入れる]


		2017年 7月
日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

kaztomo日記

2017/07/11

最近の日記

最近のツッコミ