トップ «前の日記(2017/07/07) 最新 次の日記(2017/07/13)» 編集

kaztomo日記


2017/07/11

_ [Python]簡単ではあるけど HTML Table から配列化できた

数日前の日記:ここ数日進展がない で悪戦苦闘していた HTML Table からの抜き出しがようやく出来上がった。

例によってエッセンスだけ (^^;;

html = urlopen(urls).read()
soup = BeautifulSoup(html, "lxml")
bbody = soup.find_all(class_="blogbody")

# --------------------------------------------------
# Table を展開する
import numpy as np
import pandas as pd

raw_html="<html><body>"+str(bbody)+"</body></html>"
dta = pd.read_html(raw_html, header=0)[0]
t = pd.read_html(raw_html, header=0)[1]
a = t.as_matrix()

for xa in range(len(a)):
   for ya in range(len(a[xa])):
       if isinstance(a[xa][ya], unicode) and \
          (a[xa][ya] in u"◎○△" or a[xa][ya] in u"SSAA"):
           break
   else:
       continue

   print(", ".join([str(s).decode('utf-8') for s in a[xa][0:4]]))

結果:実力不足のため 3行目変だけど (^^; なんとか、注目の指標の時間が取得できた。

10:30, nan, 豪)NAB企業景況感指数, △

18:00, nan, 英)ホールデンMPC委員の発言, △

nan, 英)ブロードベントBOE副総裁の発言, △, 要人発言

21:15, nan, 加)住宅着工件数, △

25:30, nan, 米)ブレイナードFRB理事の発言, A

26:00, nan, 米)3年債入札 →過去発表時[ユーロドル][ドル円], A


参考にさせて頂いたサイト: