2017/07/11
_ [Python]簡単ではあるけど HTML Table から配列化できた
数日前の日記:ここ数日進展がない で悪戦苦闘していた HTML Table からの抜き出しがようやく出来上がった。
例によってエッセンスだけ (^^;;
html = urlopen(urls).read()
soup = BeautifulSoup(html, "lxml")
bbody = soup.find_all(class_="blogbody")
# --------------------------------------------------
# Table を展開する
import numpy as np
import pandas as pd
raw_html="<html><body>"+str(bbody)+"</body></html>"
dta = pd.read_html(raw_html, header=0)[0]
t = pd.read_html(raw_html, header=0)[1]
a = t.as_matrix()
for xa in range(len(a)):
for ya in range(len(a[xa])):
if isinstance(a[xa][ya], unicode) and \
(a[xa][ya] in u"◎○△" or a[xa][ya] in u"SSAA"):
break
else:
continue
print(", ".join([str(s).decode('utf-8') for s in a[xa][0:4]]))
結果:実力不足のため 3行目変だけど (^^; なんとか、注目の指標の時間が取得できた。
10:30, nan, 豪)NAB企業景況感指数, △
18:00, nan, 英)ホールデンMPC委員の発言, △
nan, 英)ブロードベントBOE副総裁の発言, △, 要人発言
21:15, nan, 加)住宅着工件数, △
25:30, nan, 米)ブレイナードFRB理事の発言, A
26:00, nan, 米)3年債入札 →過去発表時[ユーロドル][ドル円], A
参考にさせて頂いたサイト:
[ツッコミを入れる]