twitterのデータをダウンロードしてpandasで読み込みたい
ツイート履歴をpandasで扱いたい
以前はcsv形式でツイートデータがダウンロードできていましたが、今はjsファイル等で提供されています。(2020年5月11日現在)
pd.read_json
で読み込むだけではネストされた内容がひと塊りになってしまうので、一工夫する必要がありました。
なお以下のコードでも、まだ一部ネストされたままデータフレームに読み込まれますが、その辺は自力で何とかしてください。
前処理
tweet.jsファイルを開き、冒頭のwindow.YTD.tweet.part0 = [
という部分とファイル最下部の]
を消しておきます。
コード
import pandas as pd from pandas.io.json import json_normalize tweet_data = pd.read_json('/tweet.js') df = json_normalize(tweet_data.to_dict('records')) df.head()
GitHubにnotebookを置いておきます。