コンテンツにスキップ

生データ

全体の検討事項

  • マッピングのマスタ化
  • 日付のUTC化

calving_data_normarize.py

入力フォルダ

raw-data/XXXXXX/breeding_leader_web

対象ファイル

calving_listを先頭に持つ複数ファイル

入力Excel(SJIS) -> 出力CSV(UTF8)

  • pandasでExcelファイルを読み込む
  • 行頭ヘッダの日本語を英語に変換(マッピングデータあり)
  • 空行をスキップ
  • 個体識別番号が3カラムに分割されているため結合
  • 分娩日はデータのYYYY-MM-DD 00:00:00として保存(JST)
  • calving.csvとして保存

dhi_data_normarize.py

入力フォルダ

raw-data/XXXXXXX/breeding_leader_web

対象ファイル

dhi_checkを先頭に持つ複数ファイル

入力Excel(SJIS) -> 出力CSV(UTF8)

  • pandasでExcelファイルを読み込む
  • 空行をスキップ
  • 行頭ヘッダの日本語を英語に変換(マッピングデータあり)
  • 分娩日と最終受精日はデータのYYYY-MM-DD 00:00:00として保存(JST)
  • ファイル名より年月を抽出
  • herd_testフォルダに年月日.csvとして保存

  • 産子性別がマルチバイト(死産、♂、♀)

breeding_data_normarize.py

入力フォルダ

raw-data/XXXXXXX/breeding_leader_web

対象ファイル

edit_chardataを先頭に持つ一つのファイル

  • pandasでExcelファイルを読み込む
  • 行頭ヘッダの日本語を英語に変換(マッピングデータあり)
  • 個体識別番号が3カラムに分割されているため結合
  • 分娩日はデータのYYYY-MM-DDとして保存(JST)
  • all_historical_individual.csvとして保存

  • 性別がマルチバイト(死産、♂、♀)

Info

ソースの注意事項 1ファイルのみが置いてある仕様になっている。複数ファイルの検討が必要か考える。

quicklist_data_normarize.py

入力フォルダ

raw-data/XXXXXXX/breeding_leader_web

対象ファイル

quicklistを先頭に持ち途中にikusei若しくはkeisanという文字列があるファイル
どちらもファイルは一つ

  • pandasでExcelファイルを読み込む
  • 行頭ヘッダの日本語を英語に変換(マッピングデータあり)
  • 個体識別番号が3カラムに分割されているため結合
  • ファイル名の途中の文字列に合わせてファイルを保存
    • ikuseiの場合は、quicklist_ikusei.csv
    • keisanの場合は、quiicklist_keisan.csv