owned mediaウェブ制作に役立つコンテンツを発信中!

データ分析や登録などで使用するCSVファイルを扱う時の注意点まとめ

先日、クライアント案件でCSVデータを使った作業がありました。普段CSVデータを触ることもあまりないので、いい機会だと思い気をつけておくべきポイントをまとめておきたいと思います。あらかじめ知っておくことで思わぬ作業時間のロスを防げそうですね。  
CSV形式について
CSVは「comma-separated values」の略で、半角コンマで区切られた値のことを指します。ファイルの拡張子は「.csv」でテキストエディタや表計算ソフトでも開くことができます。主に大量のデータを扱う際に、値をエクスポートする時のファイル形式でよく用いられるようです。例えばアクセスログや、ECサイトの商品データなどがあります。   実際のCSV形式のデータは下記のような形になります。値ごとにカンマで区切られているのがわかります。このようにCSV形式は大量のデータを扱う上でとても便利なものです。 【CSV】
No.,カテゴリ,商品名,金額,数量,入荷日,割引対象
0001,トップス,Tシャツ,1500,100,2019-05-01,0
0002,トップス,ブルゾン,5800,30,2019-05-01,0
0003,トップス,ロングコート,9800,10,2019-10-01,1
0004,ボトムス,ジーンズ,4800,50,2019-09-01,1
0005,アクセサリ,ニットキャップ,1800,50,2019-09-01,1
  CSVは、その名の通りカンマで値を区切る点以外にもいくつかの特徴があります。まず、レコード(行)ごとに改行される点です。そのためCSV内の値では改行が使えません。(文字列として扱う場合を除く)また、ExcelやNumbersなどの表計算ソフトで開くと、データがテーブル状に整理された状態で表示させることができます。 データ分析や登録などで使用するCSVファイルを扱う時の注意点まとめ ですので、CSVの編集にはこのような表計算ソフトを用いられることが多いようです。  
CSVデータを扱う上での注意点
ウェブ制作においては、一部の業務でしか取り扱わないのであまり触らないクリエイターも多いかと思います。そこでCSVデータを取り扱う上での注意点をまとめていきたいと思います。   1. 数値のゼロパディングが表計算ソフトで削除されてしまう エクセルなどの表計算ソフトでCSVデータを開いた場合、値にゼロパディング、もしくは0始まりの数値がある場合、自動的に削除されて異なる値になってしまいます。例えば通し番号や電話番号などがそのようなケースに当てはまります。 データ分析や登録などで使用するCSVファイルを扱う時の注意点まとめ   このような場合には下記のように文字列として値が入るような形にすることで、表計算ソフトでも同じように表示させることができます。 【CSV】
No.,カテゴリ,商品名,金額,数量,入荷日,割引対象
="0001",トップス,Tシャツ,1500,100,2019-05-01,0
="0002",トップス,ブルゾン,5800,30,2019-05-01,0
  この内容で実際に表計算ソフトで開いてみると確かに0が入った状態で表示されているのが確認できます。 データ分析や登録などで使用するCSVファイルを扱う時の注意点まとめ ただし、あくまで表計算ソフト側で同じ表示にするための一時的な対応で、本来の値とは異なるものになってしまうため、最終的には一括で置換する必要がありそうですが、、   2. 桁区切りのカンマを使うと値が変わってしまう CSVはカンマを区切りとして値を識別するため、例えば下記のように1000単位での桁を区切るカンマを値に入れた場合は情報自体も大きく変わってしまいます。 【CSV】※一部省略
商品名,金額
Tシャツ,1,500
ブルゾン,5,800
  表計算ソフトで開くと値が変わってしまってテーブルが崩れているのが確認できます。 データ分析や登録などで使用するCSVファイルを扱う時の注意点まとめ このような場合には値をダブルクォーテーションで囲んであげることで文字列としてカンマ区切りの値が使えるようになります。 【CSV】
No.,カテゴリ,商品名,金額,数量,入荷日,割引対象
0001,トップス,Tシャツ,"1,500",100,2019-05-01,0
0002,トップス,ブルゾン,"5,800",30,2019-05-01,0
  実際に表計算ソフトで開いてみると、カンマで区切られた値が入っていますね。 データ分析や登録などで使用するCSVファイルを扱う時の注意点まとめ   3. CSV内のデータが文字化けしてしまう CSVデータによっては開いた時に値が文字化けしているケースもあります。こういった時はテキストエディタなど文字コードを設定できるソフトなどでCSVファイルを開き、文字コードをUTF-8などに変換して保存することで文字化けを解消することができます。 データ分析や登録などで使用するCSVファイルを扱う時の注意点まとめ   上記の対応方法はMacの表計算ソフトのNumbersを使った条件下での検証を元にしています。お使いのソフトや環境によっては異なる結果になる可能性もありますので注意してください。  
  いかがでしょうか、今回はCSVデータを使う際の気をつけておくべきポイントをまとめてみました。アクセスログの解析や大量のデータ流し込み作業など、以外に使用する場面はあるのではないでしょうか。ぜひ覚えておきたいところですね。
  • はてなブックマーク
  • Pocket
  • Linkedin
  • Feedly

この記事を書いた人

Twitter

sponserd

    keyword search

    recent posts

    • Twitter
    • Github
    contact usscroll to top
      • Facebook
      • Twitter
      • Github
      • Instagram