[前][次][番号順一覧][スレッド一覧]

ruby-reference-manual:3762

From: "5.5 (5 5)" <redmine@r...>
Date: Wed, 19 Jun 2013 22:18:48 +0900
Subject: [ruby-reference-manual:3762] [るりまプロジェクト - Bug #4972] BOM 付き UTF-8 の CSV の扱い


Issue #4972 has been updated by 5.5 (5 5).


[ruby-list:49466] 「UTF-8 CSVファイルのBOMの処理について」のスレッドで書かれたとおり,読み込みオプションで "BOM|UTF-8" とやれば解決するわけですが,そのことが CSV のどこかに書いてあればいいと思います。
----------------------------------------
Bug #4972: BOM 付き UTF-8 の CSV の扱い
https://bugs.ruby-lang.org/issues/4972#change-40055

Author: 5.5 (5 5)
Status: Open
Priority: Low
Assignee: 
Category: doc
Target version: 
reporter: 
ruby_version: 


Ruby 1.8 と Ruby 1.9 とでは,csv ライブラリが UTF-8 の CSV ファイルを読み込むときにバイト順マークをどう扱うかが違っているので,それをどこかに書く必要があると思います。

Ruby 1.8 では,CSV の先頭のバイト列 EF BB BF(U+FEFF)は無視します(そういうコードになっている)。

一方,Ruby 1.9 ではこれを特別扱いしないため,第1行第1列の値の先頭に U+FEFF が付いた状態で読み込まれます。
また,たとえば空文字列だけからなる 1 行 1 列の BOM 付き CSV データを表す EF BB BF 22 22 というバイト列を読み込むと,同様の理由で Illegal quoting on line 1. という例外が発生します。
原因が見つけにくいエラーです。


-- 
http://bugs.ruby-lang.org/

--
ML: ruby-reference-manual@m...
Info: http://QuickML.com/

[前][次][番号順一覧][スレッド一覧]

      2752 2011-07-04 09:35 [redmine@r...        ] [るりまプロジェクト - Bug #4972][Open] BOM 付き UTF-8 の CSV の扱い
->    3762 2013-06-19 15:18 ┣[redmine@r...        ] [るりまプロジェクト - Bug #4972] BOM 付き UTF-8 の CSV の扱い
      3795 2013-09-02 11:09 ┗[redmine@r...        ] [るりまプロジェクト - Bug #4972][Closed] BOM 付き UTF-8 の CSV の扱い