csv — CSV File Reading and Writing¶
The so-called CSV (Comma Separated Values) format is the most common import and export format for spreadsheets and databases. CSV format was used for many years prior to attempts to describe the format in a standardized way in RFC 4180. The lack of a well-defined standard means that subtle differences often exist in the data produced and consumed by different applications. These differences can make it annoying to process CSV files from multiple sources. Still, while the delimiters and quoting characters vary, the overall format is similar enough that it is possible to write a single module which can efficiently manipulate such data, hiding the details of reading and writing the data from the programmer.
The csv module implements classes to read and write tabular data in CSV format. It allows programmers to say, “write this data in the format preferred by Excel,” or “read data from this file which was generated by Excel,” without knowing the precise details of the CSV format used by Excel. Programmers can also describe the CSV formats understood by other applications or define their own special-purpose CSV formats.
The csv module’s reader and writer objects read and write sequences. Programmers can also read and write data in dictionary form using the DictReader and DictWriter classes.
The Python Enhancement Proposal which proposed this addition to Python.
Module Contents¶
The csv module defines the following functions:
csv. reader ( csvfile , dialect = ‘excel’ , ** fmtparams ) ¶
Return a reader object which will iterate over lines in the given csvfile. csvfile can be any object which supports the iterator protocol and returns a string each time its __next__() method is called — file objects and list objects are both suitable. If csvfile is a file object, it should be opened with newline=» . 1 An optional dialect parameter can be given which is used to define a set of parameters specific to a particular CSV dialect. It may be an instance of a subclass of the Dialect class or one of the strings returned by the list_dialects() function. The other optional fmtparams keyword arguments can be given to override individual formatting parameters in the current dialect. For full details about the dialect and formatting parameters, see section Dialects and Formatting Parameters .
Each row read from the csv file is returned as a list of strings. No automatic data type conversion is performed unless the QUOTE_NONNUMERIC format option is specified (in which case unquoted fields are transformed into floats).
A short usage example:
Return a writer object responsible for converting the user’s data into delimited strings on the given file-like object. csvfile can be any object with a write() method. If csvfile is a file object, it should be opened with newline=» 1. An optional dialect parameter can be given which is used to define a set of parameters specific to a particular CSV dialect. It may be an instance of a subclass of the Dialect class or one of the strings returned by the list_dialects() function. The other optional fmtparams keyword arguments can be given to override individual formatting parameters in the current dialect. For full details about dialects and formatting parameters, see the Dialects and Formatting Parameters section. To make it as easy as possible to interface with modules which implement the DB API, the value None is written as the empty string. While this isn’t a reversible transformation, it makes it easier to dump SQL NULL data values to CSV files without preprocessing the data returned from a cursor.fetch* call. All other non-string data are stringified with str() before being written.
A short usage example:
Associate dialect with name. name must be a string. The dialect can be specified either by passing a sub-class of Dialect , or by fmtparams keyword arguments, or both, with keyword arguments overriding parameters of the dialect. For full details about dialects and formatting parameters, see section Dialects and Formatting Parameters .
csv. unregister_dialect ( name ) ¶
Delete the dialect associated with name from the dialect registry. An Error is raised if name is not a registered dialect name.
csv. get_dialect ( name ) ¶
Return the dialect associated with name. An Error is raised if name is not a registered dialect name. This function returns an immutable Dialect .
Return the names of all registered dialects.
csv. field_size_limit ( [ new_limit ] ) ¶
Returns the current maximum field size allowed by the parser. If new_limit is given, this becomes the new limit.
The csv module defines the following classes:
class csv. DictReader ( f , fieldnames = None , restkey = None , restval = None , dialect = ‘excel’ , * args , ** kwds ) ¶
Create an object that operates like a regular reader but maps the information in each row to a dict whose keys are given by the optional fieldnames parameter.
The fieldnames parameter is a sequence . If fieldnames is omitted, the values in the first row of file f will be used as the fieldnames. Regardless of how the fieldnames are determined, the dictionary preserves their original ordering.
If a row has more fields than fieldnames, the remaining data is put in a list and stored with the fieldname specified by restkey (which defaults to None ). If a non-blank row has fewer fields than fieldnames, the missing values are filled-in with the value of restval (which defaults to None ).
All other optional or keyword arguments are passed to the underlying reader instance.
Changed in version 3.6: Returned rows are now of type OrderedDict .
Changed in version 3.8: Returned rows are now of type dict .
A short usage example:
Create an object which operates like a regular writer but maps dictionaries onto output rows. The fieldnames parameter is a sequence of keys that identify the order in which values in the dictionary passed to the writerow() method are written to file f. The optional restval parameter specifies the value to be written if the dictionary is missing a key in fieldnames. If the dictionary passed to the writerow() method contains a key not found in fieldnames, the optional extrasaction parameter indicates what action to take. If it is set to ‘raise’ , the default value, a ValueError is raised. If it is set to ‘ignore’ , extra values in the dictionary are ignored. Any other optional or keyword arguments are passed to the underlying writer instance.
Note that unlike the DictReader class, the fieldnames parameter of the DictWriter class is not optional.
A short usage example:
The Dialect class is a container class whose attributes contain information for how to handle doublequotes, whitespace, delimiters, etc. Due to the lack of a strict CSV specification, different applications produce subtly different CSV data. Dialect instances define how reader and writer instances behave.
All available Dialect names are returned by list_dialects() , and they can be registered with specific reader and writer classes through their initializer ( __init__ ) functions like this:
The excel class defines the usual properties of an Excel-generated CSV file. It is registered with the dialect name ‘excel’ .
class csv. excel_tab ¶
The excel_tab class defines the usual properties of an Excel-generated TAB-delimited file. It is registered with the dialect name ‘excel-tab’ .
class csv. unix_dialect ¶
The unix_dialect class defines the usual properties of a CSV file generated on UNIX systems, i.e. using ‘\n’ as line terminator and quoting all fields. It is registered with the dialect name ‘unix’ .
New in version 3.2.
The Sniffer class is used to deduce the format of a CSV file.
The Sniffer class provides two methods:
sniff ( sample , delimiters = None ) ¶
Analyze the given sample and return a Dialect subclass reflecting the parameters found. If the optional delimiters parameter is given, it is interpreted as a string containing possible valid delimiter characters.
Analyze the sample text (presumed to be in CSV format) and return True if the first row appears to be a series of column headers. Inspecting each column, one of two key criteria will be considered to estimate if the sample contains a header:
-
the second through n-th rows contain numeric values
-
the second through n-th rows contain strings where at least one value’s length differs from that of the putative header of that column.
Twenty rows after the first row are sampled; if more than half of columns + rows meet the criteria, True is returned.
This method is a rough heuristic and may produce both false positives and negatives.
An example for Sniffer use:
The csv module defines the following constants:
Instructs writer objects to quote all fields.
Instructs writer objects to only quote those fields which contain special characters such as delimiter, quotechar or any of the characters in lineterminator.
Instructs writer objects to quote all non-numeric fields.
Instructs the reader to convert all non-quoted fields to type float.
Instructs writer objects to never quote fields. When the current delimiter occurs in output data it is preceded by the current escapechar character. If escapechar is not set, the writer will raise Error if any characters that require escaping are encountered.
Instructs reader to perform no special processing of quote characters.
The csv module defines the following exception:
exception csv. Error ¶
Raised by any of the functions when an error is detected.
Dialects and Formatting Parameters¶
To make it easier to specify the format of input and output records, specific formatting parameters are grouped together into dialects. A dialect is a subclass of the Dialect class having a set of specific methods and a single validate() method. When creating reader or writer objects, the programmer can specify a string or a subclass of the Dialect class as the dialect parameter. In addition to, or instead of, the dialect parameter, the programmer can also specify individual formatting parameters, which have the same names as the attributes defined below for the Dialect class.
Dialects support the following attributes:
A one-character string used to separate fields. It defaults to ‘,’ .
Controls how instances of quotechar appearing inside a field should themselves be quoted. When True , the character is doubled. When False , the escapechar is used as a prefix to the quotechar. It defaults to True .
On output, if doublequote is False and no escapechar is set, Error is raised if a quotechar is found in a field.
A one-character string used by the writer to escape the delimiter if quoting is set to QUOTE_NONE and the quotechar if doublequote is False . On reading, the escapechar removes any special meaning from the following character. It defaults to None , which disables escaping.
The string used to terminate lines produced by the writer . It defaults to ‘\r\n’ .
The reader is hard-coded to recognise either ‘\r’ or ‘\n’ as end-of-line, and ignores lineterminator. This behavior may change in the future.
A one-character string used to quote fields containing special characters, such as the delimiter or quotechar, or which contain new-line characters. It defaults to ‘"’ .
Controls when quotes should be generated by the writer and recognised by the reader. It can take on any of the QUOTE_* constants (see section Module Contents ) and defaults to QUOTE_MINIMAL .
When True , spaces immediately following the delimiter are ignored. The default is False .
When True , raise exception Error on bad CSV input. The default is False .
Reader Objects¶
Reader objects ( DictReader instances and objects returned by the reader() function) have the following public methods:
Return the next row of the reader’s iterable object as a list (if the object was returned from reader() ) or a dict (if it is a DictReader instance), parsed according to the current Dialect . Usually you should call this as next(reader) .
Reader objects have the following public attributes:
A read-only description of the dialect in use by the parser.
The number of lines read from the source iterator. This is not the same as the number of records returned, as records can span multiple lines.
DictReader objects have the following public attribute:
If not passed as a parameter when creating the object, this attribute is initialized upon first access or when the first record is read from the file.
Writer Objects¶
Writer objects ( DictWriter instances and objects returned by the writer() function) have the following public methods. A row must be an iterable of strings or numbers for Writer objects and a dictionary mapping fieldnames to strings or numbers (by passing them through str() first) for DictWriter objects. Note that complex numbers are written out surrounded by parens. This may cause some problems for other programs which read CSV files (assuming they support complex numbers at all).
csvwriter. writerow ( row ) ¶
Write the row parameter to the writer’s file object, formatted according to the current Dialect . Return the return value of the call to the write method of the underlying file object.
Changed in version 3.5: Added support of arbitrary iterables.
Write all elements in rows (an iterable of row objects as described above) to the writer’s file object, formatted according to the current dialect.
Writer objects have the following public attribute:
A read-only description of the dialect in use by the writer.
DictWriter objects have the following public method:
Write a row with the field names (as specified in the constructor) to the writer’s file object, formatted according to the current dialect. Return the return value of the csvwriter.writerow() call used internally.
New in version 3.2.
Changed in version 3.8: writeheader() now also returns the value returned by the csvwriter.writerow() method it uses internally.
Examples¶
The simplest example of reading a CSV file:
Reading a file with an alternate format:
The corresponding simplest possible writing example is:
Since open() is used to open a CSV file for reading, the file will by default be decoded into unicode using the system default encoding (see locale.getpreferredencoding() ). To decode a file using a different encoding, use the encoding argument of open:
The same applies to writing in something other than the system default encoding: specify the encoding argument when opening the output file.
Registering a new dialect:
A slightly more advanced use of the reader — catching and reporting errors:
And while the module doesn’t directly support parsing strings, it can easily be done:
If newline=» is not specified, newlines embedded inside quoted fields will not be interpreted correctly, and on platforms that use \r\n linendings on write an extra \r will be added. It should always be safe to specify newline=» , since the csv module does its own ( universal ) newline handling.
Работа с CSV в Python
При решении различных задач на языке программирования Python, программистам приходится часто сталкиваться с задачей обработки больших массивов данных. На уровне встроенного языка, Python содержит встроенную библиотеку для работы с CSV файлами, с помощью которой программисты могут без особого труда работать с файлами электронных таблиц CSV.
Файлы CSV
Файл CSV (значения, разделённые запятыми) является по сути текстовым файлам, данные в котором разделены с помощью специального разделителя. В качестве разделителя обычно используется запятая или символ «;», но могут использоваться и другие разделители. Каждая новая запись в файле CSV начинается с новой строки.
Формат файлов CSV можно легко экспортировать в электронные таблицы или базы данных.
Пример CSV файла, где разделителем используется «;»:
Исходя из примера приведенного ниже, в первой строке указывается заголовок информации, которая буден находится к каждом столбце. В конце каждой строки с данными, после последнего элемента разделитель, в данном случае это запятая, не ставится, и интерпретатор определяет конец строки по символу переноса.
Разделителем может выступать любой другой символ, поэтому очень важно при чтении CSV файла заранее знать какой символ используется в качестве разделителя. Файл CSV – это по сути обычный текстовый файл, который не поддерживает символы в кодировках, отличающихся от ASCII или Unicode.
Библиотека CSV
Эта библиотека является встроенной, и её не нужно дополнительно скачивать через систему управления пакетами pip. Эта библиотека является основной для работы с файлами CSV в Python. Она импортируется как обычные встроенные библиотеки:
Чтение и парсинг файлов
Чтобы прочитать файл csv, необходимо создать объект reader :
Объект reader имеет метод __next__() , и является итерируемым объектом.
Чтение файла будет происходить так:
Допустим, у нас есть CSV файл, который содержит следующую информацию:
Если запустить данный код в интерпретаторе, то получим следующее:
Конструкция with…as используется для того, чтобы быть уверенным, что файл будет корректно закрыт в случае если при выполнении программного кода произойдет непредвиденная ошибка.
Стоит уделить внимание на то, что если перед чтением файла принудительно не установить правильную кодировку, в которой ранее файл был сохранен в нашем случае «UTF-8», то будет использоваться кодировка, определенная по умолчанию. Для windows это cp1251.
Встроенная библиотека работы с CSV позволяет использовать словари для работы с файлами. Для этого необходимо создать объект DictReader . С его помощью обращаться к элементам можно будет по имени столбцов, а не с помощью индексов. Исправим исходную программу с учетом этого:
Обращение к элементам по названию упрощает понимание кода, к тому же так более удобно.
При использовании DictReader в первой строке цикла будет содержаться не заголовок таблицы, а первая строка с данными. Поэтому для вывода заголовка используется условие i==0 .
Дополнительные параметры объекта DictReader
DictReader имеет параметры:
- fieldnames – Определяет заголовки для столбцов;
- dialect – Параметры для форматирования информации. Ниже будут описаны подробности;
- line_num – Устанавливает лимит на количество строк, которое может быть прочитано.
Например, если бы файл file.csv не содержал первую строку с заголовками, то можно было бы его открыть следующим образом:
Если не определить атрибут, то в него запишутся элементы из первой прочитанной строки файла. Заголовки можно и не задавать, но файл содержащий заголовки будет более понятен.
Запись в CSV
Для записи информации с CSV файл нужно использовать специальный объект writer .
Запись новой строки в файл осуществляется с помощью метода writerow() . Этот метод имеет следующий синтаксис:
Пример программы с использованием метода writerow() :
В данном примере в качестве разделителей значений используется «;». Для разделения строк таблицы по умолчанию это параметр lineterminator со значением \r\n . В нашем примере мы использовали просто \r
После выполнения этого фрагмента кода, в файл CSV будет записаны следующие данные:
В метод writerow() необходимо передавать список, который в последствии будет записан в файл через симол-разделитель.
Запись в файл также может быть осуществлена с помощью объекта DictWriter .
Метод DictWriter требует строгого указания параметра fieldnames . В качестве данных для записи используется словарь.
Пример программы выглядит так:
Результат, который будет записан в файл будет следующим:
В примере приведенном выше, использовался метод
writeheader() . Этот метод записывает заголовки для столбцов. Заголовки должны быть переданы объекту writer в виде списка по аналогии с атрибутом fieldnames .
Объект DictWriter также имеет еще один замечательный метод:
- writerows(rows) – Записывает все элементы строк.
Ниже приведен листинг кода использующий этот метод. Рассмотрим пример кода с использованием метода writerows :
Объект writer имеет атрибут dialect , который определяет, как будут отформатированы данные при записи в файл.
Диалекты
Форматы входных и выходных данных могут быть сгруппированы в диалекты (dialect). При создании объектов reader или writer можно назначить нужный диалект, также можно переопределить диалект вручную, указав их при создании объекта.
Работа с файлами в формате CSV#
CSV (comma-separated value) — это формат представления табличных данных (например, это могут быть данные из таблицы или данные из БД).
В этом формате каждая строка файла — это строка таблицы. Несмотря на название формата, разделителем может быть не только запятая.
И хотя у форматов с другим разделителем может быть и собственное название, например, TSV (tab separated values), тем не менее, под форматом CSV понимают, как правило, любые разделители.
Пример файла в формате CSV (sw_data.csv):
В стандартной библиотеке Python есть модуль csv, который позволяет работать с файлами в CSV формате.
Чтение#
Пример чтения файла в формате CSV (файл csv_read.py):
Вывод будет таким:
В первом списке находятся названия столбцов, а в остальных соответствующие значения.
Обратите внимание, что сам csv.reader возвращает итератор:
При необходимости его можно превратить в список таким образом:
Чаще всего заголовки столбцов удобней получить отдельным объектом. Это можно сделать таким образом (файл csv_read_headers.py):
Иногда в результате обработки гораздо удобней получить словари, в которых ключи — это названия столбцов, а значения — значения столбцов.
Для этого в модуле есть DictReader (файл csv_read_dict.py):
Вывод будет таким:
До Python 3.8 возвращался отдельный тип упорядоченные словари (OrderedDict).
Запись#
Аналогичным образом с помощью модуля csv можно и записать файл в формате CSV (файл csv_write.py):
В примере выше строки из списка сначала записываются в файл, а затем содержимое файла выводится на стандартный поток вывода.
Вывод будет таким:
Обратите внимание на интересную особенность: строки в последнем столбце взяты в кавычки, а остальные значения — нет.
Так получилось из-за того, что во всех строках последнего столбца есть запятая. И кавычки указывают на то, что именно является целой строкой. Когда запятая находится в кавычках, модуль csv не воспринимает её как разделитель.
Иногда лучше, чтобы все строки были в кавычках. Конечно, в данном случае достаточно простой пример, но когда в строках больше значений, то кавычки позволяют указать, где начинается и заканчивается значение.
Модуль csv позволяет управлять этим. Для того, чтобы все строки записывались в CSV-файл с кавычками, надо изменить скрипт таким образом (файл csv_write_quoting.py):
Теперь вывод будет таким:
Теперь все значения с кавычками. И поскольку номер модели задан как строка в изначальном списке, тут он тоже в кавычках.
Кроме метода writerow, поддерживается метод writerows. Ему можно передать любой итерируемый объект.
Например, предыдущий пример можно записать таким образом (файл csv_writerows.py):
DictWriter#
С помощью DictWriter можно записать словари в формат CSV.
В целом DictWriter работает так же, как writer, но так как словари не упорядочены, надо указывать явно в каком порядке будут идти столбцы в файле. Для этого используется параметр fieldnames (файл csv_write_dict.py):
Указание разделителя#
Иногда в качестве разделителя используются другие значения. В таком случае должна быть возможность подсказать модулю, какой именно разделитель использовать.