Skip to content
June 29, 2011 / olaf

Python cx_Oracle en unicode

Ik ben een bestaand Python (2.6) script aan het aanpassen. Het script leest bestanden vanuit XML
in (gebruikt wordt minidom) en schrijft resultaat naar een PostGIS database.

Het gaat om het inlezen van de BAG extracten: https://github.com/MinIenM/BAG-Extract

Ik heb inmiddels de PG code vervangen door Oracle code, maar het hele process is bij grote bestanden
heeeeeeel erg traag. De continue afweging is ook of ik het script ga verbouwen of niet.

Inmiddels zijn er ook alternatieven: https://github.com/opengeogroep/BAG-Extract

Het leuke is dat ik gelijk Python een beetje leer kennen. Als IDE ben ik maar begonnen met
PyScripter. Deze werkt aardig.

Belangrijker zijn de eigenaardigheden die ik met ascii/unicode/coderen/decoderen etc ben tegengekomen
zoals:
‘ascii’ codec can’t decode byte 0xfa in position 89: ordinal not in range(128)

In python is alles unicode dus.

Uitleg unicode vanuit een python 2 perspectief: http://docs.python.org/howto/unicode.html

Meer daarover, met v3 https://github.com/kumar303/unicode-in-python
Voorbeeld http://wiki.python.org/moin/UnicodeDecodeError

Wat iedere programmeur zou moeten weten over character sets codepages, encodings etc: http://www.joelonsoftware.com/articles/Unicode.html

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: