# NumPy

[NumPy](https://numpy.org) (oder Numpy) ist eine lineare Algebra-Bibliothek für Python. Sehr wichtig, da fast alle Bibliotheken im PyData-Ökosystem auf NumPy als einen ihrer Hauptbausteine vertrauen.

Numpy ist außerdem unglaublich schnell, da es Bindungen an C-Bibliotheken hat. 
**Warum Numpy anstelle von Python-Arrays -> gerne [selbst recherchieren](https://stackoverflow.com/questions/993984/what-are-the-advantages-of-numpy-over-regular-python-lists)! ;)**

Hier nur eine Einführung in die Grundlagen von Numpy.
    - Schritt Nr. 1 -> Installieren

**via poetry**: ```poetry add numpy```

**direkt via pip**: ```pip install numpy```

## Verwendung von Numpy

Numpy muss zuerst importiert werden! Typischerweise importieren wir NumPy als **np**

In [1]:
import numpy as np

Numpy ist sehr mächtig. Wir werden hier allerdings nur die für uns wichtigen Konzepte behandeln:
    - Vektoren
    - Arrays
    - Matrizen
    - Zufallszahlengenerierung
    
**Numpy Arrays sind für uns am wichtigsten.**
Numpy Arrays gibt es im Wesentlichen in zwei Varianten: **Vektoren und Matrizen.**
Vektoren sind eindimensionale Arrays und Matrizen sind zweidimensionale Arrays (eine Matrix kann dennoch immer noch nur eine Zeile oder eine Spalte haben!).

#### Numpy Arrays erstellen

Wir könnne eine Python-Liste nehmen und sie in ein Numpy Array umwandeln.

In [2]:
liste = [1,2,3,4,5]

In [3]:
liste

[1, 2, 3, 4, 5]

In [4]:
np.array(liste)

array([1, 2, 3, 4, 5])

In [5]:
matrix = [[1,2,3],[4,5,6],[7,8,9]]
matrix

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [6]:
np.array(matrix)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

**Es gibt viele verschiedene Möglichkeiten ein Array automatisch erstellen zu lassen mit bereits vorhandenen Methoden in Numpy!**

#### arange

Liefert gleichmäßig verteilte Werte (d.h. Stützstellen) innerhalb eines bestimmten **halboffenen** Intervalls **[start, stop)** mit einem in **steps** bestimmten Abstand und folgt dabei der Syntax: np.arrange(start, stop, steps)

Achtung in Matlab und R: abgeschlossenes Intervall

In [7]:
np.arange(0,10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [8]:
np.arange(2,11,2)

array([ 2,  4,  6,  8, 10])

#### zeros and ones

Erzeugt Arrays von Nullen oder Einsen!

In [9]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [10]:
np.zeros((5,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [11]:
np.ones(3)

array([1., 1., 1.])

In [12]:
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

#### linspace

Liefert gleichmäßig verteilte Zahlen (d.h. äquidistante Stützstellen) über ein bestimmtes Intervall. `linspace` legt den Fokus auf die Anzahl der Stützstellen, `arange` dahingegen auf die Abstände.

In [13]:
np.linspace(0,10,10)

array([ 0.        ,  1.11111111,  2.22222222,  3.33333333,  4.44444444,
        5.55555556,  6.66666667,  7.77777778,  8.88888889, 10.        ])

#### eye
Erstellt eine Identitätsmatrix mit 1 auf der Diagonalen und 0 sonst.

In [14]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

## Effizienz von numpy

code von [yandexdataschool/Practical_RL](https://github.com/yandexdataschool/Practical_RL)

In [15]:
%%time
# ^-- misst und printed die Berechnungszeit einer Zelle

# Option I: pure Python
arr_1 = range(1000000)
arr_2 = range(99, 1000099)


a_sum = []
a_prod = []
sqrt_a1 = []
for i in range(len(arr_1)):
    a_sum.append(arr_1[i]+arr_2[i])
    a_prod.append(arr_1[i]*arr_2[i])
    a_sum.append(arr_1[i]**0.5)

arr_1_sum = sum(arr_1)

CPU times: user 971 ms, sys: 52.4 ms, total: 1.02 s
Wall time: 1.03 s


In [16]:
%%time

# Option II: starte mit Python, konvertiere zu Numpy
arr_1 = range(1000000)
arr_2 = range(99, 1000099)

arr_1, arr_2 = np.array(arr_1), np.array(arr_2)


a_sum = arr_1 + arr_2
a_prod = arr_1 * arr_2
sqrt_a1 = arr_1 ** .5
arr_1_sum = arr_1.sum()

CPU times: user 331 ms, sys: 78.4 ms, total: 409 ms
Wall time: 408 ms


In [17]:
%%time

# Option III: pure numpy
arr_1 = np.arange(1000000)
arr_2 = np.arange(99, 1000099)

a_sum = arr_1 + arr_2
a_prod = arr_1 * arr_2
sqrt_a1 = arr_1 ** .5
arr_1_sum = arr_1.sum()

CPU times: user 33.5 ms, sys: 3.73 ms, total: 37.2 ms
Wall time: 35.8 ms


### Random
Numpy bietet viele verschiedene Möglichkeiten ein Array mit Zufallszahlen zu erzeugen. Es handelt sich dabei im **Pseudozufallszahlen**, die von einem [Zufallszahlengenerator](https://numpy.org/doc/stable/reference/random/generator.html#numpy.random.Generator) ```np.random.default_rng``` erzeugt werden. 

#### random

Erstellt ein Array der gegebenen Form und füllet es mit Stichproben aus einer gleichmäßigen Verteilung über[0, 1).

In [18]:
rng = np.random.default_rng()
rng.random(2)

array([0.29633431, 0.98090167])

In [19]:
rng.random((3,5))

array([[0.37414096, 0.57164302, 0.024709  , 0.80713645, 0.51320159],
       [0.09801051, 0.04820163, 0.43379295, 0.56678619, 0.6076202 ],
       [0.8155117 , 0.26918227, 0.62115314, 0.17322595, 0.60776155]])

#### randn

Stichprobe von der Normalverteilung

In [20]:
rng.normal(2)

1.4151861527138894

In [21]:
rng.normal(loc=10, scale=2, size=5)

array([10.82929214,  9.55806322, 11.83256541,  9.620219  , 10.3918097 ])

#### randint
Liefert zufällige Ganzzahlen von niedrig (inklusive) bis hoch (exklusiv).

In [22]:
rng.integers(1,100)

97

In [23]:
rng.integers(low=1, high=100, size=10)

array([56, 13,  1, 44,  7, 76, 83, 82, 95, 94])

Weitere Verteilungsbeispiele
* beta(a, b, size)
* binomial(n, p, size)
* chisquare(degree_of_freedom, size)
* poisson(lamda, size)

### Array Attribute und Methoden

In [24]:
arr = np.arange(25)
ranarr = rng.integers(0,50,10)

In [25]:
arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [26]:
ranarr

array([41, 16, 42, 47,  9,  0, 24, 32,  5, 10])

#### Reshape
Ändert die Form eines Arrays

numpy.reshape(a, newshape, order='C')
* **a**: array to be reshabed
* **newshape**: int (then 1-D array) or tuple of integers; eindimensional kann durch -1 erreicht werden
* **order**: 
    * **'C'** letzter Index wechselst am schnellsten bis zum ersten Index wechselt am langsamsten
    * **'F'** erster Index wechselt am schnelslten bis zum letzten Index wechselt am langsamsten

In [27]:
arr.reshape(5,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

#### max, min, argmax, argmin
Dies sind nützliche Methoden zum Auffinden von Maximal- oder Minimalwerten. Oder um ihre Indexpositionen mit argmin oder argmax zu finden.

In [28]:
ranarr.max()

47

In [29]:
ranarr.argmax()

3

In [30]:
ranarr.min()

0

In [31]:
ranarr.argmin()

5

#### Form (Shape)
Die Form ist ein Attribut oder Eigenschaft eines Arrays und gibt als Tuple die Dimensionen zurück

In [32]:
arr.shape

(25,)

In [33]:
arr.reshape(1,25)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15,
        16, 17, 18, 19, 20, 21, 22, 23, 24]])

In [34]:
arr.reshape(1,25).shape

(1, 25)

In [35]:
arr.reshape(25,1)

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11],
       [12],
       [13],
       [14],
       [15],
       [16],
       [17],
       [18],
       [19],
       [20],
       [21],
       [22],
       [23],
       [24]])

In [36]:
arr.reshape(25,1).shape

(25, 1)

In [37]:
# Als Vektor
arr.reshape(-1)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24])

In [38]:
arr.reshape(-1).shape

(25,)

#### dtype
Gibt an welcher Datentyp sich im Array befindet

In [39]:
arr.dtype

dtype('int64')

## NumPy Indexing und Selection

In [40]:
arr[4]

4

In [41]:
arr[1:5]

array([1, 2, 3, 4])

### Broadcasting
Numpy Arrays unterscheiden sich von einer normalen Python-Liste durch ihre Fähigkeit zum "broadcasten". Dabei wird das kleinere Array entlang des größeren "gebroadcasted", sodass die Arraygrößen passend sind.

In [42]:
arr[0:6]=100

In [43]:
arr

array([100, 100, 100, 100, 100, 100,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24])

In [44]:
# Neu initialisieren um den Effekt zu veranschaulichen
arr = np.arange(0,11)

arr

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [45]:
slice_of_arr = arr[0:6]
slice_of_arr

array([0, 1, 2, 3, 4, 5])

In [46]:
#Ausschnitt ändern
slice_of_arr[:]=66

slice_of_arr

array([66, 66, 66, 66, 66, 66])

**Änderung auch in dem Orginal Array zu erkennen -> Numpy macht keine Kopien sondern arbeitet an dem Original (Vermeidung von Speicher-Problemen)**

In [47]:
arr

array([66, 66, 66, 66, 66, 66,  6,  7,  8,  9, 10])

In [48]:
# So kann man eine Kopie erstellen
arr_copy = arr.copy()

arr_copy

array([66, 66, 66, 66, 66, 66,  6,  7,  8,  9, 10])

### Indexing zweidimensionales Array

Array[row][col] oder Array[row,col]

In [49]:
arr_2d = np.array(([5,10,15],[20,25,30],[35,40,45]))

In [50]:
arr_2d[1]

array([20, 25, 30])

In [51]:
arr_2d[1][0]

20

In [52]:
arr_2d[1,0]

20

In [53]:
#Matrix
arr2d = np.zeros((10,10))

In [54]:
#Mit Daten befüllen

for i in range(len(arr2d)):
    arr2d[i] = i
    
arr2d

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [2., 2., 2., 2., 2., 2., 2., 2., 2., 2.],
       [3., 3., 3., 3., 3., 3., 3., 3., 3., 3.],
       [4., 4., 4., 4., 4., 4., 4., 4., 4., 4.],
       [5., 5., 5., 5., 5., 5., 5., 5., 5., 5.],
       [6., 6., 6., 6., 6., 6., 6., 6., 6., 6.],
       [7., 7., 7., 7., 7., 7., 7., 7., 7., 7.],
       [8., 8., 8., 8., 8., 8., 8., 8., 8., 8.],
       [9., 9., 9., 9., 9., 9., 9., 9., 9., 9.]])

In [55]:
#Auch nur ein Teil daraus (bestimmte Reihen)
arr2d[[1,2,6,8]]

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [2., 2., 2., 2., 2., 2., 2., 2., 2., 2.],
       [6., 6., 6., 6., 6., 6., 6., 6., 6., 6.],
       [8., 8., 8., 8., 8., 8., 8., 8., 8., 8.]])

### Selection

In [56]:
arr = np.arange(1,11)
arr

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [57]:
arr > 4

array([False, False, False, False,  True,  True,  True,  True,  True,
        True])

In [58]:
bool_arr = arr>4

In [59]:
bool_arr

array([False, False, False, False,  True,  True,  True,  True,  True,
        True])

In [60]:
arr[bool_arr]

array([ 5,  6,  7,  8,  9, 10])

In [61]:
arr[arr>2]

array([ 3,  4,  5,  6,  7,  8,  9, 10])

In [62]:
x = 2
arr[arr>x]

array([ 3,  4,  5,  6,  7,  8,  9, 10])

## Numpy Operationen

#### Arithmetik 

In [63]:
arr = np.arange(0,10)

In [64]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [65]:
arr + arr

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [66]:
# Warnung division by zero. Aber kein Error!
arr/arr

  arr/arr


array([nan,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [67]:
# Auch nur eine Warnung kein Error (infinity)
1/arr

  1/arr


array([       inf, 1.        , 0.5       , 0.33333333, 0.25      ,
       0.2       , 0.16666667, 0.14285714, 0.125     , 0.11111111])

In [68]:
arr**4

array([   0,    1,   16,   81,  256,  625, 1296, 2401, 4096, 6561])

#### Andere Numpy Operationen

In [69]:
# Wurzel ziehen
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [70]:
# e^ berechnen
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

In [71]:
#Logarithmus
np.log(arr)

  np.log(arr)


array([      -inf, 0.        , 0.69314718, 1.09861229, 1.38629436,
       1.60943791, 1.79175947, 1.94591015, 2.07944154, 2.19722458])