reconfigure project repo for publish

2024-11-20 01:18:05 +01:00 · 2024-11-20 01:18:05 +01:00 · d5ac423930
commit d5ac423930
parent ffc74dc262
30 changed files with 1715 additions and 2692 deletions
--- a/.dvc/config
+++ b/.dvc/config
@ -0,0 +1,6 @@
+[core]
+    autostage = true
+    remote = storage
+['remote "storage"']
+    url = s3://olive-oil-dataset
+    region = eu-west-1
--- a/.idea/.gitignore
+++ b/.idea/.gitignore
--- a/.idea/.name
+++ b/.idea/.name
@ -1 +1 @@
-weather_data.parquet
+Tesi Pegaso
--- a/.idea/TesiPegaso.iml
+++ b/.idea/TesiPegaso.iml
--- a/.idea/csv-editor.xml
+++ b/.idea/csv-editor.xml
@ -0,0 +1,16 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="CsvFileAttributes">
+    <option name="attributeMap">
+      <map>
+        <entry key="$USER_HOME$/Downloads/olive-oli-user_accessKeys.csv">
+          <value>
+            <Attribute>
+              <option name="separator" value="," />
+            </Attribute>
+          </value>
+        </entry>
+      </map>
+    </option>
+  </component>
+</project>
--- a/.idea/inspectionProfiles/profiles_settings.xml
+++ b/.idea/inspectionProfiles/profiles_settings.xml
--- a/.idea/misc.xml
+++ b/.idea/misc.xml
--- a/.idea/modules.xml
+++ b/.idea/modules.xml
--- a/.idea/vcs.xml
+++ b/.idea/vcs.xml
--- a/elaborato_tesi_1_6.pdf
+++ b/elaborato_tesi_1_6.pdf
--- a/src/.gitignore
+++ b/src/.gitignore
@ -0,0 +1 @@
+/sources
--- a/src/README.md
+++ b/src/README.md
@ -1 +1,4 @@
 python -m olive_oil_train_dataset.create_train_dataset --random-seed 42 --num-simulations 100000 --batch-size 10000 --max-workers 7
+
+
+python -m weather.uv_index.uv_index_model.py
--- a/src/init.py
+++ b/src/init.py
--- a/src/pycache/init.cpython-39.pyc
+++ b/src/pycache/init.cpython-39.pyc
--- a/src/dashboard/pycache/environmental_simulator.cpython-39.pyc
+++ b/src/dashboard/pycache/environmental_simulator.cpython-39.pyc
--- a/src/dashboard/environmental_simulator.py
+++ b/src/dashboard/environmental_simulator.py
--- a/src/models/olive_oli/olive_oil.ipynb
+++ b/src/models/olive_oli/olive_oil.ipynb
@ -315,36 +315,19 @@
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
-    "import seaborn as sns\n",
-    "from sklearn.model_selection import train_test_split\n",
-    "from sklearn.preprocessing import MinMaxScaler, StandardScaler\n",
-    "from tensorflow.keras.layers import Input, Dense, Dropout, Bidirectional, LSTM, LayerNormalization, Add, Activation, BatchNormalization, MultiHeadAttention, MaxPooling1D, Conv1D, GlobalMaxPooling1D, GlobalAveragePooling1D, \\\n",
-    "    Concatenate, ZeroPadding1D, Lambda, AveragePooling1D, concatenate\n",
-    "from tensorflow.keras.layers import Dense, LSTM, Conv1D, Input, concatenate, Dropout, BatchNormalization, GlobalAveragePooling1D, Bidirectional, TimeDistributed, Attention, MultiHeadAttention\n",
+    "from sklearn.preprocessing import StandardScaler\n",
    "import tensorflow_addons as tfa\n",
-    "from tensorflow.keras.models import Model\n",
-    "from tensorflow.keras.regularizers import l2\n",
-    "from tensorflow.keras.optimizers import Adam\n",
-    "from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau, ModelCheckpoint\n",
    "from datetime import datetime\n",
    "import os\n",
-    "import json\n",
    "import joblib\n",
    "import re\n",
-    "import pyarrow as pa\n",
-    "import pyarrow.parquet as pq\n",
-    "from tqdm import tqdm\n",
-    "from concurrent.futures import ProcessPoolExecutor, as_completed\n",
-    "from functools import partial\n",
-    "import psutil\n",
-    "import multiprocessing\n",
-    "from typing import List, Dict\n",
+    "from typing import List\n",
    "\n",
-    "random_state_value = 42\n",
+    "random_state_value = None\n",
    "execute_name = datetime.now().strftime(\"%Y-%m-%d_%H-%M\")\n",
    "\n",
    "base_project_dir = './'\n",
-    "data_dir = '../sources/'\n",
+    "data_dir = '../../sources/'\n",
    "models_project_dir = base_project_dir\n",
    "\n",
    "os.makedirs(base_project_dir, exist_ok=True)\n",
@ -823,16 +806,18 @@
    "\n",
    "    # Split dei dati (usando indici casuali per una migliore distribuzione)\n",
    "    indices = np.random.permutation(len(X_temporal))\n",
-    "    #train_idx = int(len(indices) * 0.7)\n",
-    "    #val_idx = int(len(indices) * 0.85)\n",
    "\n",
-    "    train_idx = int(len(indices) * 0.65)  # 65% training\n",
-    "    val_idx = int(len(indices) * 0.85)  # 20% validation\n",
+    "    #train_idx = int(len(indices) * 0.7)        # 70% training\n",
+    "    #val_idx = int(len(indices) * 0.85)         # 15% validation\n",
    "    # Il resto rimane 15% test\n",
    "\n",
-    "    # Oppure versione con 25% validation:\n",
-    "    #train_idx = int(len(indices) * 0.60)    # 60% training\n",
-    "    #val_idx = int(len(indices) * 0.85)      # 25% validation\n",
+    "    train_idx = int(len(indices) * 0.65)        # 65% training\n",
+    "    val_idx = int(len(indices) * 0.85)          # 20% validation\n",
+    "    # Il resto rimane 15% test\n",
+    "\n",
+    "    #train_idx = int(len(indices) * 0.60)       # 60% training\n",
+    "    #val_idx = int(len(indices) * 0.85)         # 25% validation\n",
+    "    # Il resto rimane 15% test\n",
    "\n",
    "    train_indices = indices[:train_idx]\n",
    "    val_indices = indices[train_idx:val_idx]\n",
--- a/src/models/solarenergy/solarenergy_model.ipynb
+++ b/src/models/solarenergy/solarenergy_model.ipynb
--- a/src/models/solarradiation/solarradiation_model.ipynb
+++ b/src/models/solarradiation/solarradiation_model.ipynb
--- a/src/models/uv_index/uv_index_model.ipynb
+++ b/src/models/uv_index/uv_index_model.ipynb
--- a/src/olive-oil-dashboard.py
+++ b/src/olive-oil-dashboard.py
--- a/src/olive_config.json
+++ b/src/olive_config.json
--- a/src/olive_oil_train_dataset/pycache/create_train_dataset.cpython-39.pyc
+++ b/src/olive_oil_train_dataset/pycache/create_train_dataset.cpython-39.pyc
--- a/src/olive_oil_train_dataset/create_train_dataset.py
+++ b/src/olive_oil_train_dataset/create_train_dataset.py
--- a/src/setup.py
+++ b/src/setup.py
--- a/src/sources.dvc
+++ b/src/sources.dvc
@ -0,0 +1,6 @@
+outs:
+- md5: 23e7daa876590e1c6ae9cb7af3be8028.dir
+  size: 984847509
+  nfiles: 5
+  hash: md5
+  path: sources
--- a/src/utils/init.py
+++ b/src/utils/init.py
--- a/src/utils/pycache/init.cpython-39.pyc
+++ b/src/utils/pycache/init.cpython-39.pyc
--- a/src/utils/pycache/helpers.cpython-39.pyc
+++ b/src/utils/pycache/helpers.cpython-39.pyc
--- a/src/utils/helpers.py
+++ b/src/utils/helpers.py
@ -429,7 +429,7 @@ def calculate_water_need(weather_data, base_need, optimal_temp):
    rain_factor = 1 - 0.001 * weather_data['precip_sum']  # Diminuisce leggermente con l'aumentare delle precipitazioni
    return base_need * temp_factor * rain_factor

-def create_technique_mapping(olive_varieties, mapping_path='./kaggle/working/models/technique_mapping.joblib'):
+def create_technique_mapping(olive_varieties, mapping_path='./sources/technique_mapping.joblib'):
    # Estrai tutte le tecniche uniche dal dataset e convertile in lowercase
    all_techniques = olive_varieties['Tecnica di Coltivazione'].str.lower().unique()

@ -443,7 +443,7 @@ def create_technique_mapping(olive_varieties, mapping_path='./kaggle/working/mod
    return technique_mapping


-def encode_techniques(df, mapping_path='./kaggle/working/models/technique_mapping.joblib'):
+def encode_techniques(df, mapping_path='./sources/technique_mapping.joblib'):
    if not os.path.exists(mapping_path):
        raise FileNotFoundError(f"Mapping not found at {mapping_path}. Run create_technique_mapping first.")

@ -459,7 +459,7 @@ def encode_techniques(df, mapping_path='./kaggle/working/models/technique_mappin
    return df


-def decode_techniques(df, mapping_path='./kaggle/working/models/technique_mapping.joblib'):
+def decode_techniques(df, mapping_path='./sources/technique_mapping.joblib'):
    if not os.path.exists(mapping_path):
        raise FileNotFoundError(f"Mapping not found at {mapping_path}")

@ -477,7 +477,7 @@ def decode_techniques(df, mapping_path='./kaggle/working/models/technique_mappin
    return df


-def decode_single_technique(technique_value, mapping_path='./kaggle/working/models/technique_mapping.joblib'):
+def decode_single_technique(technique_value, mapping_path='./sources/technique_mapping.joblib'):
    if not os.path.exists(mapping_path):
        raise FileNotFoundError(f"Mapping not found at {mapping_path}")