Ultima modifica:
Ciao a tutti,
per una serie di dati scaricati dai social, vorrei clusterizzare i singoli tweet o post secondo delle parole chiave che ho scritto in alcuni file txt.
Il data Frame è:
Il codice che ho scritto è:
Vorrei evitare di tracciare le sottostringhe: ad esempio se metto tra le parole dell'univerità "poli" questa parola è una sotto-stringa di Napoli. E quindi clusterizzata in maniera errata.
La colonna
è di una lista di stringhe. Il file .txt è un elenco ogni parola a capo, tutte minuscole.
L'errore è:
KeyError: 1241
Non ho trovato nessuna documentazione.
Qualcuno mi può aiutare?
Grazie mille
Questo codice per una singola riga, dovrebbe funzionare.
Ma probabilmente mi sto incartando con i cicli For annidati
Inoltre vorrei anche implementare per concetti formati da due parole:
Qui ad esempio mi piacerebbe che trovasse "università degli studi di torino" come stringa di 3 parole (stopwords a parte).
Grazie mille
per una serie di dati scaricati dai social, vorrei clusterizzare i singoli tweet o post secondo delle parole chiave che ho scritto in alcuni file txt.
Il data Frame è:
Il codice che ho scritto è:
Codice:
for row in frame:
words = []
words = frame["Cleaned Text into list"].loc
for word in p_calcio:
for word1 in words: #words list in a dataframe
if word1 == word:
frame["Cluster"] = 'Calcio'
Vorrei evitare di tracciare le sottostringhe: ad esempio se metto tra le parole dell'univerità "poli" questa parola è una sotto-stringa di Napoli. E quindi clusterizzata in maniera errata.
La colonna
Codice:
frame["Cleaned Text into list"]
L'errore è:
KeyError: 1241
Non ho trovato nessuna documentazione.
Qualcuno mi può aiutare?
Grazie mille
Messaggio unito automaticamente:
Questo codice per una singola riga, dovrebbe funzionare.
Codice:
if_contains = ['one', 'Timone', 'Tisix','Two eight nine']
save = []
words = ['one', 'five', 'Tisix', 'two eight nine']
for word in words:
if word in if_contains:
save.append(word)
print(save)
Ma probabilmente mi sto incartando con i cicli For annidati
Messaggio unito automaticamente:
Inoltre vorrei anche implementare per concetti formati da due parole:
Qui ad esempio mi piacerebbe che trovasse "università degli studi di torino" come stringa di 3 parole (stopwords a parte).
Grazie mille