Implementação do algoritmo de mineração de dados DBScan. Incluindo 3 medidas de similaridade: Euclidiana, Jaccard e Fading.
##Get started
1 - Baixe este projeto.
2 - Coloque o caminho do seu arquivo de entrada.
with open('tweets_30.tsv') as json_data:
3 - Escolha o formato do seu arquivo de entrada(JSON ou algum arquivo .txt dividido por algum caracter)
# A linha abaixo le um arquivo em formato JSON # points = json.load(json_data) # O codigo abaixo le um arquivo txt(tabulado) points = {} points['tweets'] = [] for line in json_data: data = line.split('\t')
4 - Configure os parâmetros do algoritmo (eps e minPts)
# A funcao DBSCAN recebe um array de pontos, eps e minPoints. dbScan(points['tweets'], 0.3, 500)
5 - Coloque o caminho do seu arquivo de saída.
# Caminho do arquivo de saida dos clusters output_file = open('/Users/CAMINHO/DO/SEU/ARQUIVO/file.txt','a')
6 - Salve as edições.
7 - Abra o console e execute "python DBSCAN.py"
-
O código está todo comentádo, a fim de facilitar a edição do mesmo.
-
Esse projeto possui 3 implementações de medida de similaridade. Euclidiana, Fading e de Jaccard.