ValueError: could not convert string to float: '11\xa0693,70'

Question 1

Необходимо найти сумму столбца sum в диапазоне строк 259-368.Для этого нужно перевести тип столбца в int или float. Но выдает ошибку ValueError: could not convert string to float: '11\xa0693,70' https://drive.google.com/drive/folders/1Gvg1WdBLdaXmLraoslhHn1PG1P4jqiYH

import numpy as np
import pandas as pd
df = pd.read_csv("data.csv")
#print(test.index)
#print(test.columns)
df['sum'] = df['sum'].astype(float).fillna(0)
general_sum = df.loc[259:368, 'sum'].sum()
print(sum1)

Question 2

вы предлагаете нам воспользоваться телепатией, чтобы узнать, что у вас там в data.csv?

Question 3

Пожалуйста, уточните вашу конкретную проблему или приведите более подробную информацию о том, что именно вам нужно. В текущем виде сложно понять, что именно вы спрашиваете.

Question 4

Извините. Добавил ссылку

Question 5

по вашей ссылке нет доступа к файлу. в любом случае, принципиальный ответ я вам дал.

Question 6

Изменил статус доступа. Теперь открыт.

Question 7

выдает ошибку ValueError: could not convert string to float: 11\xa0693,70

Символ \xa0 - это nbsp, неразрывный пробел.
Он используется в числах вместо обычного пробела (разделителя тысяч), чтобы в тексте число 11 693,70 не разбилось переносом строки на два числа 11 и 693,70.
А библиотечные функции обычно знают только про обычный пробел и не знают про его многочисленные разновидности за пределами ASCII7.

Как пофиксить: перед конвертацией строки в число нужно преобразовывать строку (т.е., весь csv-файл), заменяя все возможные пробелы на обычные пробелы. На практике при работе с русскими текстами мне всегда хватало преобразования одного только nbsp.

Question 8

Спасибо. Большое за помощь и разъяснения. А вот этот метод pd.to_numeric не будет работать для достижения нужного результата? И есть ли какой то универсальный способ заменить все возможные пробелы или это и есть универсальный?

Question 9

В подобных вопросах нужно приводить пример исходных данных, чтобы проблему можно было воспроизвести. В общем же случае, воспользуйтесь методом pd.to_numeric с указанием обработки ошибок. Например:

import pandas as pd
df=pd.DataFrame({"sum":[1,13,"abv", None, True]})
print(df)
print(df.dtypes)

 sum
0 1
1 13
2 abv
3 None
4 True
sum object <--- строки
dtype: object

df["sum"] = pd.to_numeric(df["sum"], errors="coerce").fillna(0)
print(df)
print(df.dtypes)

 sum
0 1.0
1 13.0
2 0.0
3 0.0
4 1.0
sum float64 <--- числа
dtype: object

Question 10

В дополнение к совершенно правильному ответу @ESkri внесу техническую часть.
Удаление \xa0 - ключевой момент, но нужно сначала привести все значения в столбце к типу str перед заменой символов, а перед преобразованием во float еще заменить запятые на точки.

df = pd.read_csv(r'c:\test\data.csv')
df['sum'] = df['sum'].fillna(0).astype(str).str.replace('\xa0', '').str.replace(',', '.').astype(float)
general_sum = df.loc[259:368, 'sum'].sum()
print(general_sum)

861874.1699999997

Question 11

Можно не удалять в исходном файле, а выставить в read_csv параметр thousands = '\xa0'

ESkri 1,1064 серебряных знака9 бронзовых знаков · Accepted Answer · 2023-09-20 22:10:31Z

выдает ошибку ValueError: could not convert string to float: 11\xa0693,70

Символ \xa0 - это nbsp, неразрывный пробел.
Он используется в числах вместо обычного пробела (разделителя тысяч), чтобы в тексте число 11 693,70 не разбилось переносом строки на два числа 11 и 693,70.
А библиотечные функции обычно знают только про обычный пробел и не знают про его многочисленные разновидности за пределами ASCII7.

Как пофиксить: перед конвертацией строки в число нужно преобразовывать строку (т.е., весь csv-файл), заменяя все возможные пробелы на обычные пробелы. На практике при работе с русскими текстами мне всегда хватало преобразования одного только nbsp.

Спасибо. Большое за помощь и разъяснения. А вот этот метод pd.to_numeric не будет работать для достижения нужного результата? И есть ли какой то универсальный способ заменить все возможные пробелы или это и есть универсальный?

ValueError: could not convert string to float: '11\xa0693,70'

4 ответа 4

Ваш ответ

Зарегистрируйтесь или войдите

Отправить без регистрации

Отправить без регистрации

ValueError: could not convert string to float: '11\xa0693,70'

4 ответа 4

Ваш ответ

Зарегистрируйтесь или войдите

Отправить без регистрации

Отправить без регистрации

Похожие