Reader 类¶
- class surprise.reader.Reader(name=None, line_format='user item rating', sep=None, rating_scale=(1, 5), skip_lines=0)[source]¶
Reader 类用于解析包含评分的文件。
此类文件应假定每行仅指定一个评分,且每行需遵循以下结构
user ; item ; rating ; [timestamp]
其中字段的顺序和分隔符(此处为 ‘;’)可以任意定义(参见下文)。方括号表示时间戳字段是可选的。
对于每个内置数据集,Surprise 也提供了预定义的 Reader,如果您想使用与内置数据集格式相同的自定义数据集,这些 Reader 非常有用(参见
name
参数)。- 参数:
name (
string
, 可选) – 如果指定,则返回一个用于内置数据集的 Reader,并且任何其他参数都将被忽略。接受的值有 ‘ml-100k’、‘ml-1m’ 和 ‘jester’。默认值为None
。line_format (
string
) – 字段名称,按照它们在行中出现的顺序排列。请注意,line_format
始终以空格分隔(使用sep
参数)。默认值为'user item rating'
。sep (char) – 字段之间的分隔符。例如 :
';'
。rating_scale (
tuple
, 可选) – 用于每个评分的评分范围。默认值为(1, 5)
。skip_lines (
int
, 可选) – 在文件开头要跳过的行数。默认值为0
。