Reader 类

class surprise.reader.Reader(name=None, line_format='user item rating', sep=None, rating_scale=(1, 5), skip_lines=0)[source]

Reader 类用于解析包含评分的文件。

此类文件应假定每行仅指定一个评分,且每行需遵循以下结构

user ; item ; rating ; [timestamp]

其中字段的顺序和分隔符(此处为 ‘;’)可以任意定义(参见下文)。方括号表示时间戳字段是可选的。

对于每个内置数据集,Surprise 也提供了预定义的 Reader,如果您想使用与内置数据集格式相同的自定义数据集,这些 Reader 非常有用(参见 name 参数)。

参数
  • name (string, 可选) – 如果指定,则返回一个用于内置数据集的 Reader,并且任何其他参数都将被忽略。接受的值有 ‘ml-100k’、‘ml-1m’ 和 ‘jester’。默认值为 None

  • line_format (string) – 字段名称,按照它们在行中出现的顺序排列。请注意,line_format 始终以空格分隔(使用 sep 参数)。默认值为 'user item rating'

  • sep (char) – 字段之间的分隔符。例如 : ';'

  • rating_scale (tuple, 可选) – 用于每个评分的评分范围。默认值为 (1, 5)

  • skip_lines (int, 可选) – 在文件开头要跳过的行数。默认值为 0