索引 _ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Z _ _get_server_weights() (torchrl.collectors.distributed.DistributedWeightUpdater 方法) (torchrl.collectors.distributed.RPCWeightUpdater 方法) (torchrl.collectors.llm.vLLMUpdater 方法) (torchrl.collectors.RayWeightUpdater 方法) _maybe_map_weights() (torchrl.collectors.distributed.DistributedWeightUpdater 方法) (torchrl.collectors.distributed.RPCWeightUpdater 方法) (torchrl.collectors.llm.vLLMUpdater 方法) (torchrl.collectors.RayWeightUpdater 方法) _setup() (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) _skip_update() (torchrl.collectors.RayWeightUpdater 方法) _sync_weights_with_worker() (torchrl.collectors.distributed.DistributedWeightUpdater 方法) (torchrl.collectors.distributed.RPCWeightUpdater 方法) (torchrl.collectors.llm.vLLMUpdater 方法) (torchrl.collectors.RayWeightUpdater 方法) A A2CLoss (torchrl.objectives 中的类) action_key (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) action_keys (torchrl.data.MCTSForest 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) action_spec (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) action_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) ActionDiscretizer (torchrl.envs.transforms 中的类) ActionDiscretizer.SamplingStrategy (torchrl.envs.transforms 中的类) ActionMask (torchrl.envs.transforms 中的类) Actor (torchrl.modules.tensordict_module 中的类) actor_loss() (torchrl.objectives.CrossQLoss 方法) (torchrl.objectives.TD3BCLoss 方法) ActorCriticOperator (torchrl.modules.tensordict_module 中的类) ActorCriticWrapper (torchrl.modules.tensordict_module 中的类) ActorValueOperator (torchrl.modules.tensordict_module 中的类) AdaptiveKLController (torchrl.data 中的类) add() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ImmutableDatasetWriter 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.replay_buffers.RoundRobinWriter 方法) (torchrl.data.replay_buffers.TensorDictMaxValueWriter 方法) (torchrl.data.replay_buffers.TensorDictRoundRobinWriter 方法) (torchrl.data.replay_buffers.Writer 方法) (torchrl.data.replay_buffers.WriterEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) add_collectors() (torchrl.collectors.distributed.RayCollector 方法) add_module() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) add_truncated_keys() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.TransformedEnv 方法) AdditiveGaussianModule (torchrl.modules 中的类) AddThinkingPrompt (torchrl.envs.llm.transforms 中的类) all_actions() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) all_worker_ids() (torchrl.collectors.distributed.DistributedWeightUpdater 方法), [1] (torchrl.collectors.distributed.RPCWeightUpdater 方法), [1] (torchrl.collectors.llm.vLLMUpdater 方法), [1] (torchrl.collectors.MultiProcessedWeightUpdater 方法) (torchrl.collectors.RayWeightUpdater 方法), [1] (torchrl.collectors.VanillaWeightUpdater 方法) (torchrl.collectors.WeightUpdaterBase 方法) alpha_loss() (torchrl.objectives.CrossQLoss 方法) any_done() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) append() (torchrl.data.llm.History 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.transforms.Compose 方法) append_transform() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.TransformedEnv 方法) apply() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) apply_chat_template() (torchrl.data.llm.History 方法) as_nested_tensor (torchrl.envs.llm.transforms 中的类) as_padded_tensor (torchrl.envs.llm.transforms 中的类) as_remote() (torchrl.collectors.llm.LLMCollector 类方法) (torchrl.collectors.llm.RayLLMCollector 类方法) (torchrl.data.datasets.AtariDQNExperienceReplay 类方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 类方法) (torchrl.data.datasets.D4RLExperienceReplay 类方法) (torchrl.data.datasets.MinariExperienceReplay 类方法) (torchrl.data.PrioritizedReplayBuffer 类方法) (torchrl.data.RayReplayBuffer 类方法) (torchrl.data.RemoteTensorDictReplayBuffer 类方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 类方法) (torchrl.data.ReplayBuffer 类方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 类方法) (torchrl.data.TensorDictReplayBuffer 类方法) assert_is_in() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) async_reset_recv() (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) async_reset_send() (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) async_shutdown() (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.DataCollectorBase 方法) (torchrl.collectors.distributed.DistributedDataCollector 方法) (torchrl.collectors.distributed.DistributedSyncDataCollector 方法) (torchrl.collectors.distributed.RayCollector 方法) (torchrl.collectors.distributed.RPCDataCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) async_step_recv() (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) async_step_send() (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) aSyncDataCollector (torchrl.collectors 中的类) AsyncEnvPool (torchrl.envs 中的类) AtariDQNExperienceReplay (torchrl.data.datasets 中的类) attach() (torchrl.data.replay_buffers.LazyMemmapStorage 方法) (torchrl.data.replay_buffers.LazyStackStorage 方法) (torchrl.data.replay_buffers.LazyTensorStorage 方法) (torchrl.data.replay_buffers.ListStorage 方法) (torchrl.data.replay_buffers.Storage 方法) (torchrl.data.replay_buffers.StorageEnsemble 方法) (torchrl.data.replay_buffers.TensorStorage 方法) auto_register_info_dict() (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) auto_specs_() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) auto_unwrap_transformed_env (torchrl 中的类) AutoResetEnv (torchrl.envs.transforms 中的类) AutoResetTransform (torchrl.envs.transforms 中的类) B BaseDatasetExperienceReplay (torchrl.data.datasets 中的类) batch_dims (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) batch_locked (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.transforms.TransformedEnv 属性) batch_size (torchrl.data.datasets.AtariDQNExperienceReplay 属性) (torchrl.data.datasets.BaseDatasetExperienceReplay 属性) (torchrl.data.datasets.D4RLExperienceReplay 属性) (torchrl.data.datasets.MinariExperienceReplay 属性) (torchrl.data.PrioritizedReplayBuffer 属性) (torchrl.data.RayReplayBuffer 属性) (torchrl.data.RemoteTensorDictReplayBuffer 属性) (torchrl.data.replay_buffers.ReplayBufferEnsemble 属性) (torchrl.data.ReplayBuffer 属性) (torchrl.data.TensorDictPrioritizedReplayBuffer 属性) (torchrl.data.TensorDictReplayBuffer 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) (torchrl.envs.transforms.TransformedEnv 属性) BatchRenorm1d (torchrl.modules 中的类) BatchSizeTransform (torchrl.envs.transforms 中的类) BatchSubSampler (torchrl.trainers 中的类) bfloat16() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) biased_softplus (torchrl.modules.utils 中的类) BinarizeReward (torchrl.envs.transforms 中的类) Binary (torchrl.data 中的类) BinaryDiscreteTensorSpec (torchrl.data 中的类) BinaryToDecimal (torchrl.data 中的类) Bounded (torchrl.data 中的类) BoundedTensorSpec (torchrl.data 中的类) branching_action (torchrl.data.Tree 属性) BraxEnv() (在 module torchrl.envs 中) BraxWrapper() (在 module torchrl.envs 中) BrowserTransform (torchrl.envs.llm.transforms 中的类) buffers() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) build_td_for_shared_vecnorm() (torchrl.envs.transforms.VecNorm 静态方法) BurnInTransform (torchrl.envs.transforms 中的类) C cardinality() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) Categorical (torchrl.data 中的类) CatFrames (torchrl.envs.transforms 中的类) CatTensors (torchrl.envs.transforms 中的类) CEMPlanner (torchrl.modules 中的类) CenterCrop (torchrl.envs.transforms 中的类) ChatEnv (torchrl.envs.llm 中的类) ChatHistory (torchrl.modules.llm 中的类) check_env_specs() (在 module torchrl.envs 中) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) check_marl_grouping() (在 module torchrl.envs 中) check_no_exclusive_keys (torchrl.data 中的类) check_weights_changed() (torchrl.modules.llm.vLLMWorker 方法) ChessEnv (torchrl.envs 中的类) children() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) clear_cache() (torchrl.modules.LLMMaskedCategorical 方法) clear_device_() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) ClearCudaCache (torchrl.trainers 中的类) ClipPPOLoss (torchrl.objectives 中的类) ClipTransform (torchrl.envs.transforms 中的类) clone() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.VecNormV2 方法) close() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.objectives.llm.MCAdvantage 方法) collector (torchrl.collectors.distributed.DistributedWeightUpdater 属性) (torchrl.collectors.distributed.RPCWeightUpdater 属性) (torchrl.collectors.llm.vLLMUpdater 属性) (torchrl.collectors.MultiProcessedWeightUpdater 属性) (torchrl.collectors.RayWeightUpdater 属性) (torchrl.collectors.VanillaWeightUpdater 属性) (torchrl.collectors.WeightUpdaterBase 属性) (torchrl.data.llm.TopKRewardSelector 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.GSM8KPrepareQuestion 属性) (torchrl.envs.llm.GSM8KRewardParser 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.IfEvalScorer 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.llm.transforms.AddThinkingPrompt 属性) (torchrl.envs.llm.transforms.BrowserTransform 属性) (torchrl.envs.llm.transforms.DataLoadingPrimer 属性) (torchrl.envs.llm.transforms.KLComputation 属性) (torchrl.envs.llm.transforms.KLRewardTransform 属性) (torchrl.envs.llm.transforms.MCPToolTransform 属性) (torchrl.envs.llm.transforms.PolicyVersion 属性) (torchrl.envs.llm.transforms.PythonInterpreter 属性) (torchrl.envs.llm.transforms.RetrieveKL 属性) (torchrl.envs.llm.transforms.RetrieveLogProb 属性) (torchrl.envs.llm.transforms.TemplateTransform 属性) (torchrl.envs.llm.transforms.Tokenizer 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 属性) (torchrl.envs.transforms.Transform 属性) (torchrl.modules.llm.LLMWrapperBase 属性) (torchrl.modules.llm.TransformersWrapper 属性) (torchrl.modules.llm.vLLMWrapper 属性) (torchrl.objectives.llm.MCAdvantage 属性) compile() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) Compose (torchrl.envs.transforms 中的类) Composite (torchrl.data 中的类) CompositeSpec (torchrl.data 中的类) ConditionalPolicySwitch (torchrl.envs.transforms 中的类) ConditionalSkip (torchrl.envs.transforms 中的类) ConsistentDropout (torchrl.modules 中的类) ConsistentDropoutModule (torchrl.modules 中的类) consolidate_spec (torchrl.data 中的类) ConstantKLController (torchrl.data 中的类) container (torchrl.data.llm.TopKRewardSelector 属性) (torchrl.envs.llm.GSM8KPrepareQuestion 属性) (torchrl.envs.llm.GSM8KRewardParser 属性) (torchrl.envs.llm.IfEvalScorer 属性) (torchrl.envs.llm.transforms.AddThinkingPrompt 属性) (torchrl.envs.llm.transforms.BrowserTransform 属性) (torchrl.envs.llm.transforms.DataLoadingPrimer 属性) (torchrl.envs.llm.transforms.KLComputation 属性) (torchrl.envs.llm.transforms.KLRewardTransform 属性) (torchrl.envs.llm.transforms.MCPToolTransform 属性) (torchrl.envs.llm.transforms.PolicyVersion 属性) (torchrl.envs.llm.transforms.PythonInterpreter 属性) (torchrl.envs.llm.transforms.RetrieveKL 属性) (torchrl.envs.llm.transforms.RetrieveLogProb 属性) (torchrl.envs.llm.transforms.TemplateTransform 属性) (torchrl.envs.llm.transforms.Tokenizer 属性) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 属性) (torchrl.envs.transforms.Transform 属性) (torchrl.objectives.llm.MCAdvantage 属性) contains() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) contains_lazy_spec (torchrl.data 中的类) ContentBase (torchrl.data.llm 中的类) Conv3dNet (torchrl.modules 中的类) convert_to_functional() (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.LossModule 方法) ConvNet (torchrl.modules 中的类) correct_for_frame_skip() (在 module torchrl.trainers.helpers 中) CountFramesLog (torchrl.trainers 中的类) cpu() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.BinaryToDecimal 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.HashToInt 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.MultiStep 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorDictMap 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) CQLLoss (torchrl.objectives 中的类) create_infinite_iterator (torchrl.data 中的类) create_rollout_td() (torchrl.data.RolloutFromModel 方法) Crop (torchrl.envs.transforms 中的类) CrossQLoss (torchrl.objectives 中的类) CSVLogger() (在 module torchrl.record.loggers.csv 中) cuda() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.BinaryToDecimal 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.HashToInt 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.MultiStep 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorDictMap 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) D D4RLExperienceReplay (torchrl.data.datasets 中的类) data_path (torchrl.data.datasets.AtariDQNExperienceReplay 属性) (torchrl.data.datasets.BaseDatasetExperienceReplay 属性) (torchrl.data.datasets.D4RLExperienceReplay 属性) (torchrl.data.datasets.MinariExperienceReplay 属性) data_path_root (torchrl.data.datasets.AtariDQNExperienceReplay 属性) (torchrl.data.datasets.BaseDatasetExperienceReplay 属性) (torchrl.data.datasets.D4RLExperienceReplay 属性) (torchrl.data.datasets.MinariExperienceReplay 属性) DataCollectorBase (torchrl.collectors 中的类) DataLoadingPrimer (torchrl.envs.llm.transforms 中的类) dataset_to_tensordict() (torchrl.data.TokenizedDatasetLoader 静态方法) DatasetChatEnv (torchrl.envs.llm 中的类) DdpgCnnActor (torchrl.modules 中的类) DdpgCnnQNet (torchrl.modules 中的类) DDPGLoss (torchrl.objectives 中的类) DdpgMlpActor (torchrl.modules 中的类) DdpgMlpQNet (torchrl.modules 中的类) DecisionTransformer (torchrl.modules 中的类) DecisionTransformer.DTConfig (torchrl.modules 中的类) DecisionTransformerInferenceWrapper (torchrl.modules.tensordict_module 中的类) default_atari_dqn() (torchrl.modules.ConvNet 类方法) default_config() (torchrl.modules.DTActor 类方法) (torchrl.modules.OnlineDTActor 类方法) default_keys (torchrl.objectives.A2CLoss 属性) (torchrl.objectives.CQLLoss 属性) (torchrl.objectives.CrossQLoss 属性) (torchrl.objectives.DDPGLoss 属性) (torchrl.objectives.DiscreteCQLLoss 属性) (torchrl.objectives.DiscreteIQLLoss 属性) (torchrl.objectives.DiscreteSACLoss 属性) (torchrl.objectives.DistributionalDQNLoss 属性) (torchrl.objectives.DQNLoss 属性) (torchrl.objectives.DreamerActorLoss 属性) (torchrl.objectives.DreamerModelLoss 属性) (torchrl.objectives.DreamerValueLoss 属性) (torchrl.objectives.DTLoss 属性) (torchrl.objectives.GAILLoss 属性) (torchrl.objectives.IQLLoss 属性) (torchrl.objectives.llm.GRPOLoss 属性) (torchrl.objectives.llm.SFTLoss 属性) (torchrl.objectives.multiagent.QMixerLoss 属性) (torchrl.objectives.OnlineDTLoss 属性) (torchrl.objectives.PPOLoss 属性) (torchrl.objectives.REDQLoss 属性) (torchrl.objectives.ReinforceLoss 属性) (torchrl.objectives.SACLoss 属性) (torchrl.objectives.TD3BCLoss 属性) (torchrl.objectives.TD3Loss 属性) (torchrl.objectives.value.ValueEstimatorBase 属性) default_reward_aggregator() (torchrl.envs.llm.IfEvalScorer 方法) default_spec() (torchrl.data.llm.History 类方法) (torchrl.modules.llm.ChatHistory 类方法) (torchrl.modules.llm.LogProbs 类方法) (torchrl.modules.llm.Masks 类方法) (torchrl.modules.llm.Text 类方法) (torchrl.modules.llm.Tokens 类方法) default_value_kwargs (torchrl.objectives 中的类) delete() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) Delta (torchrl.modules 中的类) DensifyReward (torchrl.data 中的类) device (torchrl.data.Binary 属性) (torchrl.data.BinaryDiscreteTensorSpec 属性) (torchrl.data.Bounded 属性) (torchrl.data.BoundedTensorSpec 属性) (torchrl.data.Categorical 属性) (torchrl.data.Composite 属性) (torchrl.data.CompositeSpec 属性) (torchrl.data.DiscreteTensorSpec 属性) (torchrl.data.LazyStackedCompositeSpec 属性) (torchrl.data.LazyStackedTensorSpec 属性) (torchrl.data.llm.ContentBase 属性) (torchrl.data.llm.History 属性) (torchrl.data.MultiCategorical 属性) (torchrl.data.MultiDiscreteTensorSpec 属性) (torchrl.data.MultiOneHot 属性) (torchrl.data.MultiOneHotDiscreteTensorSpec 属性) (torchrl.data.NonTensor 属性) (torchrl.data.NonTensorSpec 属性) (torchrl.data.OneHot 属性) (torchrl.data.OneHotDiscreteTensorSpec 属性) (torchrl.data.PairwiseDataset 属性) (torchrl.data.PromptData 属性) (torchrl.data.RewardData 属性) (torchrl.data.Stacked 属性) (torchrl.data.StackedComposite 属性) (torchrl.data.TensorSpec 属性) (torchrl.data.Tree 属性) (torchrl.data.Unbounded 属性) (torchrl.data.UnboundedContinuous 属性) (torchrl.data.UnboundedContinuousTensorSpec 属性) (torchrl.data.UnboundedDiscrete 属性) (torchrl.data.UnboundedDiscreteTensorSpec 属性) (torchrl.envs.llm.IFEvalScoreData 属性) (torchrl.modules.llm.ChatHistory 属性) (torchrl.modules.llm.LogProbs 属性) (torchrl.modules.llm.Masks 属性) (torchrl.modules.llm.Text 属性) (torchrl.modules.llm.Tokens 属性) (torchrl.objectives.llm.GRPOLossOutput 属性) (torchrl.objectives.llm.SFTLossOutput 属性) DeviceCastTransform (torchrl.envs.transforms 中的类) dialog_turns_per_batch (torchrl.collectors.llm.LLMCollector 属性) (torchrl.collectors.llm.RayLLMCollector 属性) DiscreteActionProjection (torchrl.envs.transforms 中的类) DiscreteCQLLoss (torchrl.objectives 中的类) DiscreteIQLLoss (torchrl.objectives 中的类) DiscreteSACLoss (torchrl.objectives 中的类) DiscreteTensorSpec (torchrl.data 中的类) distance_loss (torchrl.objectives 中的类) DistributedDataCollector (torchrl.collectors.distributed 中的类) DistributedSyncDataCollector (torchrl.collectors.distributed 中的类) DistributedWeightUpdater (torchrl.collectors.distributed 中的类) DistributionalDQNLoss (torchrl.objectives 中的类) DistributionalDQNnet (torchrl.modules 中的类) DistributionalQValueActor (torchrl.modules.tensordict_module 中的类) DistributionalQValueHook (torchrl.modules 中的类) DistributionalQValueModule (torchrl.modules.tensordict_module 中的类) DMControlEnv() (在 module torchrl.envs 中) DMControlWrapper() (在 module torchrl.envs 中) done_key (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) done_keys (torchrl.data.MCTSForest 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) done_keys_groups (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) done_spec (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) done_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) double() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) DoubleToFloat (torchrl.envs.transforms 中的类) DQNLoss (torchrl.objectives 中的类) DreamerActor (torchrl.modules 中的类) DreamerActorLoss (torchrl.objectives 中的类) DreamerDecoder() (在 module torchrl.envs.model_based.dreamer 中) DreamerEnv() (在 module torchrl.envs.model_based.dreamer 中) DreamerModelLoss (torchrl.objectives 中的类) DreamerValueLoss (torchrl.objectives 中的类) DTActor (torchrl.modules 中的类) DTLoss (torchrl.objectives 中的类) DTypeCastTransform (torchrl.envs.transforms 中的类) DuelingCnnDQNet (torchrl.modules 中的类) dump() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.LazyMemmapStorage 方法) (torchrl.data.replay_buffers.LazyStackStorage 方法) (torchrl.data.replay_buffers.LazyTensorStorage 方法) (torchrl.data.replay_buffers.ListStorage 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.replay_buffers.Storage 方法) (torchrl.data.replay_buffers.StorageEnsemble 方法) (torchrl.data.replay_buffers.TensorStorage 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) dumps() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.PromptData 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.RewardData 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) E edges() (torchrl.data.Tree 方法) EGreedyModule (torchrl.modules 中的类) empty() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) empty_cache() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.TransformedEnv 方法) encode() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) EndOfLifeTransform (torchrl.envs.transforms 中的类) entropy() (torchrl.modules.LLMMaskedCategorical 方法) (torchrl.modules.MaskedCategorical 方法) (torchrl.modules.OneHotCategorical 方法) enumerate() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) env_batch_sizes (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) EnvBase (torchrl.envs 中的类) EnvCreator (torchrl.envs 中的类) EnvMetaData (torchrl.envs 中的类) erase_memoize_cache() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) eval() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.TransformedEnv 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) ExcludeTransform (torchrl.envs.transforms 中的类) expand() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) (torchrl.modules.Delta 方法) exploration_type() (在 module torchrl.envs 中) extend() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.MCTSForest 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ImmutableDatasetWriter 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.replay_buffers.RoundRobinWriter 方法) (torchrl.data.replay_buffers.TensorDictMaxValueWriter 方法) (torchrl.data.replay_buffers.TensorDictRoundRobinWriter 方法) (torchrl.data.replay_buffers.Writer 方法) (torchrl.data.replay_buffers.WriterEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) extra_repr() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) extract_tags() (torchrl.envs.llm.GSM8KRewardParser 静态方法) F fake_tensordict() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) fast_encoding() (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) fields() (torchrl.data.llm.ContentBase 类方法) (torchrl.data.llm.History 类方法) (torchrl.data.PairwiseDataset 类方法) (torchrl.data.PromptData 类方法) (torchrl.data.RewardData 类方法) (torchrl.data.Tree 类方法) (torchrl.envs.llm.IFEvalScoreData 类方法) (torchrl.modules.llm.ChatHistory 类方法) (torchrl.modules.llm.LogProbs 类方法) (torchrl.modules.llm.Masks 类方法) (torchrl.modules.llm.Text 类方法) (torchrl.modules.llm.Tokens 类方法) (torchrl.objectives.llm.GRPOLossOutput 类方法) (torchrl.objectives.llm.SFTLossOutput 类方法) FiniteTensorDictCheck (torchrl.envs.transforms 中的类) fit() (torchrl.data.RandomProjectionHash 方法) Flat2TED (torchrl.data 中的类) FlatStorageCheckpointer (torchrl.data.replay_buffers 中的类) flatten() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) FlattenObservation (torchrl.envs.transforms 中的类) float() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) forward() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.ActionMask 方法) (torchrl.envs.transforms.AutoResetTransform 方法) (torchrl.envs.transforms.BatchSizeTransform 方法) (torchrl.envs.transforms.BurnInTransform 方法) (torchrl.envs.transforms.CatFrames 方法) (torchrl.envs.transforms.CatTensors 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.ConditionalPolicySwitch 方法) (torchrl.envs.transforms.ConditionalSkip 方法) (torchrl.envs.transforms.DeviceCastTransform 方法) (torchrl.envs.transforms.DTypeCastTransform 方法) (torchrl.envs.transforms.EndOfLifeTransform 方法) (torchrl.envs.transforms.ExcludeTransform 方法) (torchrl.envs.transforms.FiniteTensorDictCheck 方法) (torchrl.envs.transforms.FlattenObservation 方法) (torchrl.envs.transforms.FrameSkipTransform 方法) (torchrl.envs.transforms.InitTracker 方法) (torchrl.envs.transforms.KLRewardTransform 方法) (torchrl.envs.transforms.PinMemoryTransform 方法) (torchrl.envs.transforms.RandomCropTensorDict 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.RemoveEmptySpecs 方法) (torchrl.envs.transforms.RenameTransform 方法) (torchrl.envs.transforms.Reward2GoTransform 方法) (torchrl.envs.transforms.RewardSum 方法) (torchrl.envs.transforms.SelectTransform 方法) (torchrl.envs.transforms.Stack 方法) (torchrl.envs.transforms.StepCounter 方法) (torchrl.envs.transforms.TargetReturn 方法) (torchrl.envs.transforms.TensorDictPrimer 方法) (torchrl.envs.transforms.TimeMaxPool 方法) (torchrl.envs.transforms.Timer 方法) (torchrl.envs.transforms.Tokenizer 方法) (torchrl.envs.transforms.TrajCounter 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.VC1Transform 方法) (torchrl.envs.transforms.VecGymEnvTransform 方法) (torchrl.envs.transforms.VecNorm 方法) (torchrl.envs.transforms.VIPRewardTransform 方法) (torchrl.modules.AdditiveGaussianModule 方法) (torchrl.modules.BatchRenorm1d 方法) (torchrl.modules.ConsistentDropout 方法) (torchrl.modules.ConsistentDropoutModule 方法) (torchrl.modules.Conv3dNet 方法) (torchrl.modules.ConvNet 方法) (torchrl.modules.DdpgCnnActor 方法) (torchrl.modules.DdpgCnnQNet 方法) (torchrl.modules.DdpgMlpActor 方法) (torchrl.modules.DdpgMlpQNet 方法) (torchrl.modules.DecisionTransformer 方法) (torchrl.modules.DistributionalDQNnet 方法) (torchrl.modules.DreamerActor 方法) (torchrl.modules.DTActor 方法) (torchrl.modules.DuelingCnnDQNet 方法) (torchrl.modules.EGreedyModule 方法) (torchrl.modules.GRU 方法) (torchrl.modules.GRUCell 方法) (torchrl.modules.GRUModule 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.modules.LSTM 方法) (torchrl.modules.LSTMCell 方法) (torchrl.modules.LSTMModule 方法) (torchrl.modules.MLP 方法) (torchrl.modules.MPCPlannerBase 方法) (torchrl.modules.MultiAgentNetBase 方法) (torchrl.modules.ObsDecoder 方法) (torchrl.modules.ObsEncoder 方法) (torchrl.modules.OnlineDTActor 方法) (torchrl.modules.OrnsteinUhlenbeckProcessModule 方法) (torchrl.modules.RSSMPosterior 方法) (torchrl.modules.RSSMPrior 方法) (torchrl.modules.SqueezeLayer 方法) (torchrl.modules.tensordict_module.DecisionTransformerInferenceWrapper 方法) (torchrl.modules.tensordict_module.DistributionalQValueModule 方法) (torchrl.modules.tensordict_module.MultiStepActorWrapper 方法) (torchrl.modules.tensordict_module.QValueModule 方法) (torchrl.modules.tensordict_module.TanhModule 方法) (torchrl.modules.utils.biased_softplus 方法) (torchrl.modules.VmapModule 方法) (torchrl.objectives.A2CLoss 方法) (torchrl.objectives.ClipPPOLoss 方法) (torchrl.objectives.CQLLoss 方法) (torchrl.objectives.CrossQLoss 方法) (torchrl.objectives.DDPGLoss 方法) (torchrl.objectives.DiscreteCQLLoss 方法) (torchrl.objectives.DiscreteIQLLoss 方法) (torchrl.objectives.DiscreteSACLoss 方法) (torchrl.objectives.DistributionalDQNLoss 方法) (torchrl.objectives.DQNLoss 方法) (torchrl.objectives.DreamerActorLoss 方法) (torchrl.objectives.DreamerModelLoss 方法) (torchrl.objectives.DreamerValueLoss 方法) (torchrl.objectives.DTLoss 方法) (torchrl.objectives.GAILLoss 方法) (torchrl.objectives.IQLLoss 方法) (torchrl.objectives.KLPENPPOLoss 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.LossModule 方法) (torchrl.objectives.multiagent.QMixerLoss 方法) (torchrl.objectives.OnlineDTLoss 方法) (torchrl.objectives.PPOLoss 方法) (torchrl.objectives.REDQLoss 方法) (torchrl.objectives.ReinforceLoss 方法) (torchrl.objectives.SACLoss 方法) (torchrl.objectives.TD3BCLoss 方法) (torchrl.objectives.TD3Loss 方法) (torchrl.objectives.value.GAE 方法) (torchrl.objectives.value.TD0Estimator 方法) (torchrl.objectives.value.TD1Estimator 方法) (torchrl.objectives.value.TDLambdaEstimator 方法) (torchrl.objectives.value.ValueEstimatorBase 方法) FrameSkipTransform (torchrl.envs.transforms 中的类) freeze() (torchrl.envs.transforms.VecNorm 方法) (torchrl.envs.transforms.VecNormV2 方法), [1] from_chats() (torchrl.data.llm.History 类方法) from_dataloader() (torchrl.envs.llm.ChatEnv 类方法) (torchrl.envs.llm.DatasetChatEnv 类方法) (torchrl.envs.llm.GSM8KEnv 类方法) (torchrl.envs.llm.IFEvalEnv 类方法) (torchrl.envs.llm.LLMEnv 类方法) (torchrl.envs.llm.LLMEnv 方法) from_dataset() (torchrl.data.PairwiseDataset 类方法) (torchrl.data.PromptData 类方法) from_policy() (torchrl.collectors.distributed.DistributedWeightUpdater 类方法) (torchrl.collectors.distributed.RPCWeightUpdater 类方法) (torchrl.collectors.llm.vLLMUpdater 类方法) (torchrl.collectors.MultiProcessedWeightUpdater 类方法) (torchrl.collectors.RayWeightUpdater 类方法) (torchrl.collectors.VanillaWeightUpdater 类方法) (torchrl.collectors.WeightUpdaterBase 类方法) (torchrl.collectors.WeightUpdaterBase 方法) from_stateful_net() (torchrl.modules.MultiAgentNetBase 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.LossModule 方法) from_tensordict() (torchrl.data.llm.ContentBase 类方法) (torchrl.data.llm.History 类方法) (torchrl.data.PairwiseDataset 类方法) (torchrl.data.PromptData 类方法) (torchrl.data.RewardData 类方法) (torchrl.data.Tree 类方法) (torchrl.envs.llm.IFEvalScoreData 类方法) (torchrl.modules.llm.ChatHistory 类方法) (torchrl.modules.llm.LogProbs 类方法) (torchrl.modules.llm.Masks 类方法) (torchrl.modules.llm.Text 类方法) (torchrl.modules.llm.Tokens 类方法) (torchrl.objectives.llm.GRPOLossOutput 类方法) (torchrl.objectives.llm.SFTLossOutput 类方法) from_tensordict_pair() (torchrl.data.TensorDictMap 类方法) frozen_copy() (torchrl.envs.transforms.VecNorm 方法) (torchrl.envs.transforms.VecNormV2 方法), [1] full_action_spec (torchrl.data.Tree 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) full_action_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) full_done_spec (torchrl.data.Tree 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) full_done_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) full_observation_spec (torchrl.data.Tree 属性) full_observation_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) full_reward_spec (torchrl.data.Tree 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) full_reward_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) full_state_spec (torchrl.data.Tree 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) full_state_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) fully_expanded() (torchrl.data.Tree 方法) functional (torchrl.objectives.A2CLoss 属性) (torchrl.objectives.llm.GRPOLoss 属性) (torchrl.objectives.llm.SFTLoss 属性) (torchrl.objectives.LossModule 属性) (torchrl.objectives.PPOLoss 属性) (torchrl.objectives.ReinforceLoss 属性) G GAE (torchrl.objectives.value 中的类) GAILLoss (torchrl.objectives 中的类) gen_params() (torchrl.envs.PendulumEnv 静态方法) generalized_advantage_estimate (torchrl.objectives.value.functional 中的类) generate() (torchrl.data.RolloutFromModel 方法) generate_exp_name() (torchrl.record.loggers 模块中) get() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.RewardData 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) get_available_libraries() (torchrl.envs 模块中) get_buffer() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) get_class_that_defined_method() (torchrl.implement_for 静态方法) get_critic_operator() (torchrl.modules.tensordict_module.ActorCriticOperator 方法) get_dataloader (torchrl.data 中的类) get_dist() (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) get_dist_with_prompt_mask() (torchrl.modules.llm.vLLMWrapper 方法) get_extra_state() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.VecNorm 方法) (torchrl.envs.transforms.VecNormV2 方法), [1] (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) get_input_from_hash() (torchrl.envs.transforms.Hash 方法) get_insert_index() (torchrl.data.replay_buffers.TensorDictMaxValueWriter 方法) get_keys_from_env() (torchrl.data.MCTSForest 方法) get_legal_moves() (torchrl.envs.ChessEnv 方法) get_library_name() (torchrl.envs.llm.MLGymWrapper 静态方法) get_logger() (torchrl.record.loggers 模块中) get_mode() (torchrl.modules.TanhNormal 方法) get_model_metadata() (torchrl.collectors.llm.vLLMUpdater 类方法) get_new_version() (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) get_parameter() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) get_policy_head() (torchrl.modules.tensordict_module.ActorCriticOperator 方法) (torchrl.modules.tensordict_module.ActorCriticWrapper 方法) (torchrl.modules.tensordict_module.ActorValueOperator 方法) get_policy_model() (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) get_policy_operator() (torchrl.modules.tensordict_module.ActorCriticWrapper 方法) (torchrl.modules.tensordict_module.ActorValueOperator 方法) get_policy_version() (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) get_primers_from_module (torchrl.modules.utils 中的类) get_reward_operator() (torchrl.modules.tensordict_module.WorldModelWrapper 方法) get_stateful_net() (torchrl.modules.MultiAgentNetBase 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.LossModule 方法) get_stats_random_rollout() (torchrl.trainers.helpers 模块中) get_submodule() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) get_transition_model_operator() (torchrl.modules.tensordict_module.WorldModelWrapper 方法) get_value_head() (torchrl.modules.tensordict_module.ActorCriticOperator 方法) (torchrl.modules.tensordict_module.ActorCriticWrapper 方法) (torchrl.modules.tensordict_module.ActorValueOperator 方法) get_value_operator() (torchrl.modules.tensordict_module.ActorCriticOperator 方法) (torchrl.modules.tensordict_module.ActorCriticWrapper 方法) (torchrl.modules.tensordict_module.ActorValueOperator 方法) get_vertex_by_hash() (torchrl.data.Tree 方法) get_vertex_by_id() (torchrl.data.Tree 方法) GrayScale (torchrl.envs.transforms 中的类) group_optimizers (torchrl.objectives 中的类) GRPOLoss (torchrl.objectives.llm 中的类) GRPOLossOutput (torchrl.objectives.llm 中的类) GRU (torchrl.modules 中的类) GRUCell (torchrl.modules 中的类) GRUModule (torchrl.modules 中的类) gSDENoise (torchrl.envs.transforms 中的类) GSM8KEnv (torchrl.envs.llm 中的类) GSM8KPrepareQuestion (torchrl.envs.llm 中的类) GSM8KRewardParser (torchrl.envs.llm 中的类) gym_backend() (torchrl.envs 模块中) GymEnv() (torchrl.envs 模块中) GymLikeEnv (torchrl.envs 中的类) GymWrapper() (torchrl.envs 模块中) H H5Combine (torchrl.data 中的类) H5Split (torchrl.data 中的类) H5StorageCheckpointer (torchrl.data.replay_buffers 中的类) HabitatEnv() (torchrl.envs 模块中) half() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) HardUpdate (torchrl.objectives 中的类) Hash (torchrl.envs.transforms 中的类) HashToInt (torchrl.data 中的类) History (torchrl.data.llm 中的类) hold_out_net (torchrl.objectives 中的类) hold_out_params (torchrl.objectives 中的类) I IFEvalEnv (torchrl.envs.llm 中的类) IFEvalScoreData (torchrl.envs.llm 中的类) IfEvalScorer (torchrl.envs.llm 中的类) ImmutableDatasetWriter (torchrl.data.replay_buffers 中的类) implement_for (torchrl 中的类) implements_for_spec() (torchrl.data.Binary 类方法) (torchrl.data.BinaryDiscreteTensorSpec 类方法) (torchrl.data.Bounded 类方法) (torchrl.data.BoundedTensorSpec 类方法) (torchrl.data.Categorical 类方法) (torchrl.data.Composite 类方法) (torchrl.data.CompositeSpec 类方法) (torchrl.data.DiscreteTensorSpec 类方法) (torchrl.data.LazyStackedCompositeSpec 类方法) (torchrl.data.LazyStackedTensorSpec 类方法) (torchrl.data.MultiCategorical 类方法) (torchrl.data.MultiDiscreteTensorSpec 类方法) (torchrl.data.MultiOneHot 类方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 类方法) (torchrl.data.NonTensor 类方法) (torchrl.data.NonTensorSpec 类方法) (torchrl.data.OneHot 类方法) (torchrl.data.OneHotDiscreteTensorSpec 类方法) (torchrl.data.Stacked 类方法) (torchrl.data.StackedComposite 类方法) (torchrl.data.TensorSpec 类方法) (torchrl.data.Unbounded 类方法) (torchrl.data.UnboundedContinuous 类方法) (torchrl.data.UnboundedContinuousTensorSpec 类方法) (torchrl.data.UnboundedDiscrete 类方法) (torchrl.data.UnboundedDiscreteTensorSpec 类方法) import_module() (torchrl.implement_for 类方法) increment_version() (torchrl.collectors.distributed.DistributedWeightUpdater 方法) (torchrl.collectors.distributed.RPCWeightUpdater 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.llm.vLLMUpdater 方法) (torchrl.collectors.MultiProcessedWeightUpdater 方法) (torchrl.collectors.RayWeightUpdater 方法) (torchrl.collectors.VanillaWeightUpdater 方法) (torchrl.collectors.WeightUpdaterBase 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) IndependentNormal (torchrl.modules 中的类) index() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) init() (torchrl.collectors.distributed.DistributedWeightUpdater 方法) (torchrl.collectors.distributed.RPCWeightUpdater 方法) (torchrl.collectors.llm.vLLMUpdater 方法), [1] (torchrl.collectors.MultiProcessedWeightUpdater 方法) (torchrl.collectors.RayWeightUpdater 方法) (torchrl.collectors.VanillaWeightUpdater 方法) (torchrl.collectors.WeightUpdaterBase 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.objectives.llm.MCAdvantage 方法) init_key (torchrl.modules.tensordict_module.MultiStepActorWrapper 属性) init_stats() (torchrl.envs.transforms.ObservationNorm 方法) init_updater() (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.DataCollectorBase 方法) (torchrl.collectors.distributed.DistributedDataCollector 方法) (torchrl.collectors.distributed.DistributedSyncDataCollector 方法) (torchrl.collectors.distributed.RayCollector 方法) (torchrl.collectors.distributed.RPCDataCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) initialize_parameters() (torchrl.modules.NoisyLazyLinear 方法) InitTracker (torchrl.envs.transforms 中的类) input_spec (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) (torchrl.envs.transforms.TransformedEnv 属性) input_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) insert() (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.transforms.Compose 方法) insert_transform() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.transforms.AutoResetEnv 方法) (torchrl.envs.transforms.TransformedEnv 方法) inv() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.ActionDiscretizer 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.objectives.llm.MCAdvantage 方法) inv_softplus (torchrl.modules.utils 中的类) ipu() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) IQLLoss (torchrl.objectives 中的类) is_empty() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.StackedComposite 方法) is_in() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) is_initialized() (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) is_spec_locked (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) is_tdmodule_compatible() (torchrl.data.DensifyReward 静态方法) (torchrl.data.QueryModule 静态方法) (torchrl.data.TensorDictMap 静态方法) (torchrl.modules.llm.LLMWrapperBase 静态方法) (torchrl.modules.llm.TransformersWrapper 静态方法) (torchrl.modules.llm.vLLMWrapper 静态方法) (torchrl.objectives.llm.GRPOLoss 静态方法) (torchrl.objectives.llm.SFTLoss 静态方法) is_terminal (torchrl.data.Tree 属性) IsaacGymEnv() (torchrl.envs 模块中) IsaacGymWrapper() (torchrl.envs 模块中) IsaacLabWrapper() (torchrl.envs 模块中) items() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.StackedComposite 方法) iterator() (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.SyncDataCollector 方法) J JumanjiEnv() (torchrl.envs 模块中) JumanjiWrapper() (torchrl.envs 模块中) K keys() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.StackedComposite 方法) KLComputation (torchrl.envs.llm.transforms 中的类) KLPENPPOLoss (torchrl.objectives 中的类) KLRewardTransform (torchrl.envs.llm.transforms 中的类) (torchrl.envs.transforms 中的类) L LazyMemmapStorage (torchrl.data.replay_buffers 中的类) LazyStackedCompositeSpec (torchrl.data 中的类) LazyStackedTensorSpec (torchrl.data 中的类) LazyStackStorage (torchrl.data.replay_buffers 中的类) LazyTensorStorage (torchrl.data.replay_buffers 中的类) LineariseRewards (torchrl.envs.transforms 中的类) ListStorage (torchrl.data.replay_buffers 中的类) ListStorageCheckpointer (torchrl.data.replay_buffers 中的类) LLMCollector (torchrl.collectors.llm 中的类) LLMEnv (torchrl.envs.llm 中的类) LLMHashingEnv (torchrl.envs 中的类) (torchrl.envs.llm 中的类) LLMMaskedCategorical (torchrl.modules 中的类) LLMOnDevice (torchrl.modules.llm 中的类) LLMWrapperBase (torchrl.modules.llm 中的类) LMHeadActorValueOperator (torchrl.modules.tensordict_module 中的类) load() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.llm.ContentBase 类方法) (torchrl.data.llm.History 类方法) (torchrl.data.PairwiseDataset 类方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.PromptData 类方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.LazyMemmapStorage 方法) (torchrl.data.replay_buffers.LazyStackStorage 方法) (torchrl.data.replay_buffers.LazyTensorStorage 方法) (torchrl.data.replay_buffers.ListStorage 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.replay_buffers.Storage 方法) (torchrl.data.replay_buffers.StorageEnsemble 方法) (torchrl.data.replay_buffers.TensorStorage 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.RewardData 类方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) (torchrl.data.TokenizedDatasetLoader 方法) (torchrl.data.Tree 类方法) (torchrl.envs.llm.IFEvalScoreData 类方法) (torchrl.modules.llm.ChatHistory 类方法) (torchrl.modules.llm.LogProbs 类方法) (torchrl.modules.llm.Masks 类方法) (torchrl.modules.llm.Text 类方法) (torchrl.modules.llm.Tokens 类方法) (torchrl.objectives.llm.GRPOLossOutput 类方法) (torchrl.objectives.llm.SFTLossOutput 类方法) load_() (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.RewardData 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) load_from_file() (torchrl.trainers.Trainer 方法) load_memmap() (torchrl.data.llm.ContentBase 类方法) (torchrl.data.llm.History 类方法) (torchrl.data.PairwiseDataset 类方法) (torchrl.data.PromptData 类方法) (torchrl.data.RewardData 类方法) (torchrl.data.Tree 类方法) (torchrl.envs.llm.IFEvalScoreData 类方法) (torchrl.modules.llm.ChatHistory 类方法) (torchrl.modules.llm.LogProbs 类方法) (torchrl.modules.llm.Masks 类方法) (torchrl.modules.llm.Text 类方法) (torchrl.modules.llm.Tokens 类方法) (torchrl.objectives.llm.GRPOLossOutput 类方法) (torchrl.objectives.llm.SFTLossOutput 类方法) load_state_dict() (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.distributed.RayCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.RewardData 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.data.Tree 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.TrajCounter 方法) (torchrl.envs.transforms.TransformedEnv 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.CrossQLoss 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.llm.SFTLossOutput 方法) (torchrl.objectives.SACLoss 方法) loads() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) loc (torchrl.envs.transforms.VecNorm 属性) (torchrl.envs.transforms.VecNormV2 属性) loc() (torchrl.envs.transforms.VecNormV2 方法) local_policy() (torchrl.collectors.distributed.RayCollector 方法) lock_() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.StackedComposite 方法) log_prob() (torchrl.modules.Delta 方法) (torchrl.modules.LLMMaskedCategorical 方法) (torchrl.modules.MaskedCategorical 方法) (torchrl.modules.MaskedOneHotCategorical 方法) (torchrl.modules.OneHotCategorical 方法) (torchrl.modules.TruncatedNormal 方法) Logger() (torchrl.record.loggers 模块中) logits (torchrl.modules.LLMMaskedCategorical 属性) LogProbs (torchrl.modules.llm 中的类) logprobs_of_labels() (torchrl.data.RolloutFromModel 静态方法) LogScalar (torchrl.trainers 中的类) LogValidationReward (torchrl.trainers 中的类) loss_critic() (torchrl.objectives.A2CLoss 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.PPOLoss 方法) loss_value_diff() (torchrl.objectives.IQLLoss 静态方法) LossModule (torchrl.objectives 中的类) LSTM (torchrl.modules 中的类) LSTMCell (torchrl.modules 中的类) LSTMModule (torchrl.modules 中的类) M make_collector_offpolicy() (torchrl.trainers.helpers 模块中) make_collector_onpolicy() (torchrl.trainers.helpers 模块中) make_composite_from_td() (torchrl.envs 模块中) make_cudnn_based() (torchrl.modules.GRUModule 方法) (torchrl.modules.LSTMModule 方法) make_dqn_loss() (torchrl.trainers.helpers 模块中) make_gsm8k_env (torchrl.envs.llm 中的类) make_mlgym (torchrl.envs.llm 中的类) make_neg_dim() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) make_node() (torchrl.data.Tree 类方法) make_noload_model() (torchrl.envs.transforms.VC1Transform 类方法) make_python_based() (torchrl.modules.GRUModule 方法) (torchrl.modules.LSTMModule 方法) make_rb_transform_and_sampler() (torchrl.envs.transforms.CatFrames 方法) make_replay_buffer() (torchrl.trainers.helpers 模块中) make_target_updater() (torchrl.trainers.helpers 模块中) make_tensordict() (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.LLMHashingEnv 方法) make_tensordict_primer() (torchrl.modules.ConsistentDropoutModule 方法) (torchrl.modules.GRUModule 方法), [1] (torchrl.modules.LSTMModule 方法), [1] make_trainer() (torchrl.trainers.helpers 模块中) make_value_estimator() (torchrl.objectives.A2CLoss 方法) (torchrl.objectives.CQLLoss 方法) (torchrl.objectives.CrossQLoss 方法) (torchrl.objectives.DDPGLoss 方法) (torchrl.objectives.DiscreteCQLLoss 方法) (torchrl.objectives.DiscreteSACLoss 方法) (torchrl.objectives.DistributionalDQNLoss 方法) (torchrl.objectives.DQNLoss 方法) (torchrl.objectives.DreamerActorLoss 方法) (torchrl.objectives.IQLLoss 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.LossModule 方法) (torchrl.objectives.multiagent.QMixerLoss 方法) (torchrl.objectives.PPOLoss 方法) (torchrl.objectives.REDQLoss 方法) (torchrl.objectives.ReinforceLoss 方法) (torchrl.objectives.SACLoss 方法) (torchrl.objectives.TD3BCLoss 方法) (torchrl.objectives.TD3Loss 方法) make_variant() (torchrl.envs.EnvCreator 方法) make_vllm_worker (torchrl.modules.llm 中的类) mappings (torchrl.modules.utils 中的类) MarlGroupMapType() (torchrl.envs 模块中) mask (torchrl.modules.LLMMaskedCategorical 属性) mask_context() (torchrl.modules.tensordict_module.DecisionTransformerInferenceWrapper 方法) masked_dist (torchrl.modules.LLMMaskedCategorical 属性) masked_logits (torchrl.modules.LLMMaskedCategorical 属性) MaskedCategorical (torchrl.modules 中的类) MaskedOneHotCategorical (torchrl.modules 中的类) Masks (torchrl.modules.llm 中的类) max_length() (torchrl.data.Tree 方法) maybe_init_target_entropy() (torchrl.objectives.CrossQLoss 方法) maybe_reset() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) MCAdvantage (torchrl.objectives.llm 中的类) MCPToolTransform (torchrl.envs.llm.transforms 中的类) MCTSForest (torchrl.data 中的类) mean (torchrl.modules.Delta 属性) (torchrl.modules.TanhDelta 属性) (torchrl.modules.TanhNormal 属性) MeltingpotEnv() (torchrl.envs 模块中) MeltingpotWrapper() (torchrl.envs 模块中) memmap() (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.RewardData 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) memmap_() (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.RewardData 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) memmap_like() (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.RewardData 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) memmap_refresh_() (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.RewardData 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) memoize_encode() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) MinariExperienceReplay (torchrl.data.datasets 中的类) mix() (torchrl.modules.QMixer 方法) (torchrl.modules.VDNMixer 方法) MLFlowLogger() (torchrl.record.loggers.mlflow 模块中) MLGymWrapper (torchrl.envs.llm 中的类) MLP (torchrl.modules 中的类) mode (torchrl.modules.Delta 属性) (torchrl.modules.IndependentNormal 属性) (torchrl.modules.LLMMaskedCategorical 属性) (torchrl.modules.MaskedOneHotCategorical 属性) (torchrl.modules.OneHotCategorical 属性) (torchrl.modules.TanhDelta 属性) (torchrl.modules.TanhNormal 属性) (torchrl.modules.TruncatedNormal 属性) ModelBasedEnvBase() (torchrl.envs 模块中) module_set() (torchrl.implement_for 方法) modules() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) MOGymEnv() (torchrl.envs 模块中) MOGymWrapper() (torchrl.envs 模块中) MPCPlannerBase (torchrl.modules 中的类) MPPIPlanner (torchrl.modules 中的类) mtia() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) MultiAction (torchrl.envs.transforms 中的类) MultiAgentConvNet (torchrl.modules 中的类) MultiAgentMLP (torchrl.modules 中的类) MultiAgentNetBase (torchrl.modules 中的类) MultiaSyncDataCollector (torchrl.collectors 中的类) MultiCategorical (torchrl.data 中的类) MultiDiscreteTensorSpec (torchrl.data 中的类) MultiOneHot (torchrl.data 中的类) MultiOneHotDiscreteTensorSpec (torchrl.data 中的类) MultiProcessedWeightUpdater (torchrl.collectors 中的类) MultiStep (torchrl.data 中的类) MultiStepActorWrapper (torchrl.modules.tensordict_module 中的类) MultiStepTransform (torchrl.envs.transforms.rb_transforms 中的类) MultiSyncDataCollector (torchrl.collectors 中的类) MultiThreadedEnv() (torchrl.envs 模块中) MultiThreadedEnvWrapper() (torchrl.envs 模块中) N n_steps (torchrl.envs.transforms.rb_transforms.MultiStepTransform 属性) named_buffers() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) named_children() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) named_modules() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) named_parameters() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.LossModule 方法) ndim (torchrl.data.Binary 属性) (torchrl.data.BinaryDiscreteTensorSpec 属性) (torchrl.data.Bounded 属性) (torchrl.data.BoundedTensorSpec 属性) (torchrl.data.Categorical 属性) (torchrl.data.Composite 属性) (torchrl.data.CompositeSpec 属性) (torchrl.data.DiscreteTensorSpec 属性) (torchrl.data.LazyStackedCompositeSpec 属性) (torchrl.data.LazyStackedTensorSpec 属性) (torchrl.data.MultiCategorical 属性) (torchrl.data.MultiDiscreteTensorSpec 属性) (torchrl.data.MultiOneHot 属性) (torchrl.data.MultiOneHotDiscreteTensorSpec 属性) (torchrl.data.NonTensor 属性) (torchrl.data.NonTensorSpec 属性) (torchrl.data.OneHot 属性) (torchrl.data.OneHotDiscreteTensorSpec 属性) (torchrl.data.Stacked 属性) (torchrl.data.StackedComposite 属性) (torchrl.data.TensorSpec 属性) (torchrl.data.Unbounded 属性) (torchrl.data.UnboundedContinuous 属性) (torchrl.data.UnboundedContinuousTensorSpec 属性) (torchrl.data.UnboundedDiscrete 属性) (torchrl.data.UnboundedDiscreteTensorSpec 属性) ndimension() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) Nested2TED (torchrl.data 中的类) NestedStorageCheckpointer (torchrl.data.replay_buffers 中的类) next() (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) next_state_value (torchrl.objectives 中的类) node_observation (torchrl.data.Tree 属性) node_observations (torchrl.data.Tree 属性) NoisyLazyLinear (torchrl.modules 中的类) NoisyLinear (torchrl.modules 中的类) NonTensor (torchrl.data 中的类) NonTensorSpec (torchrl.data 中的类) NoopResetEnv (torchrl.envs.transforms 中的类) num_children (torchrl.data.Tree 属性) num_vertices() (torchrl.data.Tree 方法) O ObsDecoder (torchrl.modules 中的类) ObsEncoder (torchrl.modules 中的类) observation_keys (torchrl.data.MCTSForest 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) observation_spec (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) observation_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) ObservationNorm (torchrl.envs.transforms 中的类) ObservationTransform (torchrl.envs.transforms 中的类) one() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) OneHot (torchrl.data 中的类) OneHotCategorical (torchrl.modules 中的类) OneHotDiscreteTensorSpec (torchrl.data 中的类) OneHotOrdinal (torchrl.modules 中的类) ones() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) OnlineDTActor (torchrl.modules 中的类) OnlineDTLoss (torchrl.objectives 中的类) OpenMLEnv() (torchrl.envs 模块中) OpenSpielEnv() (torchrl.envs 模块中) OpenSpielWrapper() (torchrl.envs 模块中) OptimizerHook (torchrl.trainers 中的类) Ordinal (torchrl.modules 中的类) OrnsteinUhlenbeckProcessModule (torchrl.modules 中的类) output_spec (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) (torchrl.envs.transforms.TransformedEnv 属性) output_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) P padding_value (torchrl.modules.LLMMaskedCategorical 属性) PairwiseDataset (torchrl.data 中的类) parallel_env_constructor() (torchrl.trainers.helpers 模块中) ParallelEnv (torchrl.envs 中的类) parameters() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.LossModule 方法) parent (torchrl.data.llm.TopKRewardSelector 属性) (torchrl.data.Tree 属性) (torchrl.envs.llm.GSM8KPrepareQuestion 属性) (torchrl.envs.llm.GSM8KRewardParser 属性) (torchrl.envs.llm.IfEvalScorer 属性) (torchrl.envs.llm.transforms.AddThinkingPrompt 属性) (torchrl.envs.llm.transforms.BrowserTransform 属性) (torchrl.envs.llm.transforms.DataLoadingPrimer 属性) (torchrl.envs.llm.transforms.KLComputation 属性) (torchrl.envs.llm.transforms.KLRewardTransform 属性) (torchrl.envs.llm.transforms.MCPToolTransform 属性) (torchrl.envs.llm.transforms.PolicyVersion 属性) (torchrl.envs.llm.transforms.PythonInterpreter 属性) (torchrl.envs.llm.transforms.RetrieveKL 属性) (torchrl.envs.llm.transforms.RetrieveLogProb 属性) (torchrl.envs.llm.transforms.TemplateTransform 属性) (torchrl.envs.llm.transforms.Tokenizer 属性) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 属性) (torchrl.envs.transforms.Transform 属性) (torchrl.objectives.llm.MCAdvantage 属性) pause() (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.DataCollectorBase 方法) (torchrl.collectors.distributed.DistributedDataCollector 方法) (torchrl.collectors.distributed.DistributedSyncDataCollector 方法) (torchrl.collectors.distributed.RayCollector 方法) (torchrl.collectors.distributed.RPCDataCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) PendulumEnv (torchrl.envs 中的类) PermuteTransform (torchrl.envs.transforms 中的类) PettingZooEnv() (torchrl.envs 模块中) PettingZooWrapper() (torchrl.envs 模块中) PinMemoryTransform (torchrl.envs.transforms 中的类) PixelRenderTransform() (torchrl.record 模块中) planning() (torchrl.modules.CEMPlanner 方法) (torchrl.modules.MPCPlannerBase 方法) (torchrl.modules.MPPIPlanner 方法) plot() (torchrl.data.Tree 方法) policy_version (torchrl.collectors.llm.LLMCollector 属性) (torchrl.collectors.llm.RayLLMCollector 属性) PolicyVersion (torchrl.envs.llm.transforms 中的类) pop() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.StackedComposite 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.transforms.Compose 方法) position_level_masking (torchrl.modules.LLMMaskedCategorical 属性) post_hooks (torchrl.collectors.distributed.DistributedWeightUpdater 属性) (torchrl.collectors.distributed.RPCWeightUpdater 属性) (torchrl.collectors.llm.vLLMUpdater 属性) (torchrl.collectors.MultiProcessedWeightUpdater 属性) (torchrl.collectors.RayWeightUpdater 属性) (torchrl.collectors.VanillaWeightUpdater 属性) (torchrl.collectors.WeightUpdaterBase 属性) PPOLoss (torchrl.objectives 中的类) preprocess() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) prev_action (torchrl.data.Tree 属性) PrioritizedReplayBuffer (torchrl.data 中的类) PrioritizedSampler (torchrl.data.replay_buffers 中的类) PrioritizedSliceSampler (torchrl.data.replay_buffers 中的类) ProbabilisticActor (torchrl.modules.tensordict_module 中的类) probs (torchrl.modules.LLMMaskedCategorical 属性) ProcessorAsyncEnvPool (torchrl.envs 中的类) project() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) PromptData (torchrl.data 中的类) PromptTensorDictTokenizer (torchrl.data 中的类) push_weights() (torchrl.collectors.distributed.DistributedWeightUpdater 方法) (torchrl.collectors.distributed.RPCWeightUpdater 方法) (torchrl.collectors.llm.vLLMUpdater 方法) (torchrl.collectors.MultiProcessedWeightUpdater 方法) (torchrl.collectors.RayWeightUpdater 方法) (torchrl.collectors.VanillaWeightUpdater 方法) (torchrl.collectors.WeightUpdaterBase 方法), [1] PythonInterpreter (torchrl.envs.llm.transforms 中的类) Q QMixer (torchrl.modules 中的类) QMixerLoss (torchrl.objectives.multiagent 中的类) QueryModule (torchrl.data 中的类) qvalue_loss() (torchrl.objectives.CrossQLoss 方法) (torchrl.objectives.TD3BCLoss 方法) QValueActor (torchrl.modules.tensordict_module 中的类) QValueHook (torchrl.modules 中的类) QValueModule (torchrl.modules.tensordict_module 中的类) R R3MTransform (torchrl.envs.transforms 中的类) rand() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) rand_action() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.TransformedEnv 方法) rand_step() (torchrl.envs 模块中) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法), [1] (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) random() (torchrl.modules.tensordict_module.SafeModule 方法) (torchrl.modules.tensordict_module.SafeProbabilisticModule 方法) random_sample() (torchrl.modules.tensordict_module.SafeModule 方法) (torchrl.modules.tensordict_module.SafeProbabilisticModule 方法) RandomCropTensorDict (torchrl.envs.transforms 中的类) RandomPolicy() (torchrl.envs 模块中) RandomProjectionHash (torchrl.data 中的类) RandomSampler (torchrl.data.replay_buffers 中的类) RayCollector (torchrl.collectors.distributed 中的类) RayLLMCollector (torchrl.collectors.llm 中的类) RayReplayBuffer (torchrl.data 中的类) RayWeightUpdater (torchrl.collectors 中的类) read_action() (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) read_done() (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) read_obs() (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) read_reward() (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) recurrent_mode (torchrl.modules 中的类) REDQLoss (torchrl.objectives 中的类) register() (torchrl.trainers.BatchSubSampler 方法) (torchrl.trainers.ClearCudaCache 方法) (torchrl.trainers.CountFramesLog 方法) (torchrl.trainers.LogScalar 方法) (torchrl.trainers.LogValidationReward 方法) (torchrl.trainers.OptimizerHook 方法) (torchrl.trainers.ReplayBufferTrainer 方法) (torchrl.trainers.RewardNormalizer 方法) (torchrl.trainers.SelectKeys 方法) (torchrl.trainers.TrainerHookBase 方法) (torchrl.trainers.UpdateWeights 方法) register_backward_hook() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_buffer() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_collector() (torchrl.collectors.distributed.DistributedWeightUpdater 方法) (torchrl.collectors.distributed.RPCWeightUpdater 方法) (torchrl.collectors.llm.vLLMUpdater 方法) (torchrl.collectors.MultiProcessedWeightUpdater 方法) (torchrl.collectors.RayWeightUpdater 方法) (torchrl.collectors.VanillaWeightUpdater 方法) (torchrl.collectors.WeightUpdaterBase 方法), [1] (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) register_forward_hook() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_forward_pre_hook() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_full_backward_hook() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_full_backward_pre_hook() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_gym() (torchrl.envs.AsyncEnvPool 类方法) (torchrl.envs.ChessEnv 类方法) (torchrl.envs.EnvBase 类方法) (torchrl.envs.GymLikeEnv 类方法) (torchrl.envs.llm.ChatEnv 类方法) (torchrl.envs.llm.DatasetChatEnv 类方法) (torchrl.envs.llm.GSM8KEnv 类方法) (torchrl.envs.llm.IFEvalEnv 类方法) (torchrl.envs.llm.LLMEnv 类方法) (torchrl.envs.llm.LLMHashingEnv 类方法) (torchrl.envs.llm.MLGymWrapper 类方法) (torchrl.envs.LLMHashingEnv 类方法) (torchrl.envs.ParallelEnv 类方法) (torchrl.envs.PendulumEnv 类方法) (torchrl.envs.ProcessorAsyncEnvPool 类方法) (torchrl.envs.SerialEnv 类方法) (torchrl.envs.ThreadingAsyncEnvPool 类方法) (torchrl.envs.TicTacToeEnv 类方法) register_gym_spec_conversion() (torchrl.envs 模块中) register_keys() (torchrl.envs.transforms.EndOfLifeTransform 方法) register_load_hook() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) register_load_state_dict_post_hook() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_load_state_dict_pre_hook() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_module() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_parameter() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_post_hook() (torchrl.collectors.distributed.DistributedWeightUpdater 方法) (torchrl.collectors.distributed.RPCWeightUpdater 方法) (torchrl.collectors.llm.vLLMUpdater 方法) (torchrl.collectors.MultiProcessedWeightUpdater 方法) (torchrl.collectors.RayWeightUpdater 方法) (torchrl.collectors.VanillaWeightUpdater 方法) (torchrl.collectors.WeightUpdaterBase 方法) register_save_hook() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) register_state_dict_post_hook() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) register_state_dict_pre_hook() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) ReinforceLoss (torchrl.objectives 中的类) remote_collectors (torchrl.collectors.distributed.RayCollector 属性) RemoteTensorDictReplayBuffer (torchrl.data 中的类) RemoveEmptySpecs (torchrl.envs.transforms 中的类) RenameTransform (torchrl.envs.transforms 中的类) ReplayBuffer (torchrl.data 中的类) ReplayBufferEnsemble (torchrl.data.replay_buffers 中的类) ReplayBufferTrainer (torchrl.trainers 中的类) reproducible_hash() (torchrl.envs.transforms.Hash 类方法) requires_grad_() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) reset() (torchrl.envs 模块中) (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法), [1] (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法), [1] (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.implement_for 类方法) reset_dataloader() (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) reset_keys (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) reset_noise (torchrl.modules 中的类) reset_out_keys() (torchrl.data.DensifyReward 方法) (torchrl.data.QueryModule 方法) (torchrl.data.TensorDictMap 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.SFTLoss 方法) reset_parameters() (torchrl.modules.MultiAgentNetBase 方法) reset_parameters_recursive() (torchrl.data.DensifyReward 方法) (torchrl.data.QueryModule 方法) (torchrl.data.TensorDictMap 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.LossModule 方法) reset_parent() (torchrl.envs.transforms.Transform 方法) reshape() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) Resize (torchrl.envs.transforms 中的类) RetrieveKL (torchrl.envs.llm.transforms 中的类) RetrieveLogProb (torchrl.envs.llm.transforms 中的类) reward2go (torchrl.objectives.value.functional 中的类) Reward2GoTransform (torchrl.envs.transforms 中的类) reward_key (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) reward_keys (torchrl.data.MCTSForest 属性) (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) reward_spec (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) reward_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) RewardClipping (torchrl.envs.transforms 中的类) RewardData (torchrl.data 中的类) RewardNormalizer (torchrl.trainers 中的类) RewardScaling (torchrl.envs.transforms 中的类) RewardSum (torchrl.envs.transforms 中的类) RoboHiveEnv() (torchrl.envs 模块中) rollout (torchrl.collectors.llm.LLMCollector 属性) (torchrl.collectors.llm.RayLLMCollector 属性) rollout() (torchrl.envs 模块中) (torchrl.collectors.SyncDataCollector 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法), [1] (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) rollout_from_path() (torchrl.data.Tree 方法) RolloutFromModel (torchrl.data 中的类) RoundRobinWriter (torchrl.data.replay_buffers 中的类) RPCDataCollector (torchrl.collectors.distributed 中的类) RPCWeightUpdater (torchrl.collectors.distributed 中的类) rsample() (torchrl.modules.Delta 方法) (torchrl.modules.LLMMaskedCategorical 方法) (torchrl.modules.MaskedOneHotCategorical 方法) (torchrl.modules.OneHotCategorical 方法) RSSMPosterior (torchrl.modules 中的类) RSSMPrior (torchrl.modules 中的类) S SACLoss (torchrl.objectives 中的类) SafeModule (torchrl.modules.tensordict_module 中的类) SafeProbabilisticModule (torchrl.modules.tensordict_module 中的类) SafeProbabilisticTensorDictSequential (torchrl.modules.tensordict_module 中的类) SafeSequential (torchrl.modules.tensordict_module 中的类) sample() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) (torchrl.modules.Delta 方法) (torchrl.modules.LLMMaskedCategorical 方法) (torchrl.modules.MaskedCategorical 方法) (torchrl.modules.MaskedOneHotCategorical 方法) (torchrl.modules.OneHotCategorical 方法) Sampler (torchrl.data.replay_buffers 中的类) sampler (torchrl.data.datasets.AtariDQNExperienceReplay 属性) (torchrl.data.datasets.BaseDatasetExperienceReplay 属性) (torchrl.data.datasets.D4RLExperienceReplay 属性) (torchrl.data.datasets.MinariExperienceReplay 属性) (torchrl.data.PrioritizedReplayBuffer 属性) (torchrl.data.RayReplayBuffer 属性) (torchrl.data.RemoteTensorDictReplayBuffer 属性) (torchrl.data.replay_buffers.ReplayBufferEnsemble 属性) (torchrl.data.ReplayBuffer 属性) (torchrl.data.TensorDictPrioritizedReplayBuffer 属性) (torchrl.data.TensorDictReplayBuffer 属性) SamplerEnsemble (torchrl.data.replay_buffers 中的类) SamplerWithoutReplacement (torchrl.data.replay_buffers 中的类) save() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.PromptData 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.LazyMemmapStorage 方法) (torchrl.data.replay_buffers.LazyStackStorage 方法) (torchrl.data.replay_buffers.LazyTensorStorage 方法) (torchrl.data.replay_buffers.ListStorage 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.replay_buffers.Storage 方法) (torchrl.data.replay_buffers.StorageEnsemble 方法) (torchrl.data.replay_buffers.TensorStorage 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.RewardData 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) scale (torchrl.envs.transforms.VecNorm 属性) (torchrl.envs.transforms.VecNormV2 属性) scale() (torchrl.envs.transforms.VecNormV2 方法) select_out_keys() (torchrl.data.DensifyReward 方法) (torchrl.data.QueryModule 方法) (torchrl.data.TensorDictMap 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.SFTLoss 方法) selected_actions (torchrl.data.Tree 属性) SelectKeys (torchrl.trainers 中的类) SelectTransform (torchrl.envs.transforms 中的类) separates() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.StackedComposite 方法) SerialEnv (torchrl.envs 中的类) set() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.RewardData 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) set_auto_unwrap_transformed_env (torchrl 中的类) set_container() (torchrl.envs.transforms.Transform 方法) set_exploration_type() (torchrl.envs 模块中) set_extra_state() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.VecNorm 方法) (torchrl.envs.transforms.VecNormV2 方法), [1] (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) set_gym_backend() (torchrl.envs 模块中) set_info_dict_reader() (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) set_keys() (torchrl.objectives.CrossQLoss 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.LossModule 方法) (torchrl.objectives.value.ValueEstimatorBase 方法) set_missing_tolerance() (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.transforms.TransformedEnv 方法) set_provisional_n() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) set_recurrent_mode (torchrl.modules 中的类) set_recurrent_mode() (torchrl.modules.GRUModule 方法) (torchrl.modules.LSTMModule 方法) set_sampler() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) set_seed() (torchrl.envs 模块中) (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.distributed.RayCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法), [1] (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.TransformedEnv 方法) set_spec_lock_() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) set_storage() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) set_submodule() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) set_tensor_keys() (torchrl.modules.tensordict_module.DecisionTransformerInferenceWrapper 方法) set_writer() (torchrl.data.datasets.AtariDQNExperienceReplay 方法) (torchrl.data.datasets.BaseDatasetExperienceReplay 方法) (torchrl.data.datasets.D4RLExperienceReplay 方法) (torchrl.data.datasets.MinariExperienceReplay 方法) (torchrl.data.PrioritizedReplayBuffer 方法) (torchrl.data.RayReplayBuffer 方法) (torchrl.data.RemoteTensorDictReplayBuffer 方法) (torchrl.data.replay_buffers.ReplayBufferEnsemble 方法) (torchrl.data.ReplayBuffer 方法) (torchrl.data.TensorDictPrioritizedReplayBuffer 方法) (torchrl.data.TensorDictReplayBuffer 方法) SFTLoss (torchrl.objectives.llm 中的类) SFTLossOutput (torchrl.objectives.llm 中的类) shape (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) share_memory() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) shutdown() (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.distributed.RayCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) SignTransform (torchrl.envs.transforms 中的类) SipHash (torchrl.data 中的类) SliceSampler (torchrl.data.replay_buffers 中的类) SliceSamplerWithoutReplacement (torchrl.data.replay_buffers 中的类) SMACv2Env() (torchrl.envs 模块中) SMACv2Wrapper() (torchrl.envs 模块中) SoftUpdate (torchrl.objectives 中的类) specs (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) split_trajectories() (torchrl.collectors.utils 模块中) squeeze() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) Squeeze2dLayer (torchrl.modules 中的类) SqueezeLayer (torchrl.modules 中的类) SqueezeTransform (torchrl.envs.transforms 中的类) Stack (torchrl.envs.transforms 中的类) Stacked (torchrl.data 中的类) StackedComposite (torchrl.data 中的类) standard_normal (torchrl.envs.transforms.VecNorm 属性) (torchrl.envs.transforms.VecNormV2 属性) standard_normal() (torchrl.envs.transforms.VecNormV2 方法) start() (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.DataCollectorBase 方法) (torchrl.collectors.distributed.DistributedDataCollector 方法) (torchrl.collectors.distributed.DistributedSyncDataCollector 方法) (torchrl.collectors.distributed.RayCollector 方法) (torchrl.collectors.distributed.RPCDataCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) state_dict() (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.distributed.RayCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.RewardData 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.data.Tree 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.Hash 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.TrajCounter 方法) (torchrl.envs.transforms.TransformedEnv 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.CrossQLoss 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) (torchrl.objectives.llm.SFTLossOutput 方法) (torchrl.objectives.SACLoss 方法) state_keys (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) state_spec (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) state_spec_unbatched (torchrl.envs.AsyncEnvPool 属性) (torchrl.envs.ChessEnv 属性) (torchrl.envs.EnvBase 属性) (torchrl.envs.GymLikeEnv 属性) (torchrl.envs.llm.ChatEnv 属性) (torchrl.envs.llm.DatasetChatEnv 属性) (torchrl.envs.llm.GSM8KEnv 属性) (torchrl.envs.llm.IFEvalEnv 属性) (torchrl.envs.llm.LLMEnv 属性) (torchrl.envs.llm.LLMHashingEnv 属性) (torchrl.envs.llm.MLGymWrapper 属性) (torchrl.envs.LLMHashingEnv 属性) (torchrl.envs.ParallelEnv 属性) (torchrl.envs.PendulumEnv 属性) (torchrl.envs.ProcessorAsyncEnvPool 属性) (torchrl.envs.SerialEnv 属性) (torchrl.envs.ThreadingAsyncEnvPool 属性) (torchrl.envs.TicTacToeEnv 属性) stateless_init_process_group (torchrl.modules.llm 中的类) step() (torchrl.envs 模块中) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法), [1] (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法), [1] (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.modules.AdditiveGaussianModule 方法) (torchrl.modules.EGreedyModule 方法) (torchrl.modules.OrnsteinUhlenbeckProcessModule 方法) step_and_maybe_reset() (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) step_mdp() (torchrl.envs 模块中) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) StepCounter (torchrl.envs.transforms 中的类) stop_remote_collectors() (torchrl.collectors.distributed.RayCollector 方法) Storage (torchrl.data.replay_buffers 中的类) storage (torchrl.data.datasets.AtariDQNExperienceReplay 属性) (torchrl.data.datasets.BaseDatasetExperienceReplay 属性) (torchrl.data.datasets.D4RLExperienceReplay 属性) (torchrl.data.datasets.MinariExperienceReplay 属性) (torchrl.data.PrioritizedReplayBuffer 属性) (torchrl.data.RayReplayBuffer 属性) (torchrl.data.RemoteTensorDictReplayBuffer 属性) (torchrl.data.replay_buffers.ReplayBufferEnsemble 属性) (torchrl.data.ReplayBuffer 属性) (torchrl.data.TensorDictPrioritizedReplayBuffer 属性) (torchrl.data.TensorDictReplayBuffer 属性) StorageCheckpointerBase (torchrl.data.replay_buffers 中的类) StorageEnsemble (torchrl.data.replay_buffers 中的类) StorageEnsembleCheckpointer (torchrl.data.replay_buffers 中的类) submitit_delayed_launcher (torchrl.collectors.distributed 中的类) support (torchrl.modules.TanhNormal 属性) sync_async_collector() (torchrl.trainers.helpers 模块中) sync_sync_collector() (torchrl.trainers.helpers 模块中) SyncDataCollector (torchrl.collectors 中的类) T TanhDelta (torchrl.modules 中的类) TanhModule (torchrl.modules.tensordict_module 中的类) TanhNormal (torchrl.modules 中的类) target_entropy_buffer (torchrl.objectives.CrossQLoss 属性) TargetReturn (torchrl.envs.transforms 中的类) td0_advantage_estimate (torchrl.objectives.value.functional 中的类) td0_return_estimate (torchrl.objectives.value.functional 中的类) TD0Estimator (torchrl.objectives.value 中的类) td1_advantage_estimate (torchrl.objectives.value.functional 中的类) td1_return_estimate (torchrl.objectives.value.functional 中的类) TD1Estimator (torchrl.objectives.value 中的类) TD3BCLoss (torchrl.objectives 中的类) TD3Loss (torchrl.objectives 中的类) td_lambda_advantage_estimate (torchrl.objectives.value.functional 中的类) td_lambda_return_estimate (torchrl.objectives.value.functional 中的类) TDLambdaEstimator (torchrl.objectives.value 中的类) TED2Flat (torchrl.data 中的类) TED2Nested (torchrl.data 中的类) TemplateTransform (torchrl.envs.llm.transforms 中的类) TensorboardLogger() (torchrl.record.loggers.tensorboard 模块中) TensorDictMap (torchrl.data 中的类) TensorDictMaxValueWriter (torchrl.data.replay_buffers 中的类) TensorDictPrimer (torchrl.envs.transforms 中的类) TensorDictPrioritizedReplayBuffer (torchrl.data 中的类) TensorDictRecorder() (torchrl.record 模块中) TensorDictReplayBuffer (torchrl.data 中的类) TensorDictRoundRobinWriter (torchrl.data.replay_buffers 中的类) TensorDictTokenizer (torchrl.data 中的类) TensorMap (torchrl.data 中的类) TensorSpec (torchrl.data 中的类) TensorStorage (torchrl.data.replay_buffers 中的类) TensorStorageCheckpointer (torchrl.data.replay_buffers 中的类) terminated_or_truncated() (torchrl.envs 模块中) Text (torchrl.modules.llm 中的类) ThreadingAsyncEnvPool (torchrl.envs 中的类) TicTacToeEnv (torchrl.envs 中的类) TimeMaxPool (torchrl.envs.transforms 中的类) Timer (torchrl.envs.transforms 中的类) to() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.BinaryToDecimal 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.HashToInt 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.MultiStep 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorDictMap 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.R3MTransform 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.TensorDictPrimer 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.TransformedEnv 方法) (torchrl.envs.transforms.VC1Transform 方法) (torchrl.envs.transforms.VIPTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.modules.tensordict_module.SafeModule 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) to_categorical() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) to_categorical_spec() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) to_empty() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) to_numpy() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) to_observation_norm() (torchrl.envs.transforms.VecNorm 方法) (torchrl.envs.transforms.VecNormV2 方法) to_one_hot() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) to_one_hot_spec() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) to_string() (torchrl.data.MCTSForest 方法) (torchrl.data.Tree 方法) to_tensordict() (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.RewardData 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) TokenizedDatasetLoader (torchrl.data 中的类) Tokenizer (torchrl.envs.llm.transforms 中的类) (torchrl.envs.transforms 中的类) Tokens (torchrl.modules.llm 中的类) TopKRewardSelector (torchrl.data.llm 中的类) total_dialog_turns (torchrl.collectors.llm.RayLLMCollector 属性) ToTensorImage (torchrl.envs.transforms 中的类) train() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.TransformedEnv 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) Trainer (torchrl.trainers 中的类) TrainerHookBase (torchrl.trainers 中的类) TrajCounter (torchrl.envs.transforms 中的类) Transform (torchrl.envs.transforms 中的类) transform_action_spec() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.DeviceCastTransform 方法) (torchrl.envs.transforms.ObservationNorm 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.UnaryTransform 方法) (torchrl.envs.transforms.UnsqueezeTransform 方法) (torchrl.objectives.llm.MCAdvantage 方法) transform_done_spec() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.DeviceCastTransform 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.Stack 方法) (torchrl.envs.transforms.Tokenizer 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.UnaryTransform 方法) (torchrl.objectives.llm.MCAdvantage 方法) transform_env_batch_size() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.BatchSizeTransform 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.objectives.llm.MCAdvantage 方法) transform_env_device() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.DeviceCastTransform 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.objectives.llm.MCAdvantage 方法) transform_input_spec() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.ActionDiscretizer 方法) (torchrl.envs.transforms.BatchSizeTransform 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.DeviceCastTransform 方法) (torchrl.envs.transforms.DiscreteActionProjection 方法) (torchrl.envs.transforms.DTypeCastTransform 方法) (torchrl.envs.transforms.MultiAction 方法) (torchrl.envs.transforms.PermuteTransform 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.RemoveEmptySpecs 方法) (torchrl.envs.transforms.RenameTransform 方法) (torchrl.envs.transforms.RewardSum 方法) (torchrl.envs.transforms.Stack 方法) (torchrl.envs.transforms.StepCounter 方法) (torchrl.envs.transforms.TargetReturn 方法) (torchrl.envs.transforms.TensorDictPrimer 方法) (torchrl.envs.transforms.Tokenizer 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.UnaryTransform 方法) (torchrl.envs.transforms.VIPRewardTransform 方法) (torchrl.objectives.llm.MCAdvantage 方法) transform_observation_spec() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.CatFrames 方法) (torchrl.envs.transforms.CatTensors 方法) (torchrl.envs.transforms.CenterCrop 方法) (torchrl.envs.transforms.ClipTransform 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.Crop 方法) (torchrl.envs.transforms.DeviceCastTransform 方法) (torchrl.envs.transforms.DTypeCastTransform 方法) (torchrl.envs.transforms.EndOfLifeTransform 方法) (torchrl.envs.transforms.FlattenObservation 方法) (torchrl.envs.transforms.GrayScale 方法) (torchrl.envs.transforms.InitTracker 方法) (torchrl.envs.transforms.ObservationNorm 方法) (torchrl.envs.transforms.PermuteTransform 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.Resize 方法) (torchrl.envs.transforms.RewardSum 方法) (torchrl.envs.transforms.SignTransform 方法) (torchrl.envs.transforms.Stack 方法) (torchrl.envs.transforms.StepCounter 方法) (torchrl.envs.transforms.TargetReturn 方法) (torchrl.envs.transforms.TensorDictPrimer 方法) (torchrl.envs.transforms.TimeMaxPool 方法) (torchrl.envs.transforms.Timer 方法) (torchrl.envs.transforms.Tokenizer 方法) (torchrl.envs.transforms.ToTensorImage 方法) (torchrl.envs.transforms.TrajCounter 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.UnaryTransform 方法) (torchrl.envs.transforms.UnsqueezeTransform 方法) (torchrl.envs.transforms.VC1Transform 方法) (torchrl.envs.transforms.VecGymEnvTransform 方法) (torchrl.envs.transforms.VecNorm 方法) (torchrl.envs.transforms.VecNormV2 方法), [1] (torchrl.objectives.llm.MCAdvantage 方法) transform_output_spec() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.BatchSizeTransform 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.DeviceCastTransform 方法) (torchrl.envs.transforms.DTypeCastTransform 方法) (torchrl.envs.transforms.ExcludeTransform 方法) (torchrl.envs.transforms.KLRewardTransform 方法) (torchrl.envs.transforms.MultiAction 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.RemoveEmptySpecs 方法) (torchrl.envs.transforms.RenameTransform 方法) (torchrl.envs.transforms.SelectTransform 方法) (torchrl.envs.transforms.StepCounter 方法) (torchrl.envs.transforms.Tokenizer 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.UnaryTransform 方法) (torchrl.envs.transforms.VecNormV2 方法), [1] (torchrl.objectives.llm.MCAdvantage 方法) transform_reward_spec() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.BinarizeReward 方法) (torchrl.envs.transforms.ClipTransform 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.DeviceCastTransform 方法) (torchrl.envs.transforms.LineariseRewards 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.RewardClipping 方法) (torchrl.envs.transforms.RewardScaling 方法) (torchrl.envs.transforms.RewardSum 方法) (torchrl.envs.transforms.SignTransform 方法) (torchrl.envs.transforms.Stack 方法) (torchrl.envs.transforms.Tokenizer 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.UnaryTransform 方法) (torchrl.envs.transforms.UnsqueezeTransform 方法) (torchrl.envs.transforms.VecNormV2 方法), [1] (torchrl.objectives.llm.MCAdvantage 方法) transform_state_spec() (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.transforms.Compose 方法) (torchrl.envs.transforms.DeviceCastTransform 方法) (torchrl.envs.transforms.ObservationNorm 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.envs.transforms.Transform 方法) (torchrl.envs.transforms.UnaryTransform 方法) (torchrl.envs.transforms.UnsqueezeTransform 方法) (torchrl.objectives.llm.MCAdvantage 方法) transformed_env_constructor() (在模块 torchrl.trainers.helpers 中) TransformedEnv (类,在 torchrl.envs.transforms 中) TransformersWrapper (类,在 torchrl.modules.llm 中) Tree (类,在 torchrl.data 中) TruncatedNormal (类,在 torchrl.modules 中) type() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) type_check() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) U UnaryTransform (类,在 torchrl.envs.transforms 中) unbind() (torchrl.data.llm.ContentBase 方法) (torchrl.data.llm.History 方法) (torchrl.data.PairwiseDataset 方法) (torchrl.data.PromptData 方法) (torchrl.data.RewardData 方法) (torchrl.data.Tree 方法) (torchrl.envs.llm.IFEvalScoreData 方法) (torchrl.modules.llm.ChatHistory 方法) (torchrl.modules.llm.LogProbs 方法) (torchrl.modules.llm.Masks 方法) (torchrl.modules.llm.Text 方法) (torchrl.modules.llm.Tokens 方法) (torchrl.objectives.llm.GRPOLossOutput 方法) (torchrl.objectives.llm.SFTLossOutput 方法) Unbounded (类,在 torchrl.data 中) UnboundedContinuous (类,在 torchrl.data 中) UnboundedContinuousTensorSpec (类,在 torchrl.data 中) UnboundedDiscrete (类,在 torchrl.data 中) UnboundedDiscreteTensorSpec (类,在 torchrl.data 中) unflatten() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) unfreeze() (torchrl.envs.transforms.VecNorm 方法) (torchrl.envs.transforms.VecNormV2 方法), [1] UnityMLAgentsEnv() (在模块 torchrl.envs 中) UnityMLAgentsWrapper() (在模块 torchrl.envs 中) unlock_() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.StackedComposite 方法) unsqueeze() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) UnsqueezeTransform (类,在 torchrl.envs.transforms 中) update() (torchrl.data.AdaptiveKLController 方法) update_kwargs() (torchrl.envs.ParallelEnv 方法) (torchrl.envs.SerialEnv 方法) update_mask() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) update_policy_weights_() (torchrl.collectors.aSyncDataCollector 方法) (torchrl.collectors.DataCollectorBase 方法) (torchrl.collectors.distributed.DistributedDataCollector 方法) (torchrl.collectors.distributed.DistributedSyncDataCollector 方法) (torchrl.collectors.distributed.RayCollector 方法) (torchrl.collectors.distributed.RPCDataCollector 方法) (torchrl.collectors.llm.LLMCollector 方法) (torchrl.collectors.llm.RayLLMCollector 方法) (torchrl.collectors.MultiaSyncDataCollector 方法) (torchrl.collectors.MultiSyncDataCollector 方法) (torchrl.collectors.SyncDataCollector 方法) update_priority() (torchrl.data.replay_buffers.PrioritizedSampler 方法) (torchrl.data.replay_buffers.PrioritizedSliceSampler 方法) update_weights() (torchrl.collectors.distributed.DistributedWeightUpdater 方法) (torchrl.collectors.distributed.RPCWeightUpdater 方法) UpdateWeights (类,在 torchrl.trainers 中) V valid_paths() (torchrl.data.Tree 方法) value_estimate() (torchrl.objectives.value.GAE 方法) (torchrl.objectives.value.TD0Estimator 方法) (torchrl.objectives.value.TD1Estimator 方法) (torchrl.objectives.value.TDLambdaEstimator 方法) (torchrl.objectives.value.ValueEstimatorBase 方法) value_estimator (torchrl.objectives.llm.GRPOLoss 属性) (torchrl.objectives.llm.SFTLoss 属性) (torchrl.objectives.LossModule 属性) ValueEstimatorBase (类,在 torchrl.objectives.value 中) ValueEstimators (类,在 torchrl.objectives 中) ValueOperator (类,在 torchrl.modules.tensordict_module 中) values() (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.StackedComposite 方法) VanillaWeightUpdater (类,在 torchrl.collectors 中) VC1Transform (类,在 torchrl.envs.transforms 中) VDNMixer (类,在 torchrl.modules 中) vec_generalized_advantage_estimate (类,在 torchrl.objectives.value.functional 中) vec_td1_advantage_estimate (类,在 torchrl.objectives.value.functional 中) vec_td1_return_estimate (类,在 torchrl.objectives.value.functional 中) vec_td_lambda_advantage_estimate (类,在 torchrl.objectives.value.functional 中) vec_td_lambda_return_estimate (类,在 torchrl.objectives.value.functional 中) VecGymEnvTransform (类,在 torchrl.envs.transforms 中) VecNorm (类,在 torchrl.envs.transforms 中) VecNormV2 (类,在 torchrl.envs.transforms 中) version (torchrl.envs.llm.transforms.PolicyVersion 属性) vertices() (torchrl.data.Tree 方法) VideoRecorder() (在模块 torchrl.record 中) view() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) VIPRewardTransform (类,在 torchrl.envs.transforms 中) VIPTransform (类,在 torchrl.envs.transforms 中) visits (torchrl.data.Tree 属性) vLLMUpdater (类,在 torchrl.collectors.llm 中) vLLMWorker (类,在 torchrl.modules.llm 中) vLLMWrapper (类,在 torchrl.modules.llm 中) vmap_randomness (torchrl.objectives.llm.GRPOLoss 属性) (torchrl.objectives.llm.SFTLoss 属性) (torchrl.objectives.LossModule 属性) VmapModule (类,在 torchrl.modules 中) VmasEnv() (在模块 torchrl.envs 中) VmasWrapper() (在模块 torchrl.envs 中) W WandbLogger() (在模块 torchrl.record.loggers.wandb 中) weight_updater (torchrl.collectors.llm.RayLLMCollector 属性) WeightUpdaterBase (类,在 torchrl.collectors 中) WorldModelWrapper (类,在 torchrl.modules.tensordict_module 中) write_count (torchrl.data.datasets.AtariDQNExperienceReplay 属性) (torchrl.data.datasets.BaseDatasetExperienceReplay 属性) (torchrl.data.datasets.D4RLExperienceReplay 属性) (torchrl.data.datasets.MinariExperienceReplay 属性) (torchrl.data.PrioritizedReplayBuffer 属性) (torchrl.data.RayReplayBuffer 属性) (torchrl.data.RemoteTensorDictReplayBuffer 属性) (torchrl.data.replay_buffers.ReplayBufferEnsemble 属性) (torchrl.data.ReplayBuffer 属性) (torchrl.data.TensorDictPrioritizedReplayBuffer 属性) (torchrl.data.TensorDictReplayBuffer 属性) Writer (类,在 torchrl.data.replay_buffers 中) writer (torchrl.data.datasets.AtariDQNExperienceReplay 属性) (torchrl.data.datasets.BaseDatasetExperienceReplay 属性) (torchrl.data.datasets.D4RLExperienceReplay 属性) (torchrl.data.datasets.MinariExperienceReplay 属性) (torchrl.data.PrioritizedReplayBuffer 属性) (torchrl.data.RayReplayBuffer 属性) (torchrl.data.RemoteTensorDictReplayBuffer 属性) (torchrl.data.replay_buffers.ReplayBufferEnsemble 属性) (torchrl.data.ReplayBuffer 属性) (torchrl.data.TensorDictPrioritizedReplayBuffer 属性) (torchrl.data.TensorDictReplayBuffer 属性) WriterEnsemble (类,在 torchrl.data.replay_buffers 中) X xpu() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) Z zero() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法) zero_grad() (torchrl.data.BinaryToDecimal 方法) (torchrl.data.DensifyReward 方法) (torchrl.data.HashToInt 方法) (torchrl.data.llm.TopKRewardSelector 方法) (torchrl.data.MultiStep 方法) (torchrl.data.QueryModule 方法) (torchrl.data.RandomProjectionHash 方法) (torchrl.data.SipHash 方法) (torchrl.data.TensorDictMap 方法) (torchrl.envs.AsyncEnvPool 方法) (torchrl.envs.ChessEnv 方法) (torchrl.envs.EnvBase 方法) (torchrl.envs.GymLikeEnv 方法) (torchrl.envs.llm.ChatEnv 方法) (torchrl.envs.llm.DatasetChatEnv 方法) (torchrl.envs.llm.GSM8KEnv 方法) (torchrl.envs.llm.GSM8KPrepareQuestion 方法) (torchrl.envs.llm.GSM8KRewardParser 方法) (torchrl.envs.llm.IFEvalEnv 方法) (torchrl.envs.llm.IfEvalScorer 方法) (torchrl.envs.llm.LLMEnv 方法) (torchrl.envs.llm.LLMHashingEnv 方法) (torchrl.envs.llm.MLGymWrapper 方法) (torchrl.envs.llm.transforms.AddThinkingPrompt 方法) (torchrl.envs.llm.transforms.BrowserTransform 方法) (torchrl.envs.llm.transforms.DataLoadingPrimer 方法) (torchrl.envs.llm.transforms.KLComputation 方法) (torchrl.envs.llm.transforms.KLRewardTransform 方法) (torchrl.envs.llm.transforms.MCPToolTransform 方法) (torchrl.envs.llm.transforms.PolicyVersion 方法) (torchrl.envs.llm.transforms.PythonInterpreter 方法) (torchrl.envs.llm.transforms.RetrieveKL 方法) (torchrl.envs.llm.transforms.RetrieveLogProb 方法) (torchrl.envs.llm.transforms.TemplateTransform 方法) (torchrl.envs.llm.transforms.Tokenizer 方法) (torchrl.envs.LLMHashingEnv 方法) (torchrl.envs.ParallelEnv 方法) (torchrl.envs.PendulumEnv 方法) (torchrl.envs.ProcessorAsyncEnvPool 方法) (torchrl.envs.SerialEnv 方法) (torchrl.envs.ThreadingAsyncEnvPool 方法) (torchrl.envs.TicTacToeEnv 方法) (torchrl.envs.transforms.rb_transforms.MultiStepTransform 方法) (torchrl.modules.llm.LLMWrapperBase 方法) (torchrl.modules.llm.TransformersWrapper 方法) (torchrl.modules.llm.vLLMWrapper 方法) (torchrl.objectives.llm.GRPOLoss 方法) (torchrl.objectives.llm.MCAdvantage 方法) (torchrl.objectives.llm.SFTLoss 方法) zeros() (torchrl.data.Binary 方法) (torchrl.data.BinaryDiscreteTensorSpec 方法) (torchrl.data.Bounded 方法) (torchrl.data.BoundedTensorSpec 方法) (torchrl.data.Categorical 方法) (torchrl.data.Composite 方法) (torchrl.data.CompositeSpec 方法) (torchrl.data.DiscreteTensorSpec 方法) (torchrl.data.LazyStackedCompositeSpec 方法) (torchrl.data.LazyStackedTensorSpec 方法) (torchrl.data.MultiCategorical 方法) (torchrl.data.MultiDiscreteTensorSpec 方法) (torchrl.data.MultiOneHot 方法) (torchrl.data.MultiOneHotDiscreteTensorSpec 方法) (torchrl.data.NonTensor 方法) (torchrl.data.NonTensorSpec 方法) (torchrl.data.OneHot 方法) (torchrl.data.OneHotDiscreteTensorSpec 方法) (torchrl.data.Stacked 方法) (torchrl.data.StackedComposite 方法) (torchrl.data.TensorSpec 方法) (torchrl.data.Unbounded 方法) (torchrl.data.UnboundedContinuous 方法) (torchrl.data.UnboundedContinuousTensorSpec 方法) (torchrl.data.UnboundedDiscrete 方法) (torchrl.data.UnboundedDiscreteTensorSpec 方法)