ultralytics 8.0.89 SAM predict and auto-annotate (#2298)

Co-authored-by: pre-commit-ci[bot] <66853113+pre-commit-ci[bot]@users.noreply.github.com> Co-authored-by: Yonghye Kwon <developer.0hye@gmail.com> Co-authored-by: Paula Derrenger <107626595+pderrenger@users.noreply.github.com> Co-authored-by: Dhruv Nair <dhruv.nair@gmail.com> Co-authored-by: Laughing <61612323+Laughing-q@users.noreply.github.com> Co-authored-by: Ayush Chaurasia <ayush.chaurarsia@gmail.com> Co-authored-by: Snyk bot <snyk-bot@snyk.io> Co-authored-by: Laughing-q <1185102784@qq.com>
2023-04-28 00:36:50 +02:00
parent 3e118f6170
commit 243fc4b1fe
44 changed files with 2915 additions and 440 deletions
--- a/ultralytics/yolo/data/init.py
+++ b/ultralytics/yolo/data/init.py
@ -1,9 +1,9 @@
 # Ultralytics YOLO 🚀, AGPL-3.0 license

 from .base import BaseDataset
-from .build import build_classification_dataloader, build_dataloader, load_inference_source
+from .build import build_dataloader, build_yolo_dataset, load_inference_source
 from .dataset import ClassificationDataset, SemanticDataset, YOLODataset
 from .dataset_wrappers import MixAndRectDataset

 __all__ = ('BaseDataset', 'ClassificationDataset', 'MixAndRectDataset', 'SemanticDataset', 'YOLODataset',
-           'build_classification_dataloader', 'build_dataloader', 'load_inference_source')
+           'build_yolo_dataset', 'build_dataloader', 'load_inference_source')
--- a/ultralytics/yolo/data/annotator.py
+++ b/ultralytics/yolo/data/annotator.py
@ -0,0 +1,42 @@
+from pathlib import Path
+
+from ultralytics import YOLO
+from ultralytics.vit.sam import PromptPredictor, build_sam
+from ultralytics.yolo.utils.torch_utils import select_device
+
+
+def auto_annotate(data, det_model='yolov8x.pt', sam_model='sam_b.pt', device='', output_dir=None):
+    device = select_device(device)
+    det_model = YOLO(det_model)
+    sam_model = build_sam(sam_model)
+    det_model.to(device)
+    sam_model.to(device)
+
+    if not output_dir:
+        output_dir = Path(str(data)).parent / 'labels'
+    Path(output_dir).mkdir(exist_ok=True, parents=True)
+
+    prompt_predictor = PromptPredictor(sam_model)
+    det_results = det_model(data, stream=True)
+
+    for result in det_results:
+        boxes = result.boxes.xyxy  # Boxes object for bbox outputs
+        class_ids = result.boxes.cls.int().tolist()  # noqa
+        prompt_predictor.set_image(result.orig_img)
+        masks, _, _ = prompt_predictor.predict_torch(
+            point_coords=None,
+            point_labels=None,
+            boxes=prompt_predictor.transform.apply_boxes_torch(boxes, result.orig_shape[:2]),
+            multimask_output=False,
+        )
+
+        result.update(masks=masks.squeeze(1))
+        segments = result.masks.xyn  # noqa
+
+        with open(str(Path(output_dir) / Path(result.path).stem) + '.txt', 'w') as f:
+            for i in range(len(segments)):
+                s = segments[i]
+                if len(s) == 0:
+                    continue
+                segment = map(str, segments[i].reshape(-1).tolist())
+                f.write(f'{class_ids[i]} ' + ' '.join(segment) + '\n')
--- a/ultralytics/yolo/data/base.py
+++ b/ultralytics/yolo/data/base.py
@ -24,17 +24,17 @@ class BaseDataset(Dataset):
    Base dataset class for loading and processing image data.

    Args:
-        img_path (str): Image path.
-        imgsz (int): Target image size for resizing. Default is 640.
-        cache (bool): Cache images in memory or on disk for faster loading. Default is False.
-        augment (bool): Apply data augmentation. Default is True.
-        hyp (dict): Dictionary of hyperparameters for data augmentation. Default is None.
-        prefix (str): Prefix for file paths. Default is an empty string.
-        rect (bool): Enable rectangular training. Default is False.
-        batch_size (int): Batch size for rectangular training. Default is None.
-        stride (int): Stride for rectangular training. Default is 32.
-        pad (float): Padding for rectangular training. Default is 0.5.
-        single_cls (bool): Use a single class for all labels. Default is False.
+        img_path (str): Path to the folder containing images.
+        imgsz (int, optional): Image size. Defaults to 640.
+        cache (bool, optional): Cache images to RAM or disk during training. Defaults to False.
+        augment (bool, optional): If True, data augmentation is applied. Defaults to True.
+        hyp (dict, optional): Hyperparameters to apply data augmentation. Defaults to None.
+        prefix (str, optional): Prefix to print in log messages. Defaults to ''.
+        rect (bool, optional): If True, rectangular training is used. Defaults to False.
+        batch_size (int, optional): Size of batches. Defaults to None.
+        stride (int, optional): Stride. Defaults to 32.
+        pad (float, optional): Padding. Defaults to 0.0.
+        single_cls (bool, optional): If True, single class training is used. Defaults to False.
        classes (list): List of included classes. Default is None.

    Attributes:
--- a/ultralytics/yolo/data/build.py
+++ b/ultralytics/yolo/data/build.py
@ -14,9 +14,8 @@ from ultralytics.yolo.data.dataloaders.stream_loaders import (LOADERS, LoadImage
 from ultralytics.yolo.data.utils import IMG_FORMATS, VID_FORMATS
 from ultralytics.yolo.utils.checks import check_file

-from ..utils import LOGGER, RANK, colorstr
-from ..utils.torch_utils import torch_distributed_zero_first
-from .dataset import ClassificationDataset, YOLODataset
+from ..utils import RANK, colorstr
+from .dataset import YOLODataset
 from .utils import PIN_MEMORY


@ -70,34 +69,31 @@ def seed_worker(worker_id):  # noqa
    random.seed(worker_seed)


-def build_dataloader(cfg, batch, img_path, data_info, stride=32, rect=False, rank=-1, mode='train'):
-    """Return an InfiniteDataLoader or DataLoader for training or validation set."""
-    assert mode in ['train', 'val']
-    shuffle = mode == 'train'
-    if cfg.rect and shuffle:
-        LOGGER.warning("WARNING ⚠️ 'rect=True' is incompatible with DataLoader shuffle, setting shuffle=False")
-        shuffle = False
-    with torch_distributed_zero_first(rank):  # init dataset *.cache only once if DDP
-        dataset = YOLODataset(
-            img_path=img_path,
-            imgsz=cfg.imgsz,
-            batch_size=batch,
-            augment=mode == 'train',  # augmentation
-            hyp=cfg,  # TODO: probably add a get_hyps_from_cfg function
-            rect=cfg.rect or rect,  # rectangular batches
-            cache=cfg.cache or None,
-            single_cls=cfg.single_cls or False,
-            stride=int(stride),
-            pad=0.0 if mode == 'train' else 0.5,
-            prefix=colorstr(f'{mode}: '),
-            use_segments=cfg.task == 'segment',
-            use_keypoints=cfg.task == 'pose',
-            classes=cfg.classes,
-            data=data_info)
+def build_yolo_dataset(cfg, img_path, batch, data_info, mode='train', rect=False, stride=32):
+    """Build YOLO Dataset"""
+    dataset = YOLODataset(
+        img_path=img_path,
+        imgsz=cfg.imgsz,
+        batch_size=batch,
+        augment=mode == 'train',  # augmentation
+        hyp=cfg,  # TODO: probably add a get_hyps_from_cfg function
+        rect=cfg.rect or rect,  # rectangular batches
+        cache=cfg.cache or None,
+        single_cls=cfg.single_cls or False,
+        stride=int(stride),
+        pad=0.0 if mode == 'train' else 0.5,
+        prefix=colorstr(f'{mode}: '),
+        use_segments=cfg.task == 'segment',
+        use_keypoints=cfg.task == 'pose',
+        classes=cfg.classes,
+        data=data_info)
+    return dataset

+
+def build_dataloader(dataset, batch, workers, shuffle=True, rank=-1):
+    """Return an InfiniteDataLoader or DataLoader for training or validation set."""
    batch = min(batch, len(dataset))
    nd = torch.cuda.device_count()  # number of CUDA devices
-    workers = cfg.workers if mode == 'train' else cfg.workers * 2
    nw = min([os.cpu_count() // max(nd, 1), batch if batch > 1 else 0, workers])  # number of workers
    sampler = None if rank == -1 else distributed.DistributedSampler(dataset, shuffle=shuffle)
    generator = torch.Generator()
@ -110,36 +106,7 @@ def build_dataloader(cfg, batch, img_path, data_info, stride=32, rect=False, ran
                              pin_memory=PIN_MEMORY,
                              collate_fn=getattr(dataset, 'collate_fn', None),
                              worker_init_fn=seed_worker,
-                              generator=generator), dataset
-
-
-# Build classification
-# TODO: using cfg like `build_dataloader`
-def build_classification_dataloader(path,
-                                    imgsz=224,
-                                    batch_size=16,
-                                    augment=True,
-                                    cache=False,
-                                    rank=-1,
-                                    workers=8,
-                                    shuffle=True):
-    """Returns Dataloader object to be used with YOLOv5 Classifier."""
-    with torch_distributed_zero_first(rank):  # init dataset *.cache only once if DDP
-        dataset = ClassificationDataset(root=path, imgsz=imgsz, augment=augment, cache=cache)
-    batch_size = min(batch_size, len(dataset))
-    nd = torch.cuda.device_count()
-    nw = min([os.cpu_count() // max(nd, 1), batch_size if batch_size > 1 else 0, workers])
-    sampler = None if rank == -1 else distributed.DistributedSampler(dataset, shuffle=shuffle)
-    generator = torch.Generator()
-    generator.manual_seed(6148914691236517205 + RANK)
-    return InfiniteDataLoader(dataset,
-                              batch_size=batch_size,
-                              shuffle=shuffle and sampler is None,
-                              num_workers=nw,
-                              sampler=sampler,
-                              pin_memory=PIN_MEMORY,
-                              worker_init_fn=seed_worker,
-                              generator=generator)  # or DataLoader(persistent_workers=True)
+                              generator=generator)


 def check_source(source):
@ -168,7 +135,7 @@ def check_source(source):
    return source, webcam, screenshot, from_img, in_memory, tensor


-def load_inference_source(source=None, transforms=None, imgsz=640, vid_stride=1, stride=32, auto=True):
+def load_inference_source(source=None, imgsz=640, vid_stride=1):
    """
    Loads an inference source for object detection and applies necessary transformations.

@ -192,23 +159,13 @@ def load_inference_source(source=None, transforms=None, imgsz=640, vid_stride=1,
    elif in_memory:
        dataset = source
    elif webcam:
-        dataset = LoadStreams(source,
-                              imgsz=imgsz,
-                              stride=stride,
-                              auto=auto,
-                              transforms=transforms,
-                              vid_stride=vid_stride)
+        dataset = LoadStreams(source, imgsz=imgsz, vid_stride=vid_stride)
    elif screenshot:
-        dataset = LoadScreenshots(source, imgsz=imgsz, stride=stride, auto=auto, transforms=transforms)
+        dataset = LoadScreenshots(source, imgsz=imgsz)
    elif from_img:
-        dataset = LoadPilAndNumpy(source, imgsz=imgsz, stride=stride, auto=auto, transforms=transforms)
+        dataset = LoadPilAndNumpy(source, imgsz=imgsz)
    else:
-        dataset = LoadImages(source,
-                             imgsz=imgsz,
-                             stride=stride,
-                             auto=auto,
-                             transforms=transforms,
-                             vid_stride=vid_stride)
+        dataset = LoadImages(source, imgsz=imgsz, vid_stride=vid_stride)

    # Attach source types to the dataset
    setattr(dataset, 'source_type', source_type)
--- a/ultralytics/yolo/data/dataloaders/stream_loaders.py
+++ b/ultralytics/yolo/data/dataloaders/stream_loaders.py
@ -15,7 +15,6 @@ import requests
 import torch
 from PIL import Image

-from ultralytics.yolo.data.augment import LetterBox
 from ultralytics.yolo.data.utils import IMG_FORMATS, VID_FORMATS
 from ultralytics.yolo.utils import LOGGER, ROOT, is_colab, is_kaggle, ops
 from ultralytics.yolo.utils.checks import check_requirements
@ -31,12 +30,11 @@ class SourceTypes:

 class LoadStreams:
    # YOLOv8 streamloader, i.e. `yolo predict source='rtsp://example.com/media.mp4'  # RTSP, RTMP, HTTP streams`
-    def __init__(self, sources='file.streams', imgsz=640, stride=32, auto=True, transforms=None, vid_stride=1):
+    def __init__(self, sources='file.streams', imgsz=640, vid_stride=1):
        """Initialize instance variables and check for consistent input stream shapes."""
        torch.backends.cudnn.benchmark = True  # faster for fixed-size inference
        self.mode = 'stream'
        self.imgsz = imgsz
-        self.stride = stride
        self.vid_stride = vid_stride  # video frame-rate stride
        sources = Path(sources).read_text().rsplit() if os.path.isfile(sources) else [sources]
        n = len(sources)
@ -72,10 +70,6 @@ class LoadStreams:
        LOGGER.info('')  # newline

        # Check for common shapes
-        s = np.stack([LetterBox(imgsz, auto, stride=stride)(image=x).shape for x in self.imgs])
-        self.rect = np.unique(s, axis=0).shape[0] == 1  # rect inference if all shapes equal
-        self.auto = auto and self.rect
-        self.transforms = transforms  # optional
        self.bs = self.__len__()

        if not self.rect:
@ -110,14 +104,7 @@ class LoadStreams:
            raise StopIteration

        im0 = self.imgs.copy()
-        if self.transforms:
-            im = np.stack([self.transforms(x) for x in im0])  # transforms
-        else:
-            im = np.stack([LetterBox(self.imgsz, self.auto, stride=self.stride)(image=x) for x in im0])
-            im = im[..., ::-1].transpose((0, 3, 1, 2))  # BGR to RGB, BHWC to BCHW
-            im = np.ascontiguousarray(im)  # contiguous
-
-        return self.sources, im, im0, None, ''
+        return self.sources, im0, None, ''

    def __len__(self):
        """Return the length of the sources object."""
@ -126,7 +113,7 @@ class LoadStreams:

 class LoadScreenshots:
    # YOLOv8 screenshot dataloader, i.e. `yolo predict source=screen`
-    def __init__(self, source, imgsz=640, stride=32, auto=True, transforms=None):
+    def __init__(self, source, imgsz=640):
        """source = [screen_number left top width height] (pixels)."""
        check_requirements('mss')
        import mss  # noqa
@ -140,9 +127,6 @@ class LoadScreenshots:
        elif len(params) == 5:
            self.screen, left, top, width, height = (int(x) for x in params)
        self.imgsz = imgsz
-        self.stride = stride
-        self.transforms = transforms
-        self.auto = auto
        self.mode = 'stream'
        self.frame = 0
        self.sct = mss.mss()
@ -165,19 +149,13 @@ class LoadScreenshots:
        im0 = np.array(self.sct.grab(self.monitor))[:, :, :3]  # [:, :, :3] BGRA to BGR
        s = f'screen {self.screen} (LTWH): {self.left},{self.top},{self.width},{self.height}: '

-        if self.transforms:
-            im = self.transforms(im0)  # transforms
-        else:
-            im = LetterBox(self.imgsz, self.auto, stride=self.stride)(image=im0)
-            im = im.transpose((2, 0, 1))[::-1]  # HWC to CHW, BGR to RGB
-            im = np.ascontiguousarray(im)  # contiguous
        self.frame += 1
-        return str(self.screen), im, im0, None, s  # screen, img, original img, im0s, s
+        return str(self.screen), im0, None, s  # screen, img, original img, im0s, s


 class LoadImages:
    # YOLOv8 image/video dataloader, i.e. `yolo predict source=image.jpg/vid.mp4`
-    def __init__(self, path, imgsz=640, stride=32, auto=True, transforms=None, vid_stride=1):
+    def __init__(self, path, imgsz=640, vid_stride=1):
        """Initialize the Dataloader and raise FileNotFoundError if file not found."""
        if isinstance(path, str) and Path(path).suffix == '.txt':  # *.txt file with img/vid/dir on each line
            path = Path(path).read_text().rsplit()
@ -198,13 +176,10 @@ class LoadImages:
        ni, nv = len(images), len(videos)

        self.imgsz = imgsz
-        self.stride = stride
        self.files = images + videos
        self.nf = ni + nv  # number of files
        self.video_flag = [False] * ni + [True] * nv
        self.mode = 'image'
-        self.auto = auto
-        self.transforms = transforms  # optional
        self.vid_stride = vid_stride  # video frame-rate stride
        self.bs = 1
        if any(videos):
@ -254,14 +229,7 @@ class LoadImages:
                raise FileNotFoundError(f'Image Not Found {path}')
            s = f'image {self.count}/{self.nf} {path}: '

-        if self.transforms:
-            im = self.transforms(im0)  # transforms
-        else:
-            im = LetterBox(self.imgsz, self.auto, stride=self.stride)(image=im0)
-            im = im.transpose((2, 0, 1))[::-1]  # HWC to CHW, BGR to RGB
-            im = np.ascontiguousarray(im)  # contiguous
-
-        return path, im, im0, self.cap, s
+        return [path], [im0], self.cap, s

    def _new_video(self, path):
        """Create a new video capture object."""
@ -290,16 +258,13 @@ class LoadImages:

 class LoadPilAndNumpy:

-    def __init__(self, im0, imgsz=640, stride=32, auto=True, transforms=None):
+    def __init__(self, im0, imgsz=640):
        """Initialize PIL and Numpy Dataloader."""
        if not isinstance(im0, list):
            im0 = [im0]
        self.paths = [getattr(im, 'filename', f'image{i}.jpg') for i, im in enumerate(im0)]
        self.im0 = [self._single_check(im) for im in im0]
        self.imgsz = imgsz
-        self.stride = stride
-        self.auto = auto
-        self.transforms = transforms
        self.mode = 'image'
        # Generate fake paths
        self.bs = len(self.im0)
@ -315,16 +280,6 @@ class LoadPilAndNumpy:
            im = np.ascontiguousarray(im)  # contiguous
        return im

-    def _single_preprocess(self, im, auto):
-        """Preprocesses a single image for inference."""
-        if self.transforms:
-            im = self.transforms(im)  # transforms
-        else:
-            im = LetterBox(self.imgsz, auto=auto, stride=self.stride)(image=im)
-            im = im.transpose((2, 0, 1))[::-1]  # HWC to CHW, BGR to RGB
-            im = np.ascontiguousarray(im)  # contiguous
-        return im
-
    def __len__(self):
        """Returns the length of the 'im0' attribute."""
        return len(self.im0)
@ -333,11 +288,8 @@ class LoadPilAndNumpy:
        """Returns batch paths, images, processed images, None, ''."""
        if self.count == 1:  # loop only once as it's batch inference
            raise StopIteration
-        auto = all(x.shape == self.im0[0].shape for x in self.im0) and self.auto
-        im = [self._single_preprocess(im, auto) for im in self.im0]
-        im = np.stack(im, 0) if len(im) > 1 else im[0][None]
        self.count += 1
-        return self.paths, im, self.im0, None, ''
+        return self.paths, self.im0, None, ''

    def __iter__(self):
        """Enables iteration for class LoadPilAndNumpy."""
@ -362,7 +314,7 @@ class LoadTensor:
        if self.count == 1:
            raise StopIteration
        self.count += 1
-        return None, self.im0, self.im0, None, ''  # self.paths, im, self.im0, None, ''
+        return None, self.im0, None, ''  # self.paths, im, self.im0, None, ''

    def __len__(self):
        """Returns the batch size."""
--- a/ultralytics/yolo/data/dataset.py
+++ b/ultralytics/yolo/data/dataset.py
@ -21,21 +21,9 @@ class YOLODataset(BaseDataset):
    Dataset class for loading object detection and/or segmentation labels in YOLO format.

    Args:
-        img_path (str): Path to the folder containing images.
-        imgsz (int, optional): Image size. Defaults to 640.
-        cache (bool, optional): Cache images to RAM or disk during training. Defaults to False.
-        augment (bool, optional): If True, data augmentation is applied. Defaults to True.
-        hyp (dict, optional): Hyperparameters to apply data augmentation. Defaults to None.
-        prefix (str, optional): Prefix to print in log messages. Defaults to ''.
-        rect (bool, optional): If True, rectangular training is used. Defaults to False.
-        batch_size (int, optional): Size of batches. Defaults to None.
-        stride (int, optional): Stride. Defaults to 32.
-        pad (float, optional): Padding. Defaults to 0.0.
-        single_cls (bool, optional): If True, single class training is used. Defaults to False.
+        data (dict, optional): A dataset YAML dictionary. Defaults to None.
        use_segments (bool, optional): If True, segmentation masks are used as labels. Defaults to False.
        use_keypoints (bool, optional): If True, keypoints are used as labels. Defaults to False.
-        data (dict, optional): A dataset YAML dictionary. Defaults to None.
-        classes (list): List of included classes. Default is None.

    Returns:
        (torch.utils.data.Dataset): A PyTorch dataset object that can be used for training an object detection model.
@ -43,28 +31,12 @@ class YOLODataset(BaseDataset):
    cache_version = '1.0.2'  # dataset labels *.cache version, >= 1.0.0 for YOLOv8
    rand_interp_methods = [cv2.INTER_NEAREST, cv2.INTER_LINEAR, cv2.INTER_CUBIC, cv2.INTER_AREA, cv2.INTER_LANCZOS4]

-    def __init__(self,
-                 img_path,
-                 imgsz=640,
-                 cache=False,
-                 augment=True,
-                 hyp=None,
-                 prefix='',
-                 rect=False,
-                 batch_size=None,
-                 stride=32,
-                 pad=0.0,
-                 single_cls=False,
-                 use_segments=False,
-                 use_keypoints=False,
-                 data=None,
-                 classes=None):
+    def __init__(self, *args, data=None, use_segments=False, use_keypoints=False, **kwargs):
        self.use_segments = use_segments
        self.use_keypoints = use_keypoints
        self.data = data
        assert not (self.use_segments and self.use_keypoints), 'Can not use both segments and keypoints.'
-        super().__init__(img_path, imgsz, cache, augment, hyp, prefix, rect, batch_size, stride, pad, single_cls,
-                         classes)
+        super().__init__(*args, **kwargs)

    def cache_labels(self, path=Path('./labels.cache')):
        """Cache dataset labels, check images and read shapes.