Detekce základních emocí na obličeji z videa.
Detection of basic facial emotions.
Supervisor: Sakin MartinCílem práce je vytvořit řešení pro vyhledávání patologických útvaru pomocí detektoru s CLIP. CLIP umožní uživateli zadat, co se bude v datech vyhledávat například "maligní uzel".
Více o technologií CLIP: https://openai.com/index/clip/
Supervisor: Goldmann TomášCílem této práce je navrhnout a natrénovat neuronovou síť určenou pro sledování vzdálených cílů. Součástí řešení bude také návrh a implementace vhodných algoritmů pro řízení manipulátoru, na němž je umístěna sledovací kamera.
Realizace systému vyžaduje propojení metod strojového učení, počítačového vidění a řízení pohybu. Práce je vypsána ve spolupráci s Fakultou elektrotechniky.
The goal of this thesis is to design and train a neural network for tracking distant targets. The solution will also involve the development and implementation of suitable control algorithms for a manipulator equipped with a tracking camera.
The project requires the integration of machine learning, computer vision, and motion control techniques. This thesis is offered in collaboration with the Faculty of Electrical Engineering.
Supervisor: Goldmann TomášModerní velké jazykové modely (LLM) vybavené vizuálním enkodérem nabízejí nové možnosti pro analýzu a porozumění obrazovým datům, a to i v oblastech, pro které nebyly původně trénovány, včetně biometrického rozpoznávání.
Cílem této práce je prozkoumat možnosti využití vybraných multimodálních LLM modelů (např. GPT-4o, LLaVA, CLIP) pro biometrické rozpoznávání osob na základě obličeje, duhovky a žil prstu. Práce se zaměří na posouzení schopnosti těchto modelů identifikovat nebo ověřit totožnost osob na základě obrazových vstupů, a to bez dodatečného trénování na doménově specifických datech.
Body zadání:
- Prostudování současného stavu v oblasti multimodálních LLM a jejich využití pro vizuální úlohy, zejména v biometrice.
- Výběr vhodných modelů (např. GPT-4o, LLaVA, CLIP) a návrh metodiky pro jejich využití při rozpoznávání obličeje, duhovky a žil prstu.
- Implementaci aplikace, která umožní testování těchto modelů na vybraných biometrických datech.
- Návrh a realizaci experimentů, které ověří schopnost těchto modelů rozpoznávat osoby v různých podmínkách.
- Simulaci útoků (např. prezentační útoky, manipulace s obrazem) a analýzu faktorů, které mohou negativně ovlivnit přesnost rozpoznávání.
- Vyhodnocení výsledků, identifikace omezení a návrh případných zlepšení.
Modern large language models (LLMs) equipped with visual encoders offer new possibilities for analyzing and understanding visual data, including in domains for which they were not originally trained — such as biometric recognition.
This thesis explores the potential of selected multimodal LLMs (e.g., GPT-4o, LLaVA, and CLIP) for recognizing individuals based on facial images, iris patterns, and finger vein structures for biometric person recognition. This study will evaluate these models' ability to identify or verify individuals using visual input without additional training on domain-specific biometric datasets.
Thesis Tasks:
Study the current state of the art in multimodal LLMs and their applications in visual tasks, particularly in biometrics.
Select suitable models (e.g., GPT-4o, LLaVA, and CLIP) and design a methodology for using them in facial, iris, and finger vein recognition.
Implement an application that enables testing of these models on selected biometric datasets.
Design and conduct experiments to assess the models' ability to recognize individuals under varying conditions.
Simulate attacks (e.g., presentation attacks and image manipulations) and analyze factors that may negatively affect recognition accuracy.
Finally, evaluate the results, identify limitations, and propose possible improvements.
Supervisor: Goldmann TomášCílem práce je navrhnout a implementovat aplikaci pro hodnocení kvality běhu s využitím moderních multimodálních modelů, konkrétně velkých jazykově-obrazových/video modelů (Video-LLM), které umožňují analýzu a interpretaci pohybu z videozáznamu.
Student/ka by měl/a:
- Prostudovat současné metody hodnocení kvality běhu v biomechanice a sportovní diagnostice.
- Analyzovat možnosti využití moderních Video-LMM (Large Multimodal Models), jako jsou GPT-4o, Flamingo, Video-LLaMA, VideoCLIP apod., pro zpracování videozáznamů běžců.
- Navrhnout metodiku zpracování běžeckého videa, včetně předzpracování (např. detekce postavy, extrakce klíčových bodů).
- Implementovat prototyp aplikace, která umožní: načtení videozáznamu běhu, analýzu běžeckého stylu, generování kvalitativního hodnocení v přirozeném jazyce (např. silné/ slabé stránky techniky běhu)
- Ověřit funkčnost systému na vybraném souboru testovacích videí (např. běh na páse, běh venku).
Zhodnotit přesnost, přínosy a omezení využití Video-LLM v dané oblasti.
The aim of this thesis is to design and implement an application for assessing running quality using modern multimodal models—specifically large video-language models (Video-LLMs)—that enable the analysis and interpretation of human motion from video recordings.
The thesis will involve:
- Studying current methods for evaluating running technique in biomechanics and sports diagnostics.
- Analyzing the potential of modern Video-LLMs (Large Multimodal Models), such as GPT-4o, Flamingo, Video-LLaMA, or VideoCLIP, for processing running videos.
- Proposing a methodology for processing running footage, including preprocessing steps (e.g., human detection, keypoint extraction).
- Implementing a prototype application that enables: loading a running video, analyzing running form, and generating qualitative feedback in natural language (e.g., strengths and weaknesses of the running technique).
- Validating the functionality of the system on a selected set of test videos (e.g., treadmill running, outdoor running).
- Evaluating the accuracy, benefits, and limitations of using Video-LLMs in this domain.
Supervisor: Goldmann TomášCílem této práce je navrhnout a implementovat řešení pro minipočítač (např. Raspberry Pi, NVIDIA Jetson), které bude schopno v reálném čase vyhodnocovat video stream a identifikovat předem definované události zadané uživatelem formou textového popisu (např. „zahradník s konví zalévající rostliny“).
V případě detekce takto specifikované situace bude příslušná videosekvence automaticky zaznamenána a následně bude prostřednictvím LoRa sítě odeslána notifikace (například na centrální server nebo jiný přijímač).
Práce zahrnuje:
zpracování vstupního video streamu na zařízení s omezeným výpočetním výkonem,
využití technologií pro počítačové vidění a jazykem řízenou detekci událostí (např. pomocí CLIP nebo Vid-LLMs),
optimalizaci systému pro provoz v reálném čase a nízkopříkonovém prostředí,
integraci s LoRa komunikačním modulem.
This thesis aims to design and implement a solution for a single-board computer (e.g., Raspberry Pi or NVIDIA Jetson) that can evaluate a video stream in real time and identify predefined, user-specified events described in natural language (e.g., "a gardener watering plants with a watering can").
When a specified event is detected, the corresponding video sequence is automatically recorded and a notification is sent via a LoRa network to a central server or another receiver.
This thesis covers processing the input video stream on a low-power, resource-constrained device; applying computer vision technologies and language-guided event detection (e.g., using CLIP or Vid-LLMs); optimizing the system for real-time performance in a low-power environment; and integrating with a LoRa communication module.
Supervisor: Goldmann TomášJazykové modely hrají v současnosti nezastupitelnou roli napříč mnoha oblastmi umělé inteligence, přičemž své uplatnění nacházejí i v oblasti biometrie.
Cílem této práce je využít existující obličejové enkodéry a jazykové modely k návrhu a implementaci systému, který bude schopen na základě obličejového snímku odhadnout původ osoby (např. geografický, etnický nebo kulturní kontext).
Práce bude zahrnovat:
analýzu současných přístupů ke zpracování biometrických dat pomocí velkých jazykových modelů (LLM),
návrh vhodné reprezentace obličeje pomocí embeddingů,
a vývoj komponenty, která propojí vizuální vstup s výstupem ve formě jazykového vysvětlení nebo klasifikace původu osoby.
Language models currently play an indispensable role across many areas of artificial intelligence, including applications in the field of biometrics.
The goal of this thesis is to leverage existing facial encoders and language models to design and implement a system capable of estimating a person’s origin (e.g., geographic, ethnic, or cultural context) based on a facial image.
The thesis will include:
an analysis of current approaches to processing biometric data using large language models (LLMs),
the design of a suitable facial representation using embeddings,
and the development of a component that links visual input with an output in the form of a language-based explanation or classification of a person’s origin.
Supervisor: Goldmann TomášCílem práce je detekce a případně klasifikace zvěře ve snímcích pořízených termokamerou. Student navrhne a natrénuje vhodnou neuronovou síť, provede potřebné experimenty a vytvoří uživatelské rozhraní pro prezentaci výsledků. Tato bakalářská práce je realizována ve spolupráci výzkumné skupiny STRADE při FIT VUT a Lesnické a dřevařské fakulty MENDELU.
The aim of this thesis is to detect and, if applicable, classify wildlife in images captured by a thermal camera. The student will design and train a suitable neural network, conduct the necessary experiments, and develop a user interface for presenting the results. This bachelor’s thesis is carried out in cooperation with the STRADE research group at FIT BUT and the Faculty of Forestry and Wood Technology at MENDELU.
Supervisor: Goldmann Tomáš- Cílem je využít 3D tiskárnu nebo robotickou ruku na psaní věrohodných podpisů.
- Pravděpodobně bude také nutné vytvořit i pero pro nasnímání podpisu nebo využít tablet.
- Možnost inspirovat se předchozí prácí.
- Práce vyžaduje práci s HW i SW.
- Alternativně by šlo generovat různé podpisy (ze zadaného textu) pomocí ML.
- The goal is to use a 3D printer or a robotic hand to write credible signatures.
- It will probably also be necessary to create a pen to capture the signature or use a tablet.
- Possibility to be inspired by previous work.
- Work requires work with on both HW and SW.
- Alternatively, it would be possible to generate different signatures (from the entered text) using machine learning.
Cílem práce je vytvořit neuronovou síť založenou na technologii StyleGAN, která bude generovat snímky obličeje. Dalším cílem je tuto síť upravit tak, aby byla řízena embedding vektorem (reprezentací obličeje pro rozpoznávání). Malé změny tohoto vektoru by měly vést k vytvoření podobných obličejů v různých variacích.
Supervisor: Goldmann TomášCílem práce je vytvořit řešení, které bude odhadovat natočení částečně zakrytého obličeje v obraze. Výstupem práce pak budou hodnoty natočení pro vstupní snímek obličeje v úhlech yaw, pitch a roll. Navíc budou provedeny experimenty s vyhodnocením přesnosti vůči referencím.
Supervisor: Goldmann TomášCílem práce je vytvořit generátor snímků obličeje, které splňují normu ISO/IEC 39794-5. Tato norma popisuje, zjednodušeně řečeno, jak mají vypadat průkazové fotografie. V rámci práce musí být implementovány mechanismy, které ověří, zda fotka splňuje požadovaná kritéria. Můžete se inspirovat zde: ONOT: a High-Quality ICAO-compliant Synthetic Mugshot Dataset (https://brosdocs.net/fg2024/144.pdf).
Jako základ řešení využijte libovolnou generativní neuronovou síť (GAN, CLIP+GAN, Diffusion). Generátor by měl umožnit vytvářet snímky s výrazy obličeje, které splňují výše uvedenou normu.
Supervisor: Goldmann TomášCílem práce je využití ViTR architektury neuronových sítí k vytvoření vlastního řešení určeného pro detekci podvrhů otisků prstů. Seznamte se s architekturami ViTR pro klasifikaci snímků a vyberte vhodné kandidáty. Síť vhodně upravte, natrénujte a proveďte experimenty. Nezapomeňte výsledky porovnat s existujícími řešeními a analyzovat, které podvrhy otisků prstů představují největší nebezpečí.
V rámci řešení práce bude nezbytné vyzkoušet více variant těchto sítí a provést důkladné experimenty.
Supervisor: Goldmann TomášCílem práce je navrhnout řešení s transformerovou neuronovou sítí (ViTR) pro detekci obličeje, které bude spustitelné na vybrané platformě s ARM procesorem. Měli byste se pokusit na základě existujících řešení navrhnout síť, která dokáže provádět rychlou detekci s minimální ztrátou výkonnosti. Cílem zadání není vytvořit řešení, které poběží v reálném čase, ale prozkoumat možnosti a zjistit hranice pro dostatečně přesné a zároveň rychlé zpracování.
Při přemýšlení o výběru si můžete něco přečíst zde: https://medium.com/@faheemrustamy/detection-transformer-detr-vs-yolo-for-object-detection-baeb3c50bc3
Supervisor: Goldmann TomášCílem práce je vytvořit zařízení s kamerou a ARM platformou, které bude sloužit pro bezkontaktní snímání žil ruky. V rámci práce bude zapotřebí vhodně navrhnout senzor a vytvořit obslužné algoritmy. Student bude mít k dispozici platformu s MCU ARM, kameru a LED pásky pro osvětlení.
Znalost 3D tisku výhodou.
Pro realizaci této práce je nutný zájem o hardware a pozitivní přístup k experimentování.
Supervisor: Goldmann TomášSmyslem aplikace je detekce prstu, z daného úhlu pohledu v několika snímcích. Jednotlivé snímky mají rozdílnou intenzitu osvětlení prostu a tedy i jinou vidítelnost krevního řečiště prstu. Úkolem je z několika snímků s jinou intenzitou osvětlení vytvořit a otestovat algoritmy pro složení snímků za účelem zvýšení viditelnosti krevního řečiště prstu.
Zadání bude přesněji specifikováno dle domluvy se zájemcem.
Create and test algorithms for composition of image with visible finger veins to increase a quality of image.
Supervisor: Rydlo ŠtěpánCílem práce je seznámit se s problematikou automatického sledování objektů v návaznosti na řízení kamerového manipulátoru s využitím moderních neuronových sítí.
V rámci řešení student:
- provede rešerši existujících sítí vhodných pro účely sledování objektů ve videu,
- navrhne a implementuje rozhraní pro propojení výstupu sítě a stávajícího dohledového systému SAOTS od výzkumné skupiny STRADE,
- integruje vybrané modely sítí do aplikace pro řízení manipulátoru,
- zhodnotí výhody a nevýhody takového řešení.
The aim of the thesis is to get acquainted with the problem of automatic object tracking in relation to the control of a camera manipulator using modern neural networks. Within the framework of the solution the student should perform a research of existing networks suitable for the purpose of object tracking in video, design and implement an interface to connect the output of the network and the existing SAOTS surveillance system from the STRADE research group, integrate selected network models into a manipulator control application, evaluate the advantages and disadvantages of such a solution.
Supervisor: Orság FilipCílem práce je seznámit se s aktuálním stavem dohledového sledovacího systému na velké vzdálenosti (SAOTS) vyvinutého skupinou STRADE (https://strade.fit.vutbr.cz/) a jeho následná inovace. V oblasti hardware jde o výběr vhodné inovace hardware zaměřeného na aplikace počítačového vidění. V oblasti software se pak jedná o návrh a implementaci sjednocující aplikace, která umožní snadno ovládat celou platformu aktuálně obsluhovanou několika separátními aplikacemi.
The aim of this project is to present the current state of the long-range surveillance and tracking system (SAOTS) developed by the STRADE group(https://strade.fit.vutbr.cz/) and its subsequent innovation. In the hardware domain, it concerns the selection of a suitable hardware upgrade aimed at computer vision applications. In the software domain, it is then the design and implementation of a unifying application that allows easy control of the entire platform currently served by several separate applications.
Supervisor: Orság FilipCílem je nasnímat prst pomocí tří kamer, za vhodné vlnové délky, fotografie spojit, extrahovat otisk prstu a vytvořit z něj 2D válený otisk.
Z fotografií by bylo vhodné vytvořit i 3D model a na výsledném obrázku otisku vyznačit markanty.
The goal is to scan a finger using three cameras, at suitable wavelengths, combine the photos, extract the fingerprint and create a 2D rolled print from it.
It would be advisable to create a 3D model from the photos and to mark the markings on the resulting image.
Hlavním účelem zadání je vytvořit generátor obrázků, z předem vygenerované struktury krevního řečiště prstu. Součástí bude dodán 3D model krevního řečiště. Daný model bude potřeba převést do obrazové formy, tedy formy, kterou zobrazují snímače.
Zadání bude přesněji specifikováno dle domluvy se zájemcem.
The main goal is create images of finger veins, which will simulate data from finger vein scanner device. 3D model of finger vein structure will be available, to generate a multiple images.
Supervisor: Rydlo ŠtěpánSmyslem zadání je navrhnout a vytvořit aplikaci, která bude zpracovávat snímky kde je více úhlů pohledu na jeden prst. Aplikace musí extrahovat jednotlivé pohledy, kde pozice pohledu jsou známy. Následně vytvořit masku prstu, a definovat společné body zájmu pro normalizaci prstu v jednotlivých pohledech.
Zadání bude přesněji specifikováno dle domluvy se zájemcem.
This topic is about extraction of the finger from the image. Definition of the mask of finger and normalisation of finger in multiple angle of view.
Supervisor: Rydlo ŠtěpánCílem této práce je provést redukci modelu vybrané neuronové sítě pro detekci obličeje. Pro zmenšení velikosti použíjte metodu Pruning.
Supervisor: Goldmann TomášJedná se o metody simulace, které transformují otisk na jiný typ. Výchozí typ bude dotekový otisk prstu transformace mohou být na bezkontaktní (fotka), rolovaný, patentní (krev, inkoust), latentní (zvýrazněný práškem, ninhydrinem), plastický (zanechaný např. v keramice). U některých transformací má smysl i reverzní operace, u některých bude potřeba simulovat i další poškození/úpravy typické pro otisky daného typu (převážně pozadí).
Další částí bude analýza databáze. Podle zaměření analýza kvality, skóre porovnání, anotace databáze, úspěšnosti převodů a úprav, atp.
Transformation between touch-based fingerprints to various other types (contactless, patent, latent, plastic) including specific damages (usually background).
Supervisor: Sakin MartinZadání bude přesněji specifikováno dle domluvy se zájemcem. Předběžně - jedná se o simulaci pozadí latentních otisků nebo různých technologii snímačů otisků prstů do syntetických (umělých) otisků prstů tak, aby vypadaly více jako reálné otisky. Bude nutné se seznámit se s rozdíly mezi dokonalým syntetickým otiskem, otiskem získaným ze senzoru a pozadím dle jednotlivých senzorů (DB jsou k dispozici nebo jsou k dispozici snímače). Do dokonalého syntetického otisku prstu pak bude třeba dogenerovat toto pozadí dle zvolené technologie. Vygenerovat sadu takto upravených otisků a zhodnotit výsledky. V tomto zadání je možné pokračovat v rozpracovaném řešení a výrazně ho rozšířit.
The goal is to simulate realistic background into synthetic fingerprint images. Background could be from various sensors or usual latent fingerprint background.
Supervisor: Sakin MartinJedná se o vylepšení (nebo znovu napsání) generátoru syntetických otisk prstu.
Stávající generátor vytváří otisky na základě markantů (bifurkace/ukončení), upravit se dá hustota linii, nastavení filtru, tvar otisku a třída reps. pole orientací. Vylepšení může být generováním složitějších markantů (ostrov, průsečná linii atd.), vylepšení celkové funkcionality (uvěřitelnost výsledků), rozšíření o generování rolovaného otisku a/nebo generování celého otisku dlaně. Dalšími menšími rozšířeními (bylo by vhodné kombinovat jich více) jsou generování statistik a anotací vygenerovaných otisků, možnost automatizovaného generování, rozšíření GUI v oblasti poškozování, anotace poškození, integrace některých externích poškozovacích algoritmů, použití metod pro úpravu okraje otisku.
The goal is to improve synthetic fingerprint generation part of SyFDaS. There are several parts which could be improved. For the final description it is expected to finish one maximally two of these points (so there could be several thesis description generated from this one - based on candidate preferences). What can be improved:
Generation of structured information about generated fingerprint (minutiae, class, singularities, density etc.).
Generation of fingerprint based on template.
Generation of several realistically looking backgrounds.
Automation of the generation ("clever" randomisation of input data).
Improvement of class specification/different minutiae for fingerprint generation.
Extend the generation to generate rolled fingerprints/whole finger/palmprint.
Jedná se o tvorbu metodu detekce živosti (prezentačního útoku) na snímcích otisků prstů s experimentálního zařízení/termokamery. Součástí bude nasnímání databáze otisků a falzifikátů příp. i úprava experimentálního zařízení (či příprava snímání v případě využití termokamery).
The goal is to create methods to detect presentation attack on images with fingerprint and vein/thermogram. Preparation of database will be needed as well as some cooperation with creation fingerprint+vein device or position of thermal cameras.
Supervisor: Sakin MartinZadání bude přesněji specifikováno dle domluvy se zájemcem. Zadáním je rychlé zpracování a zobrazení, případně navržení úpravy intenzity osvětlení pro program provádějící skenování krevního řečiště prstu z různých úhlu pohledu.
Zařízení se skládá z několika na sobě nezávislých světelných zdrojů jejiž intenzita se musí upravovat podle tvaru prstu. Jedná se o zpracování obrazu, kde HW oblast je již vyřešena.
The goal of this work is processed image in real-time from finger vein scanner device and set the illumination to increase a visibility of finger vein structure.
Supervisor: Rydlo Štěpán1) Prostudujte technologii multispektrální detekce živosti pro otisky prstů a celé ruky.
2) Analyzujte snímky z dodaných databází, popř. dohledejte další volně dostupné databáze.
3) Navrhněte algoritmus, který z multispektrálních snímků rozhodne, zda-li se jedná o živou či neživou ruku (falzifikát).
4) Navržený algoritmus implementujte.
5) Vyhodnoťte úspěšnost klasifikace živosti.
6) Proveďte experimentální ověření softwarového řešení a dosažené výsledky shrňte. Diskutujte možná rozšíření.
1) Study multispectral liveness detection technology for fingerprints and whole hands.
2) Analyze images from the supplied databases, or find other freely available databases.
3) Design an algorithm which of the multispectral images decides whether it is a living or non-living hand (counterfeit).
4) Implement the proposed algorithm.
5) Evaluate the success of the liveness classification.
6) Perform an experimental verification of the software solution and summarize the results obtained. Discuss possible extensions.
Zadání bude přesněji specifikováno dle domluvy se zájemcem. Účelem práce je vytvoření aplikace na zpracování obrazu s prstem z více úhlů pohledu a viditelným krevním řečištěm. Aplikace by tak měla zvýraznit krevní řečitě pro další ohodnocení za účelem rozpoznání osoby na základě krevního řečiště prstu.
The goal is create application for image processing to determine blood vessels in the finger from multiple angle o view. The database is available.
Supervisor: Rydlo Štěpán* The topics are only indicative, the final version of assigned thesis may depend on your experience and interests.