Sztuczna inteligencjaRynek
OpenAI zwiększa możliwości generowania obrazów w ChatGPT
Jak poinformował Sam Altman, dyrektor generalny OpenAI, ChatGPT może teraz wykorzystać model GPT-4o do natywnego tworzenia i modyfikowania obrazów oraz zdjęć. GPT-4o od dawna stanowi podstawę platformy chatbotów opartej na sztucznej inteligencji, ale do tej pory był w stanie generować i edytować tylko tekst, a nie obrazy.
Jak poinformowano, natywne generowanie obrazów GPT-4o jest już dostępne w ChatGPT i Sora – narzędziu OpenAI do generowania wideo AI – dla subskrybentów planu Pro firmy za 200 USD miesięcznie. Przedstawiciele OpenAI twierdzą, że funkcja ta zostanie też wkrótce udostępniona użytkownikom Plus i darmowym użytkownikom ChatGPT, a także deweloperom korzystającym z usługi API firmy.
GPT-4o może edytować istniejące obrazy, w tym obrazy z ludźmi, przekształcając je lub „zamalowując” szczegóły, takie jak obiekty na pierwszym planie i w tle. Aby zasilić nową funkcję obrazu, specjaliści OpenAI poinformowali Wall Street Journal, że wytrenowali GPT-4o na „publicznie dostępnych danych”, a także na zastrzeżonych danych pozyskanych w ramach partnerstwa z firmami takimi jak Shutterstock.
Jak wskazuje TechCrunch, szczegóły danych szkoleniowych są potencjalnym źródłem pozwów związanych z własnością intelektualną, co zniechęca firmy do ujawniania wielu informacji. „Szanujemy prawa artystów w zakresie sposobu, w jaki tworzymy wyniki i mamy zasady, które uniemożliwiają nam generowanie obrazów, które bezpośrednio naśladują pracę jakichkolwiek żyjących artystów” – zapewnił Brad Lightcap, dyrektor operacyjny OpenAI, w oświadczeniu dla Wall Street Journal.
OpenAI oferuje też formularz rezygnacji, który pozwala twórcom poprosić o usunięcie ich prac z zestawów danych treningowych. Firma twierdzi również, że szanuje prośby o uniemożliwienie botom zbierania danych treningowych, w tym obrazów, ze stron internetowych.
Jak się okazuje, ulepszona funkcja generowania obrazów ChatGPT podąża za eksperymentalnym natywnym wyjściem obrazu Google dla Gemini 2.0 Flash, jednego z flagowych modeli firmy. Jak przypomina TechCrunch, komponent obrazu Gemini 2.0 Flash miał jednak niewiele zabezpieczeń, pozwalając użytkownikom na usuwanie znaków wodnych i tworzenie obrazów przedstawiających postacie chronione prawem autorskim.