Jak przeciwdziałać halucynacjom i szkodliwym treściom
Najważniejsze jest znalezienie rozwiązania, które pozwoli na identyfikację potencjalnie „groźnych” wyników działania modelu, któremu towarzyszyć będą środki „naprawcze”.
Halucynacje i szkodliwe treści. Czy da się im przeciwdziałać, korzystając z zewnętrznych modeli? Odpowiedź na to pytanie jest krótka: w pewnym stopniu. No, chyba że zdecydujemy się na poddanie każdego wkładu do modelu manualnym procesom, które w rezultacie pozbawią nas efektywności charakterystycznej dla generatywnej AI. Modele, które są dla nas dostępne zarówno w modelu subskrypcyjnym i osobistym, jak i poprzez API, są modelami niedokładnymi, podatnymi na błędy oraz mogącymi generować treści, które są co najmniej niepożądane („treści wrażliwe” lub „szkodliwe”). Możemy więc uzyskać odpowiedzi, które nie będą prawdziwe, lub otrzymać treść, która godzi w obyczaje lub jest w jakiś sposób dyskryminacyjna. Mamy też „worek” z tymi wynikami działania AI, które z jakichś względów zakłamują rzeczywistość i wykraczają poza zbiór danych wykorzystywanych w procesie trenowania.
Wynika to z ograniczeń samego modelu i danych, procesu trenowania oraz braku „permanentnego” nadzoru, ale być może przede wszystkim (z wyłączeniem wątku halucynacji) z faktu, że model powstał na bazie danych, które zostały wygenerowane przez człowieka, który ma swoje uprzedzenia, potrafi krzywdzić i odzwierciedla to w swoich wypowiedziach, także w internecie.
W poszukiwaniu bezpiecznego modelu
Często w trakcie szkoleń lub rozmów z...
Archiwum Rzeczpospolitej to wygodna wyszukiwarka archiwalnych tekstów opublikowanych na łamach dziennika od 1993 roku. Unikalne źródło wiedzy o Polsce i świecie, wzbogacone o perspektywę ekonomiczną i prawną.
Ponad milion tekstów w jednym miejscu.
Zamów dostęp do pełnego Archiwum "Rzeczpospolitej"
ZamówUnikalna oferta