site.btaАрхивите на БТА са национално богатство, каза Свобода Тодорова на семинар на Европейското пространство за езикови данни и БАН

Архивите на БТА са национално богатство, каза Свобода Тодорова на семинар на Европейското пространство за езикови данни и БАН
Архивите на БТА са национално богатство, каза Свобода Тодорова на семинар на Европейското пространство за езикови данни и БАН
Европейското пространство за езикови данни и Институтът за български език при БАН организират семинар, посветен на ролята на езиковите данни за развитието на езиковите технологии и инструментите, базирани на изкуствен интелект. На снимката: ръководителят на проекта по Плана за възстановяване и устойчивост в БТА Свобода Тодорова.Снимка: Минко Чернев/БТА (ЕВ)

Архивите на Българската телеграфна агенция (БТА) са национално богатство. Тяхната дигитализация и управление ще ги превърнат в активна платформа за изследвания, иновации и културна памет, каза Свобода Тодорова, ръководител на проекта "Дигитален архив", реализиран от БТА, в рамките на Плана за възстановяване и устойчивост.

Тя участва в панелна дискусия на тема „Производство, управление и развитие на пазара на езикови данни: преодоляване на препятствията", където представи своя доклад на тема „Създаване и управление на езикови данни в Българската телеграфна агенция“. Събитието се проведе в рамките на семинар, посветен на ролята на езиковите данни за развитието на езиковите технологии и инструментите, базирани на изкуствен интелект.

Организатор на събитието бяха Европейското пространство за езикови данни и Институтът за български език при БАН, а модератор на панела беше проф. д-р Силвия Илиева, директор на Центъра за върхови постижения GATE. В дискусията участваха още Христо Дочев (Wisertech), Иван Ванков (Iris.ai) и Траян Косев (адвокат в сферата на интелектуалната собственост).

Свобода Тодорова отбеляза, че БТА, основана през 1898 г., е най-старата и авторитетна информационна институция в страната, която разполага с уникални езикови и визуални ресурси - фотоархив от около 1,8 милиона кадъра и журналистически архив от над пет милиона страници. „Тези ресурси представляват езикови и културни данни със стратегическо значение за българското общество“, каза тя.

Тодорова акцентира върху необходимостта от изграждане на единна дигитална инфраструктура, централизирани бази данни, стандартизирани метаданни и дългосрочни политики за съхранение и достъп. „Избираме популярни теми, за които студенти търсят достъп в архивите, защото материалите са толкова крехки - само преди да се разгледа един екземпляр, той вече е застрашен. Не можем да се занимаваме само със сканирането на всички тези материали, защото те буквално изчезват в ръцете ни“, каза още Свобода Тодорова.

Тя обясни, че обработката на архивните данни изисква значителен човешки ресурс. „Имаме продължителни контроли и това отнема време. За една страница трябват 5-6 минути, за да се изготви“, уточни тя. По думите ѝ архивните данни са достъпни, но използването им изисква предварителна заявка и подготовка. „Трябва да се изготвят документите, могат да ги подпишат и да се четат на място“, поясни тя.

Тодорова подчерта, че достъпът до архивите на БТА трябва да бъде осигурен както вътрешно – за нуждите на журналистите, така и външно – чрез обществени портали и API за разработчици. „Удобството на потребителя изисква многоезични търсачки и комбинирано търсене в текстови и фотоархиви“, посочи тя.

Ръководителят на проекта "Дигитален архив" на БТА даде конкретен пример за значимостта на архивите. „Студент, който търсеше информация за пътуване, откри изключително ценен материал в нашите архиви – написан от журналисти на БТА. След 1925 г. архивът съдържа информация от всички държави по света – ежедневна, дългосрочна, официална информация. Тази уникална база данни може да послужи на изследователи, учени, студенти и представители на медиите“, добави тя.

В заключение Свобода Тодорова посочи, че изкуственият интелект ще има ключова роля в бъдещото развитие на БТА. „Технологиите ще подпомагат автоматичната анотация на снимки и текстове, семантичното търсене, машинния превод и създаването на езикови корпуси за обработка на естествен език“, каза още тя.

По време на панелната дискусия участниците обсъдиха и предизвикателствата при споделянето на езикови данни на български език. Беше отбелязано, че България изостава в изграждането на нормативна база и транспонирането на европейски директиви, включително AI Act. Участниците се обединиха, че споделянето на данни трябва да се осъществява в сигурна среда с ясни стандарти и правила, при балансиране между интересите на създателите на данни и потребностите на технологичното развитие.

/ТС/

Списание ЛИК

В допълнение

Избиране на снимки

Моля потвърдете избраните снимки. Това действие не е свързано с плащане. Ако продължите, избраните снимки ще бъдат извадени от баланса на вашите активни абонаментни пакети.

Изтегляне на снимки

Моля потвърдете изтеглянето на избраните снимката/ите

Потвърждение

Моля потвърдете купуването на избраната новина

Към 18:08 на 08.10.2025 Новините от днес

Тази интернет страница използва бисквитки (cookies). Като приемете бисквитките, можете да се възползвате от оптималното поведение на интернет страницата.

Приемане Повече информация