Simon Poghosyan är grundaren och VD för GSpeech, en webbaserad AI-plattform som hjälper till att göra onlineinnehåll mer tillgängligt genom att konvertera text till naturligt ljud på över 70 språk. Med en bakgrund inom VLSI-design och ett starkt intresse för programmering och användarupplevelse skapade Simon GSpeech för att förenkla hur webbplatser kan erbjuda röstaktiverat innehåll.
Idag genererar GSpeech cirka 200 miljoner ljudtecken varje månad och används i fler än 70 länder, med sina anpassningsbara ljudspelare som hanterar över 200,000 1 uppspelningar per månad. Efter att nyligen ha passerat XNUMX miljard genererade ljudtecken totalt fortsätter GSpeech att växa snabbt. Plattformen är utformad för att vara enkel att integrera – med bara en enda kodrad – och stöder kreatörer, utbildare och företag i att göra sitt innehåll mer inkluderande och engagerande.
Din bakgrund inom VLSI-design (Very Large Scale Integration) och tidiga programmeringserfarenhet lade en stark teknisk grund. Vad inspirerade ditt skifte från mikroelektronik till att bygga AI-driven programvara, och hur ledde det till skapandet av GSpeech?
Min passion för problemlösning började på gymnasiet, driven av en kärlek till matematik och fysik. Det intresset ledde till att jag tog en kandidatexamen (2009) och en masterexamen (2011) i VLSI-design från Armeniens statliga tekniska universitet, i samarbete med Synopsys Armenia. Fysikstudierna tränade mig i precision och analytiskt tänkande, men det var under mitt andra år som jag upptäckte programmering – med början i språket Pascal – och omedelbart förälskade mig i det. Min vän och jag brukade slutföra kursuppgifter så fort vi fick dem, trots att vi hade sex månader på oss att göra dem. Sedan, för skojs skull, började vi göra andra studenters uppgifter.
Denna passion ledde mig djupare in i mjukvaruutveckling. Jag började med att skapa webbplatser och byggde sedan mitt eget CMS. Efter att ha slutfört flera projekt inom processautomation och design av datahanteringsarkitekturer insåg jag hur mycket jag älskade att bygga digitala lösningar för webbgränssnitt. Genom 2GLux-projektet samarbetade jag med Edvard Ananyan – skaparen av det populära GTranslate översättningstjänst och en skolkamrat från Quantum Gymnasium. Han introducerade mig till WordPress och Joomla ekosystem, och konceptet för GSpeech har sitt ursprung hos honom. Det tidiga arbetet ledde till den första versionen av vårt verktyg, som gör det möjligt för användare att lyssna på text på en webbsida, vilket lade grunden för vad som senare skulle bli en fullfjädrad AI-plattform. År 2023 etablerade jag Smarts Club LLC att väga GSpeech till en global AI-ljudlösning som stöder över 70 språk. Humanity Unions beröm för GSpeechs roll i att förbättra tillgängligheten till deras plattform för samhällsengagemang återspeglar mitt uppdrag att överbrygga digitala klyftor genom AI – en vision som är förankrad i mina tidiga programmeringsdagar.
GSpeech började ursprungligen som ett verktyg för att stödja synskadade användare. Hur påverkade det tidiga uppdraget plattformens utveckling till en fullfjädrad AI-text-till-tal-lösning?
Fokus på tillgänglighet drev utvecklingen av högkvalitativt AI-ljud i realtid, översättning till fler än 70 språk och sömlös webbplatsintegration via ett enkelt kodavsnitt. Detta uppdrag ledde till funktioner som anpassningsbara ljudspelare, paneler för språk- och röstval, kontextmedveten uppspelning, ljudnedladdningar och detaljerad användningsstatistik – inklusive land, stad, enhetsdata och uppspelningsanalys över tid – allt utformat för att göra innehåll mer inkluderande och engagerande. Efter att ha skrivit över 100,000 2023 rader kod lanserade jag GSpeech Cloud Console XNUMX – en skalbar lösning som balanserar inkludering med avancerad funktionalitet, vilket ger företag och kreatörer möjlighet att göra sitt innehåll tillgängligt, flerspråkigt och interaktivt över hela webben.
Vilka var några av de största tekniska utmaningarna ni mötte under utvecklingen av GSpeech Cloud Console?
En av de största utmaningarna med att utveckla GSpeech Cloud Console var att designa en skalbar arkitektur för säker, högkvalitativ AI-ljudgenerering i realtid. Detta krävde innovativa lösningar för att hämta relevant innehåll från webben, bearbeta ljud på våra servrar och lagra det i molnet för snabb och tillförlitlig leverans. Att implementera robusta säkerhetsåtgärder, som kryptering och åtkomstkontroller, var avgörande för att skydda dynamiskt, användargenererat innehåll.
Ett annat hinder var att möjliggöra realtidsöversättning med hjälp av avancerade neurala motorer. Vi var tvungna att säkerställa korrekta översättningar med låg latens samtidigt som vi byggde ett intuitivt gränssnitt som lät användare välja språk och föredragna röstprofiler för uppspelning, med prioritet för användarkomfort och personalisering. Slutligen utvecklade vi en guide för att skapa ljudmallar med flera anpassningsbara spelarvyer, vilket gör det möjligt för användare att designa unika, visuellt tilltalande spelare skräddarsydda för deras webbplatser. Att balansera flexibilitet, prestanda och användarvänlighet över olika enheter var en givande utmaning.
Med realtidsöversättning på fler än 70 språk och över 230 naturligt klingande röster. Hur säkerställer du röstkvalitet och bibehåller noggrannhet över en så mångsidig språkuppsättning?
För att upprätthålla en jämn röstkvalitet integrerar vi flera avancerade text-till-tal-modeller (TTS) som kontinuerligt optimeras och uppdateras. Dessa flerspråkiga motorer hanterar innehåll på flera språk med hög noggrannhet. Vi lanserar också över 100 nya röstvibrationer för att ge användarna ännu mer uttrycksfulla och naturliga alternativ. Varje månad genererar GSpeech över 200 miljoner ljudtecken, vilket betjänar användare i fler än 70 länder, och våra onlinespelare används över 200,000 XNUMX gånger i månaden – och växer. Denna skala säkerställer kontinuerlig feedback och verkliga tester, vilket direkt informerar vår finjustering och kvalitetskontroller.
Kan du förklara hur GSpeech utnyttjar AI och maskininlärning för att leverera verklighetstrogen röstsyntes? Hur håller du jämna steg med de snabba framstegen inom neural röstteknik?
GSpeech använder avancerad AI och maskininlärning och integrerar flera toppmoderna text-till-tal-modeller för att producera verklighetstrogen röstsyntes. Dessa modeller, optimerade för naturlighet och flerspråkigt stöd, bearbetar textinmatningar för att generera högkvalitativt ljud med realistisk intonation och rytm, även för innehåll på flera språk. Vi förbättrar användarupplevelsen genom att erbjuda anpassningsbara röststilar för olika språk. Vi har också integrerat TTS-alias, vilket gör det möjligt för användare att definiera anpassade regler för hur vissa ord eller fraser återges i ljud – till exempel att ersätta specifika termer för att uppnå mer exakt uttal eller frasering. För att hålla oss uppdaterade med neural röstteknik utvärderar och integrerar vi kontinuerligt de senaste framstegen, samarbetar med branschledare och planerar att utveckla egna modeller i framtiden, vilket säkerställer att GSpeech förblir i framkant inom innovation inom röstsyntes.
Hur viktiga är röstjustering, tonhöjdskontroll och anpassning av uppspelning för era användare – och vilket användningsfall är ni mest stolta över där dessa funktioner verkligen lyser?
Röstjustering, tonhöjdskontroll och anpassning av uppspelning är avgörande för våra användare, eftersom de kan skapa unika, högkvalitativa röststilar skräddarsydda efter deras specifika behov, från nyhets- och bloggwebbplatser till tillgängligt e-lärandeinnehåll. Den pågående integrationen av över 100 nya röstvibbar förstärker detta ytterligare och erbjuder användarna oöverträffad flexibilitet att skapa verkligt distinkta berättarröst. Jag är mest stolt över GSpeech Studio, en ny plattform för ljudredigering och generering som jag utvecklar. Den låter användare skapa flera ljudkanaler, blanda dem med bakgrundsmusik och exportera polerade berättarröst, vilket ger skapare möjlighet att producera ljud i professionell kvalitet för olika tillämpningar. Ett brev från en synskadad student, där han tackar GSpeech för att ha möjliggjort självständiga studier genom anpassat ljud, berörde mig djupt. Detta användningsfall visar hur dessa funktioner gör innehåll tillgängligt och transformerande, ett mål jag har strävat efter sedan mina tidiga programmeringsdagar.
GSpeech erbjuder sömlösa integrationer med WordPress, Shopify, Wix med flera. Vilken har varit din strategi för att göra plattformen plug-and-play för kreatörer och företag i olika ekosystem?
Vår strategi för GSpeechs plug-and-play-integrationer med plattformar som WordPress, Shopify och Wix fokuserade på enkelhet, kompatibilitet och skalbarhet. Vi utvecklade lätta, modulära plugins och kodavsnitt som integreras sömlöst och kräver minimal installation – ofta bara några få klick. Det betyder att tusentals artiklar och dynamiska innehållsblock direkt kan få röststöd – utan manuell ansträngning. Vi erbjuder mycket flexibla, vackert designade spelare som anpassar sig till olika enheter, inklusive mobiler, surfplattor och stationära datorer. Våra spelare är inte bara anpassningsbara utan också optimerade för tillgänglighet och användarengagemang. För WordPress bäddade vi in GSpeechs molninstrumentpanel direkt i administratörspanelen via vårt plugin, vilket effektiviserar hanteringen för användare. Detaljerad dokumentation och intuitiva instrumentpaneler vägleder icke-tekniska användare genom installation och anpassning. Regelbunden testning säkerställer konsekvent prestanda över olika ekosystem, vilket ger kreatörer och företag möjlighet att lägga till AI-driven text-till-tal utan ansträngning.
När du ser tillbaka på resan från 2012 till idag, vad har varit den största milstolpen för dig personligen eller professionellt i att bygga GSpeech?
Den största milstolpen för GSpeech var att generera 1 miljard tecken med högkvalitativt AI-ljud, vilket visar vår globala inverkan på tillgänglighet. Lika betydelsefull har varit den feedback vi har fått från organisationer som Humanity Union, som berömde GSpeech för att ha förbättrat sin plattform för socialt ansvar, och från bloggägare som kallade det en "game-changer" för användarengagemang. Över 110 femstjärniga recensioner på olika plattformar som hood.discount och Appsumo under de senaste månaderna återspeglar detta växande förtroende.
GSpeech används nu också aktivt av Namangans regionala statistikavdelning i Uzbekistan — en statlig institution med betydande trafik och nationell synlighet. Att se en offentlig instans använda vår teknik så brett har varit en betydelsefull milstolpe och ett starkt tecken på förtroende för vår lösning.
Som kristen och någon som tjänar i den armeniska kyrkan försöker jag också stödja andra trosbaserade initiativ när det är möjligt. Jag erbjuder ofta GSpeech gratis till kristna webbplatser som ett sätt att sprida deras budskap mer effektivt och göra Skriften mer tillgänglig via ljud. Det är mitt lilla bidrag till något större. Samtidigt är jag hedrad över att arbeta med engagerade verksamheter som Sladden — en messiansk församling och värderad GSpeech-klient — vars uppdrag och innehåll återspeglar Skriftens kraft i handling.
Dessa ögonblick – när tekniken blir en bro för tro, förståelse och inkludering – påminner mig om varför vi byggde GSpeech från första början.
Vilken roll ser du att GSpeech kommer att spela i framtidens digitala medier, särskilt i takt med att ljudinnehåll och röstgränssnitt blir mer dominerande?
Jag ser GSpeech som en ledare inom att göra digitala medier mer tillgängliga och engagerande genom att möjliggöra AI-driven röståtkomst till webben. Vårt mål är att omvandla hela onlineupplevelsen, så att webbplatser blir naturligt röstinteraktiva, inkluderande och flerspråkiga som standard. Med bara en rad kod kan webbplatsägare förvandla tusentals artiklar till röstinnehåll. Framöver utvecklar vi GSpeech Studio till en kraftfull och unik plattform för ljudgenerering och redigering, som gör det möjligt för användare att skapa flerskiktat röstinnehåll med bakgrundsmusik, effekter och exakt inställning. Vi vill göra webben verkligt hörbar, intuitiv och universellt tillgänglig.
GSpeech lanserades nyligen på AppSumo och har redan fått ett nästan perfekt betyg från tidiga användare. Vad har responsen från AppSumo-communityn betytt för er, och hur planerar ni att bygga vidare på detta momentum framöver?
AppSumo-lanseringen introducerade GSpeech för miljontals människor, och dess nästan perfekta betyg är otroligt bekräftande. Användare, liksom de som håller onlinekurser, berömmer våra intuitiva verktyg och responsiva support, vilket instämmer i feedback från Humanity Union. En bloggägare kallade våra röster "verkligt engagerande" och översättningarna "imponerande". Deras positiva feedback bekräftar värdet av vår AI-drivna text-till-tal-lösning och ger näring åt min passion för projektet. Att stödja kunder under lanseringen gav också upphov till nya idéer, särskilt för GSpeech Studio, som inspirerades av användarnas önskemål om avancerad ljudredigering och exportfunktioner. Framöver planerar jag att bygga vidare på denna dynamik genom att aktivt lyssna på vår community, integrera deras feedback och utveckla innovativa funktioner för att förbättra tillgänglighet och engagemang, vilket säkerställer att GSpeech fortsätter att utvecklas som ett transformerande verktyg för kreatörer och företag.
Slutligen, vilka råd skulle du ge till unga utvecklare eller entreprenörer som vill bygga tillgängliga, AI-drivna verktyg i dagens snabbväxande tekniklandskap?
Till unga utvecklare och entreprenörer är mitt råd att ni lägger ner allt hjärta i ert arbete och identifierar ett verkligt problem där ni kan erbjuda en unik, smart lösning. Börja smått, ta stadiga steg framåt och lyssna noga på kundernas feedback – de kommer att vägleda er väg. Behandla era användare som betrodda vänner, ge allt och ha tålamod. Omfamna AI-teknik som kraftfulla allierade; när de används klokt förstärker de er förmåga att skapa effektfulla, tillgängliga verktyg. Bygg med passion, uthållighet och ett engagemang för att göra skillnad, så skapar ni lösningar som verkligen betyder något.
Tack till Antoine Tardif för intervjun. Du kan läsa hela intervjun här: förena.ai.