Amazon har allerede skiftet omkring 80% af Alexa-forarbejdningen til Elastic Compute Cloud (EC2) Inf1, der bruger de nye AWS Inferentia-chips. Sammenlignet med G4, der brugte traditionelle GPU'er, skubber integrationen med Inf1 - throughput op med 30% og omkostningerne ned med 45%.
Alexa fungerer basalt set ved, at den faktiske højttalerboks (eller cylinder) stort set intet foretager sig, mens AWS-processorer i skyen gør alt arbejdet. Eller for at sige det mere teknisk ... systemet sparker ind, når smarthøjtaleren aktiveret gennem stemmestyringsfunktionen. Denne del håndteret af en Echos chip på enheden. Herefter begynder enheden at streame lyden til skyen i realtid. Via et datacenter eller et eller andet sted omdannes lyden til tekst (dette omtales ofte som inferencing). Derefter trækkes betydningen tilbage fra teksten (et andet eksempel på inferencing). Alle nødvendige handlinger er afsluttet, som f.eks. at bede om dagens vejrinformation.
Source: Amazon
Når Alexa har afsluttet din anmodning, skal Alexa kommunikere svaret til dig. Det, hun skal sige, er valgt fra et modulært script. Derefter omdannes manuskriptet til en lydfil (et andet eksempel på inferensering) og sendes til din Echo-enhed. Echo afspiller filen, og du beslutter dig herefter, om du skal have en paraply med dig, hvis vejrudsigten melder regn.
Åbenlyst nok er inferencing en stor del af løsningen. Det er ikke overraskende, at Amazon har investeret millioner af dollars i at fremstille de perfekte chips til deres egne produkter.
Inferentia-chips består af fire NeuronCores. Hver enkelt implementerer en "high-performance systolic array matrix multiply engine." Mere eller mindre består hver NeuronCore af et meget stort antal små databehandlingsenheder (DPU'er), der behandler data på en lineær, uafhængig måde. Hver Inferentia-chip har også en stor mængde cache, hvilket forbedrer ventetiden.
Vi ser frem til at følge betydningen for Amazons træk væk fra NVIDIA.
Source & Image credit:
Amazon