Köns- och genusanalys
-
Metoder
- Ompröva forskningsprioriteringar och -resultat
- Ompröva koncept och teorier
- Formulera forskningsfrågor
- Analysera kön
- Analysera genus
- Analysera hur kön och genus interagerar
- Analysera faktorer som relaterar till kön och genus
- Processer för innovationsteknik
- Utforma forskning inom hälsa och biomedicin
- Deltagarbaserad forskning och design
- Ompröva standarder och referensmodeller
- Ompröva språk och visuella representationer
- Termer
- Checklistor
Fallstudier
Policyrekommendationer
Förändring av institutioner
Filmer
Få maskiner att tala: Formulera forskningsfrågor
The Challenge
Speech synthesis—in which a machine generates human-like speech—has applications in basic linguistic research, assistive technologies for people with disabilities, and commercial devices and software. Of particular interest are text-to-speech (TTS) systems. Mute people who rely on speech synthesis to express themselves verbally are best served by synthesizers capable of producing a range of women and men’s voices: Synthesizing sex and gender in speech is important to how speech is perceived and interpreted (Nass et al., 2005).
Key Method: Analyzing Gender
Gender assumptions can influence both the act of speaking and the act of listening (or interpreting what is heard) even when the speaker is a machine. Voices encode rich information about the speaker—such as sex, gender, age, and often nationality—even if such information is never directly articulated. Analyzing sex (biological factors) and gender (socio-cultural factors) is important for creating TTS systems with a range of voices for assistive technologies and other human/computer interface.
Gendered Innovations:
- Text-To-Speech Technologies Producing both Women and Men’s Voices: Text-to-speech system engineers who rethought research priorities and outcomes and recognized the importance of producing both women and men’s voices created new products, such as DECTalk (1984). Flexible speech synthesizers capable of producing voices representing women and men of different ages, gender identities, and regional dialects help fit voice characteristics to users.
- Understanding Gender in Speech: By Analyzing Gender researchers better understand how social identities are communicated in speech. Computerized TTS systems are effectively social actors, and the messages they send depend upon the underlying technology, uses, and users' responses.
Utmaningen: Mannen som standard i assisterande text-till-tal-system (TTS)
Innovation med genusperspektiv 1: Text-till-tal-system med olika kvinno- och mansröster
Metod: Ompröva forskningsprioriteringar och resultat
Metod: Analysera kön
Innovation med genusperspektiv 2: Förstå genus i tal
Metod: Analysera genus
Faktorer som relaterar till kön och genus: Utöka taldatabaser
Konklusioner
Nästa steg
Utmaningen: Mannen som standard i assisterande text-till-tal-system (TTS)
I Europa och USA används text till tal-system primärt för två syften:
- Stödsystem för användare med funktionshinder: TTS gör att människor med mutism och andra svåra talfunktionshinder kan kommunicera verbalt genom att konvertera skriven text till tal. TTS används även för uppläsning av innehåll i böcker, tidningar, webbplatser osv. för blinda (Dutoit, 1997). Den senare funktionen är särskilt viktig för att personer med synnedsättning ska få tillgång till internet (Pal et al., 2011).
- Människa-datorinteragerande gränssnitt i konsumentprodukter: GPS-mottagare är ett exempel på en produkt där TTS ofta används för att "läsa upp" köranvisningar för en förare (Berstis, 2001).
Tidiga stödsystem med TTS, till exempel Votrax Type’N’Talk, "klarade inte att generera kvinnliga röster” (Walsh et al., 1986; Klatt et al., 1990). Denna historiska mansstandard i talsyntes – en bias som sannolikt var omedveten och som kan ha uppstått som en följd av att de flesta yrkesverksamma i närliggande områden var män – kan begränsa det egna uttrycket. Talsyntesingenjören Dennis Klatt beskrev fallet med en ung amerikansk kvinna som skadades i en trafikolycka och som “vägrade att använda talhjälpmedel eftersom det fick hennes röst att låta maskulin” (Klatt, 1987). En annan ung kvinna med cerebral pares berättade att hon kände sig modfälld när det enda talstödet som fanns tillgängligt för henne hade en mansröst (Lupkin, 1998).
Innovation med genusperspektiv 1: Text-till-tal-system med olika kvinno- och mansröster
1984 började det USA-baserade företaget Digital Equipment Corporation (DEC) att marknadsföra DECtalk, en plattform för TTS (Leong, 1995). DECtalk utvecklades framför allt av Klatt, som framhöll "möjligheten att anpassa röstegenskaperna efter användaren, särskilt fördelen att kunna ge kvinnor en kvinnlig röst och barn en barnröst" som en "potentiell fördel för DECtalk” för stödjande syften (Klatt, 1987). Plattformen DECTalk hade stöd för fem röster – två vuxna kvinnoröster, två vuxna mansröster och en barnröst (Turunen et al., 2004). DECTalks röster representerade manliga och kvinnliga röster på ett tydligt stereotypt sätt. Alla röster var personifierade och presenterade sig för användaren med namn. “Huge Harry,” en av mansrösterna, sa: “Jag är en mycket stor person med djup röst". Jag kan fungera som auktoritär person, medan "Whispering Wendy”, en av kvinnorösterna, frågade “Jag har en mycket flåsig röstkvalitet. Kan du förstå mig trots att jag viskar?” Exempel på dessa röster kan höras i ljudklippet till höger (Klatt, 1987).
Både kvinnors och mäns röster blev snart standard i TTS-system, till exempel Apple Computer Corporations MacInTalk Professional. Viktigt att betona är att mans- och kvinnorösterna i dessa system är lika begripliga (Rupprecht et al., 1995) – se Metod.
Metod: Ompröva forskningsprioriteringar och resultat
Den historiska mansstandarden i talsyntes begränsade användningen av tekniken. Ingenjörer insåg att ett bredare spektrum av röster skulle utöka användarbasen för TTS, och man började göra komparativa studier av kvinnors och mäns röster för att få kunskap om potentiella könsskillnader hos mänskliga röster – se Analysera kön. Det är viktigt ur både humanitärt och ekonomiskt perspektiv att återskapa realistiska kvinno- och mansröster.
Gå till Metoder – allmänt
Kvinnors och mäns röster skiljer sig åt. Starka bevis för detta är det faktum att lyssnare kan identifiera könet hos en vuxen talare med stor precision, även när det saknas andra ljudmässiga eller visuella ledtrådar. Identifieringen kräver inte att talaren och lyssnaren talar samma språk eller att hela ord uttalas. Testpersoner som får lyssna till inspelningar av enstaka vokalljud kan identifiera könet hos talaren i 98,9 procent av försöken (Whiteside, 1998) – se Metod.
Metod: Analysera kön
Könsskillnader står för några (men inte alla) observerade skillnader mellan kvinnors och mäns röster. Anatomiska och fysiologiska skillnader – i storlek och form av stämband, ansatsrörets längd och längden på svalget etc., bestämmer skillnaderna i röstläge. Kvinnor har i allmänhet högre röstlägen än män på grund av att kvinnors stämband är kortare och tunnare, vilket ger den genomsnittliga kvinnan en frekvens som är "ungefär två gånger snabbare än en mans" (Simpson, 2009).
Gå till Metoder – allmänt
Jämförelser mellan kvinnors och mäns röstlägen beror på hur man definierar röstläge. När kvinnors och mäns röster jämförs i fråga om absolut frekvensintervallvisar studier i allmänhet att kvinnor har ett större intervall än män. Historiskt har vissa forskare använt denna observation som stöd för stereotypen att kvinnors röster är dramatiska, känslomässiga, hetsiga, irrationella osv. (McConnell-Ginet, 1983). Det är viktigt att notera att jämförelser av frekvensintervall inte återspeglar psykoakustik. Människor uppfattar inte röstlägesintervallet genom att "mäta hertz, utan genom att använda en logaritmisk [eller halvtons-] skala” (Henton, 1989). En jämförelse mellan kvinnors och mäns röster i form av halvtoner tyder på att kvinnor och män har liknande halvtonsintervall i normalt tal, även om kvinnor har ett större absolut frekvensintervall. I det fallet skulle en omprövning av språk och visuella representationer, genom en jämförelse av kvinnors och mäns röstlägesintervaller på en logaritmisk skala (hellre än en linjär skala) utmana stereotypen om att kvinnors röster är dramatiska och känslosamma medan mäns röster än monotona och lidelsefria – se diagrammet.
Innovation med genusperspektiv 2: Förstå genus i tal
Genus kan påverka både själva talandet och lyssnandet (eller tolkningen av det som hörs), även när talaren är en maskin. Röster innehåller mycket information om talaren – kön, genusidentitet, ålder och ofta nationalitet – även om den informationen aldrig uttalas specifikt.
Genus är relevant för talsyntesen eftersom det påverkar det mänskliga talet: Att skapa ett TTS-system med en "naturlig" kvinnlig eller manlig röst innebär att både de biologiska (könsbaserade) och kulturella (genusbaserade) egenskaperna i en mans eller kvinnas röst ska imiteras.
Metod: Analysera genus
Forskning har visat att genusuppfattningar och -beteenden påverkar egenskaperna hos verkliga kvinnors och mäns röster, samt även lyssnares respons på syntetiska röster.
Gå till Metoder – allmänt
- Analysera genusnormer: Långt innan man började använda TTS mer allmänt insåg forskare att genuspräglade beteenden påverkade talet (Fant, 1975). Röstläget är till en viss del inlärt och föremål för kulturella förväntningar. Om röstläget sänks kan det ge talaren större auktoritet. Det beteendet är mer genuslämpligt för män än kvinnor, men det används inte enbart av män. Tidigare brittiska premiärministern Margaret Thatcher tränades av en röstcoach från Nationalteatern att sänka sin röst och göra den mer auktoritär (Atkinson, 1984).
- Analysera genusidentiteter: Röster ger uttryck för social identitet. Studier av transexuella, där vissa anpassar sina röster för att låta som det motsatta könet, har betonat individers förmåga att ändra sina röster för att passa en viss genusroll (Gorham-Rowan et al., 2006).
- Analysera faktorer som relaterar till kön och genus: Genusnormer varierar mellan kulturer. Kvinnors och mäns grundläggande röstfrekvenser skiftar mellan talare med olika språk: Hos fransktalande är kvinnors grundläggande röstläge ungefär 90 Hz högre än mäns, men bland kinesisktalande är kvinnors röstläge endast cirka 10 Hz högre. Forskare har kommit fram till att "det vore orimligt att tillskriva sådana stora skillnader de anatomiska skillnader i undersökta populationer" och att "en del av skillnaden måste tillskrivas inlärda beteenden” (Simpson, 2009).
Kön respektive genus i tal
”[…] medan det finns ett antal bilogiska skillnader mellan män och kvinnor som får konsekvenser för det ljud de frambringar, t.ex. munnens storlek, veck i strupen och på stämbanden, det är också tydligt att vi utvecklar vissa talmönster som anpassas till det genus vi identifierar oss med. […] Många andra aspekter av tal kan också hänföras till både biofysiologiska grundförutsättningar och inlärda beteenden” (Simpson, 2009).Genusidentiteter och -normer finns alltså kodade i det mänskliga talet. Forskningen visar också att lyssnare tillämpar genusnormer på syntetiska röster:
- Människor tilldelar kön och genus till maskinröster, det vill säga att människor tolkar talande maskiner som kvinnor eller män. Lyssnare tycker inte om maskinröster som är tvetydiga när det gäller kön. Könstillskrivandet sker även när människor är fullt medvetna om att rösterna är skapade av en maskin. Även om "tvetydiga" röster kan framställas syntetiskt, försöker lyssnare ändå tillskriva sådana röster kön och genus. Tillskrivandet kan ta längre tid och kan ändras, men lyssnare tolkar inte "tvetydiga" röster som könsneutrala. Dessutom kan människor uppfatta "tvetydiga" röster som "motbjudande, oärliga och intelligenta” (Nass et al., 2005). Det gör att sådana röster inte gärna används i stödtekniker eller andra mer kommersiella tillämpningar.
- Lyssnare tillämpar stereotyper på syntetiska röster som låter "kvinnliga" eller "manliga". Det i sin tur påverkar vilka stereotyper lyssnare använder sig av när de bedömer kompetens, övertygelse, attraktionskraft, ärlighet etc. utifrån en röst. En studie av en amerikansk grundskola med elever i åldern 9 till 11 år visade att kvinnliga syntetiska röster uppfattades som mer tilltalande och trovärdiga än manliga röster i diskussioner kring stereotypiskt kvinnliga ämnen (till exempel hudvård och smink). När ämnet var stereotypiskt manligt (som fotboll) uppfattades manliga syntetiska röster som mer tilltalande och trovärdiga (Lee et al., 2007; Niculescu et al., 2009). Resultaten återspeglar de studerade personernas stereotyper i samband med syntetiskt tal.
Det faktum att människor tillämpar genusstereotyper på syntetsikt tal ger upphov till viktiga frågor om hur talsyntes används. I synnerhet kan målet att anpassa syntetiskt tal till användarpreferenser hamna på kollisionskurs med målet att ifrågasätta stereotyper. Biltillverkaren BMW marknadsförde tidigare sina fordon med en färddator som "talade" med kvinnoröst via TTS. Några användare vände sig dock mot att "ta instruktioner" från en kvinnoröst, och de BMW-leverantörer som designade om TTS-systemet "beslöt att rösten skulle ge intryck av en man som framstod som en liten aning dominant, trevlig och mycket kompetent” (Nass et al., 2005). För att tillmötesgå användarna i det här fallet krävdes att TTS användes på ett sätt som var i enlighet med – och kanske även förstärkte – stereotyper. Idag kan konsumenter ofta välja en kvinnlig eller manlig röst, språk och accent.
Faktorer som relaterar till kön och genus: Utöka taldatabaser
Ett sätt att närma sit TTS är konkatenativ syntes där man sammankopplar segment av förinspelat mänskligt tal. Europeiska unionens projekt Human-Machine Interaction Network on Emotion (HUMAINE), som först etablerades i samband med ramprogram 6 (FP6), har supportat avancerad forskning som utökat taldatabaser på EU-språken (Roddie, 2010). Forskare som sammanställt databaser från inspelningar av spansk- och tysktalande personer, lika många kvinnor som män (Barra-Chicote et al., 2008; Burkhardt et al., 2005). Forskarna har också skapat syntetiska röster som kan uttala ord på olika språk och olika regionala dialekter. Forskare i Spanien har till exempel tagit fram "två högkvalitativa röster […] en manlig och en kvinnlig […]” som klarar “centralkatalansk dialekt, men även spanskt, galiciskt, baskiskt och engelskt” uttal (Bonafonte et al., 2009). Likande arbeten på andra håll har fokuserat på olika engelska accenter och dialekter (exempelvis brittiska, amerikanska, walesiska, australiska och sydasiatisk engelska), tyska (som används i olika delar av Tyskland och i Österriket) och franske (schweizisk och parisisk franska) (Miller et al., 2011; Pucher et al., 2010; Yan et al., 2003; Sen et al., 2002).
Syntetiskt tal som kan imitera olika regionala och socioekonomiska dialeter har samma potential att gynna stereotyper som tal som kan identifieras som kvinnligt eller manligt. Det finns anledning att misstänka att lyssnare kommer att tolka dialektfärgat syntetiskt tal enligt stereotyper om ras, etnicitet, socioekonomisk status, geografisk plats, etc. (Pucher et al., 2009).
Konklusioner
Producing female synthetic voices was an important step in speech synthesis, and helped to broaden the user base for assistive TTS. However, the ability to produce “male” and “female” voices carries the potential to reinforce gender stereotypes. Computerized TTS systems are effectively social actors, and the social messages they send depend upon the underlying technology (for example, the technical characteristics of female and male voices), how it is used (for example, what synthetic voice a company uses to represent a product), and how users respond (Lee, 2008). Kvinnliga syntetiska röster var ett viktig steg i talsyntesutvecklingen och bidrog till att vidga användarbasen för TTS som hjälpmedel. Möjligheten att göra "manliga" respektive "kvinnliga" röster innebär en viss risk att genusstereotyper förstärks. Datoriserade TTS-system är effektiva sociala aktörer, och de sociala budskap de levererar beror på den underliggande tekniken (till exempel de tekniska egenskaperna hos kvinnliga och manliga röster), hur den används (till exempel vilken syntetisk röst ett företag väljer att representera en produkt) och hur användare väljer att reagera på systemen (Lee, 2008).
Nästa steg
Forskare arbetare för att skapa talsyntetiserare med större kapacitet att producera röster på olika språk och dialekter och för att representera kvinnor och män i olika åldrar, bakgrunder, osv. Några viktiga utvecklingssteg:
- Skapa känslofullt tal: Mänskligt tal ger information om talarens känslomässiga tillstånd, och affekt "är önskvärt i syntetiserat tal för att det ska låta naturligt, vara verksamt och användbart" (Cahn, 1990). Befintliga kommersiella TTS-system har dock begränsad förmåga att förmedla känslor, även om de kan produceras relativt intelligent tal (Rebordao et al., 2009). Affektiva TTS -tekniker är en aktiv forskningsgren, både som stödsystem (stumma användare kan uttrycka känslor hörbart) och för kommersiella syften (Gusikhin et al., 2011; Luneski et al., 2010). Mer allmänt är datoriserade system som är kapabla att producera affektivt tal (och att "läsa av" känsloledtrådar i mänskligt tal) viktiga för utvecklingen av sociala robotar.
- Utveckla individualiserade röster: Utöver att förmedla information om sådant som kön, ålder, dialekt, känslotillstånd osv. är mänskliga röster unika och kan användas för att identifiera människor. Assisterande TTS-tekniker erbjuder vanligen ett begränsat urval röster med få möjligheter till anpassning. Forskare utvecklar TTS-system som använder "kvarvarande talförmåga" för att vissa stumma personer ska kunna skapa tal som återspeglar aspekter av användarens identitet, bland annat användarens kön och genus (Jreige et al., 2009).
Citerade verk
- Atkinson, M. (1984). Our Masters' Voices: The Language and Body-Language of Politics. London: Methuen.
- Barra-Chicote, R., Montero, J., Marcias-Guarasa, J., Lufti, S., Lucas, J., Fernandez-Martinez, F., Dharo, L., San-Segundo, R., Ferreiros, J., Cordoba, R., & Pardo, M. (2008). Spanish Expressive Voices: Corpus for Emotion Research in Spanish. Madrid: Universidad Politecnica de Madrid.
- Berstis, V. (2001). Method and Apparatus for Displaying Real-Time Visual Information on an Automobile Pervasive Computing Agent. United States Patent 6,182,010. January 30.
- Bonafonte, A., Aguilat, L., Esquerra, I, Oller, S., & Moreno, A. (2009). Recent Work on the FESTCAT Database for Speech Synthesis. Barcelona: Universitat Politècnica de Catalunya (UPC) Press.
- Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W., & Weiss, B. (2005). "A Database of German Emotional Speech." Proceedings of Interspeech/Eurospeech, 9th Biennial European Conference on Speech Communication and Technology, September 4—8, Lisbon.
- Cahn, J. (1990). Generation of Affect in Synthesized Speech. Journal of the American Voice Input/Output (I/O) Society, 8, 1-19.
- Dutoit, T. (1997). An Introduction to Text-to-Speech Synthesis. Netherlands: Kluwer Academic Publishers.
- Fant, G. (1975). Non-Uniform Vowel Normalization. Kungliga Tekniska Högskolan (KTH) Department for Speech, Music, and Hearing Quarterly Progress and Status Report, 16 (2-3), 1-19.
- Gorham-Rowan, M., & Morris, R. (2006). Aerodynamic Analysis of Male-to-Female Transgender Voice. Journal of Voice, 20 (2), 251-262.
- Hasselbring, T., & Bausch, M. (2005). Assistive Technologies for Reading. Educational Leadership, 63 (4), 72-75.
- Henton, C. (1989). Fact and Fiction in the Description of Female and Male Pitch. Language and Communication, 9 (4), 299-311.
- Honorof, D., & Whalen, D. (2010). Identification of Speaker Sex from One Vowel across a Range of Fundamental Frequencies. Journal of the Acoustical Society of America, 128 (5), 3095-3104.
- Jreige, C., Rupal, P., & Bunnell, T. (2009). "VocaliD: Personalizing Text-to-Speech Synthesis for Individuals with Severe Speech Impairment." Assets '09: The 11th international Association for Computing Machinery (ACM) Special Interest Group on Accessible Computing (SIGACCESS) Conference on Computers and Accessibility, October 25-27, Orlando.
- Klatt, D., & Klatt, L. (1990). Analysis, Synthesis, and Perception of Voice Quality Variations among Female and Male Talkers. Journal of the Acoustical Society of America, 87 (2), 820-857.
- Klatt, D. (1987). Review of Text-to-Speech Conversion for English. Journal of the Acoustical Society of America, 82 (3), 737-791.
- Lee, E. (2008). Flattery May Get Computers Somewhere, Sometimes: The Moderating Roles of Output Modality, Computer Gender, and User Gender. International Journal of Human-Computer Studies, 66 (11), 789-800.
- Lee, K., Liao, K., & Ryu, S. (2007). Children’s Responses to Computer-Synthesized Speech in Educational Media: Gender Consistency and Gender Similarity Effects. Human Communication Research, 33 (3), 310-329.
- Leong, C. (1995). Effects of On-Line Reading and Simultaneous DECtalk Auding in Helping Below-Average and Poor Readers Comprehend and Summarize Text. Learning Disability Quarterly, 18 (2), 101-116.
- Luneski, A., Konstantinidis, E., & Bamidis, P. (2010). Affective Medicine: A Review of Affective Computing Efforts in Medical Informatics. Information in Medicine, 49 (3), 207-218.
- Lupkin, K. (1998). A Woman's Voice: Interview with Caroline Henton. Speech Technology.
- McConnell-Ginet, S. (1983). Intonation in a Man’s World. In Thorne, B., Kramarae, C., & Henley, N. (Eds.), Language, Gender, and Society, pp. 69-88. Rowley: Newbury House.
- Miller, J., Mondini, M., Grosjean, F., & Dommergues, J. (2011). Dialect Effects in Speech Perception: The Role of Vowel Duration in Parisian French and Swiss French. Language and Speech, Online in Advance of Print.
- Nass, C., & Brave, S. (2005). Wired for Speech: How Voice Activates and Advances the Human-Computer Relationship. Cambridge: MIT Press.
- Niculescu, A., van der Sluis, F., & Nijhot, A. (2009). "Femininity, Masculinity, and Androgyny: How Humans Perceive the Gender of Anthropomorphic Agents." Proceedings of the Thirteenth International Conference on Human-Computer Interaction, July 19th—July 24th, San Diego.
- Pal, J., Pradhan, M., Shah, M., & Babu, R. (2011). "Assistive Technology for Vision Impairments: An Agenda for the Information Communications Technology and Development (ICTD) Community." 21st Annual Meeting of the International World Wide Web Conference Committee (IW3C2), March 28—April 1, Hyderabad, India.
- Pucher, M. Schabus, D., Yamagishi, J., Neubarth, F., & Strom, V. (2010). Modeling and Interpolation of Austrian German and Viennese Dialect in Hidden Markov Model (HMM)-Based Speech Synthesis. Speech Communication, 52 (2), 164-179.
- Pucher, M., Schuchmann, G., & Fröhlich, P. (2009). Regionalized Text-to-Speech Systems: Persona Design and Application Scenarios. Multimodal Signals: Cognitive and Algorithmic Issues, 5398, 216-222.
- Rebordao, A., Shgaikh, M., Hirose, K., & Minematsu, N. (2009). "How to Improve Text-to-Speech (TTS) Systems for Emotional Expressivity." 10th Annual Conference of the International Speech Communication Association, September 6-10, Brighton.
- Roddie, C. (2010). HUMAINE: Human-Machine Interaction Network on Emotion. Luxembourg: European Commission Publications Office.
- Rupprecht, S., Beukelman, D., & Vrtiska, H. (1995). Comparative Intelligibility of Five Synthesized Voices. Augmentative and Alternative Communication, 11 (4), 244-248.
- Sen, A., & Samudravijaya, K. (2002). Indian Accent Text-to-Speech System for Web Browsing. Sadhana, 27 (1), 113-26.
- Simpson, A. (2009). Phonetic Differences between Male and Female Speech. Language and Linguistics Compass, 3 (2), 621-640.
- Turunen, M., & Salonen, E. (2004). "Speech Interface Design." Tampere Unit for Computer-Human Interaction Speech Interface Design Workshop, September 13, Tampere, Finland.
- Whiteside, S. (1998). Identification of a Speaker’s Sex: A Study of Vowels. Perceptual and Motor Skills, 86 (2), 579-584.
- Yan, Q., & Vageshi, S. (2003). Analysis, Modeling and Synthesis of Formants of British, American and Australian Accents. Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1, 712-715.
Speech synthesis—in which machines generate human-like speech—has applications in basic linguistic research, assistive technologies for people with disabilities, and commercial devices and software.
The historic male default in speech synthesis can limit the use of this technology. A young woman injured in a car accident, for example, refused to use a talking aid when only male voices were available.
Gendered Innovation:
Today, we recognize that analyzing sex (biological factors) and gender (socio-cultural factors) is important for creating text-to-speech systems with a range of voices for assistive technologies and other human/computer interfaces. Gender assumptions in particular influence both the act of speaking and the act of listening (or interpreting what is heard) even when the speaker is a machine.
Gender identity and norms, for example, are coded into speech. For example, among French speakers, women's fundamental pitch is about 90 Hz higher than men's, while among Chinese speakers, women's pitch is only about 10 Hz higher. Researchers have concluded that "it would be unreasonable to account for such large differences in terms of anatomical differences in the populations being investigated" and that "part of the difference must be attributed to learned behaviors" or gender norms.
Listeners apply gender norms to synthetic voices, and don't like machine voices that are "ambiguous" with respect to sex/gender. This makes such voices undesirable for use in assistive technologies as well as in broader commercial applications. Moreover, when listeners "hear" a male or female voice, they tend to overlay gendered stereotypes onto the voice. Companies may lose market share when choosing voices for customers. BMW, for example, was forced to recall its cars with a female voice in its initial navigation systems. Apple was unsuccessful with Siri, its first female iPhone assistant.
The solution is to offer consumers choices. Researchers are working to create machines with greater flexibility to produce voices in different languages and dialects and to represent women and men speakers of different ages, gender identities, accents, geographic locations, etc.