Evaluación del reconocimiento de voz entre los servicios de Google y Amazon aplicado al Sistema Integrado de Seguridad ECU 911

Juan José Peralta Vásconez, Carlos Andrés Narváez Ortiz, Marcos Patricio Orellana Cordero, Paúl Andrés Patiño León, Priscila Cedillo Orellana
{"title":"Evaluación del reconocimiento de voz entre los servicios de Google y Amazon aplicado al Sistema Integrado de Seguridad ECU 911","authors":"Juan José Peralta Vásconez, Carlos Andrés Narváez Ortiz, Marcos Patricio Orellana Cordero, Paúl Andrés Patiño León, Priscila Cedillo Orellana","doi":"10.37815/rte.v33n2.840","DOIUrl":null,"url":null,"abstract":"El reconocimiento automático de voz (ASR) es una de las ramas de la inteligencia artificial que hace posible la comunicación entre el humano y la máquina, logrando que el usuario pueda interactuar con las máquinas de manera natural.  En los últimos años, los sistemas ASR se han incrementado hasta el punto de lograr transcripciones casi perfectas, en la actualidad son muchas las empresas que desarrollan sistemas ASR tales como Google, Amazon, IBM, Microsoft. El objetivo de este trabajo es evaluar los sistemas de reconocimiento de voz de Google Speech to Text y Amazon Transcribe con el fin de determinar cuál de ellas ofrece una mayor precisión al momento de convertir el audio en texto. La precisión de las transcripciones se evalúa a través de la tasa de error por palabra (WER) la cual analiza las palabras eliminadas, sustituidas e insertadas con respecto a un texto de referencia de transcripción humana. Después de someter estos sistemas a diferentes ambientes de ruido se observa que el sistema con mayor rendimiento en el proceso de transcripción es el de Amazon Transcribe; por tal razón, se concluye que el servicio de Amazon muestra un mayor desempeño con respecto al servicio de Google tanto con audios con un nivel de ruido de fondo más alto y con audios con un nivel de ruido de fondo más bajo.","PeriodicalId":117722,"journal":{"name":"Revista Tecnológica - ESPOL","volume":"17 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-11-26","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Tecnológica - ESPOL","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.37815/rte.v33n2.840","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 3

Abstract

El reconocimiento automático de voz (ASR) es una de las ramas de la inteligencia artificial que hace posible la comunicación entre el humano y la máquina, logrando que el usuario pueda interactuar con las máquinas de manera natural.  En los últimos años, los sistemas ASR se han incrementado hasta el punto de lograr transcripciones casi perfectas, en la actualidad son muchas las empresas que desarrollan sistemas ASR tales como Google, Amazon, IBM, Microsoft. El objetivo de este trabajo es evaluar los sistemas de reconocimiento de voz de Google Speech to Text y Amazon Transcribe con el fin de determinar cuál de ellas ofrece una mayor precisión al momento de convertir el audio en texto. La precisión de las transcripciones se evalúa a través de la tasa de error por palabra (WER) la cual analiza las palabras eliminadas, sustituidas e insertadas con respecto a un texto de referencia de transcripción humana. Después de someter estos sistemas a diferentes ambientes de ruido se observa que el sistema con mayor rendimiento en el proceso de transcripción es el de Amazon Transcribe; por tal razón, se concluye que el servicio de Amazon muestra un mayor desempeño con respecto al servicio de Google tanto con audios con un nivel de ruido de fondo más alto y con audios con un nivel de ruido de fondo más bajo.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
谷歌和亚马逊服务之间的语音识别评估应用于集成安全系统ECU 911
自动语音识别(ASR)是人工智能的一个分支,它使人与机器之间的通信成为可能,使用户能够以一种自然的方式与机器进行交互。近年来,ASR系统已经发展到几乎完美的转录,目前有许多公司开发ASR系统,如谷歌,亚马逊,IBM,微软。这项工作的目的是评估谷歌语音到文本和亚马逊转录语音识别系统,以确定哪一种系统在将音频转换为文本时提供更高的准确性。转录的准确性是通过单词错误率(WER)来评估的,WER分析删除、替换和插入的单词与人工转录参考文本的关系。在将这些系统置于不同的噪声环境后,可以观察到在转录过程中表现最好的系统是Amazon Transcribe;因此,我们得出结论,亚马逊服务在背景噪声水平较高的音频和背景噪声水平较低的音频方面都比谷歌服务表现出更高的性能。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
Global Climate: Much more complex than measuring Greenhouse Gases and Carbon Footprints Aprender enseñando: la educación intergeneracional a través del aprendizaje-servicio Enfoque multicriterio para la selección óptima de variables explicativas para modelos de pronóstico de la energía eléctrica de plantas solares fotovoltaicas Desarrollo de un modelo predictivo utilizando técnicas de aprendizaje supervisado para detectar la moniliasis en plantas de cacao de la Provincia de Orellana Interdisciplinariedad en la educación superior: conectando universidad y sociedad
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1