Автор |
Сообщение |
|
Дата: 01 Сен 2010 21:30:20 · Поправил: Programmist (01 Сен 2010 21:46:33)
#
petr0v
Я в такие "разработки" не верю. Слишком красиво все оформлено.
Короче, кто его знает что это такое, надо поверять, а я с Цэ++ не дружу.
|
|
Дата: 01 Сен 2010 21:51:42
#
Programmist
Почему вы думаете, что таких одиночек нет? По-моему они есть даже на этом форуме и не в единственном числе.
|
Реклама Google
|
|
|
Дата: 01 Сен 2010 21:54:14 · Поправил: Rulez Reloaded (01 Сен 2010 21:56:44)
#
Programmist
Я в такие "разработки" не верю. Слишком красиво все оформлено.
Ну полно проектов open source красиво оформлены и работают. Не пробуя, сразу говорить "не верю"? Я пробовал Gimp, Open Office и многие другие open source софты. Ничего, работают. Может не так хорошо и ожидаемо, как коммерческие аналоги, но сказать, что это обман - покривить душой. Apache так вообще стал образцом для веб-серверов. И таких примеров - десятки как минимум.
|
|
Дата: 01 Сен 2010 21:56:56 · Поправил: Programmist (01 Сен 2010 21:58:07)
#
Rulez Reloaded
Почему вы думаете, что таких одиночек нет?
Есть то они есть и это очень хорошо, но создать готовый рабочий продукт одному очень сложно.
|
|
Дата: 01 Сен 2010 22:06:32
#
Rulez Reloaded
сказать, что это обман - покривить душой
Мне не совсем понятна конечная цель этих людей. Практически все, что возможно в этой области уже сделано. Ну, придумают очередной формат сжатия, Вы думаете, он будет лучше тех, что уже есть?
|
|
Дата: 01 Сен 2010 22:10:09
#
Programmist
Есть то они есть и это очень хорошо, но создать готовый рабочий продукт одному очень сложно.
И тем не менее, есть реальные примеры. Я думаю, вы их заметили.
Ну, придумают очередной формат сжатия, Вы думаете, он будет лучше тех, что уже есть?
Почему обязательно лучше? Пусть на 20% хуже, но зато бесплатный. Любой может взять и улучшить.
Практически все, что возможно в этой области уже сделано
Угу. 20 и 50 лет считали также по многим вопросам.
|
|
Дата: 01 Сен 2010 22:19:51 · Поправил: Programmist (01 Сен 2010 22:27:33)
#
Rulez Reloaded
20 и 50 лет считали также по многим вопросам
Здесь вопрос всего один, и в этой области что-либо сделать новое уже не выйдет. Всему есть разумный предел. Лучше бы довели до ума Lame. Он тоже бесплатный.
Хотя, возможно это он и есть. У меня тоже была идея выкинуть из Lame все лишнее и переписать на Delphi.
Оказалось - слабо.
|
|
Дата: 01 Сен 2010 23:09:52
#
|
|
Дата: 01 Сен 2010 23:24:46 · Поправил: Rulez Reloaded (01 Сен 2010 23:25:54)
#
Programmist
Да причем тут LAME? Там битрейты дикие нужны (по меркам NFM-каналов). Это прошлый век, допотопная Фрагоферовская разработка для музыки, от которой сейчас потихоньку отказываются в силу значительных потерь. Кроме того, LAME не оптимизирован под речь. Сейчас есть совсем другие вокодеры, которые на 1200 и даже 600 bps позволяют вполне разборчиво передавать речь. Это AMBE+2, вариации на тему MELP (вот это, например, слушали? http://www.compandent.com/products_melpe.htm). И нового здесь немало - 10 лет назад считалось, что для качественной передачи речи нужно не менее 32-48 kbps. |
|
Дата: 01 Сен 2010 23:38:12 · Поправил: RN3ASW (01 Сен 2010 23:38:32)
#
|
|
Дата: 01 Сен 2010 23:53:46
#
Rulez Reloaded
10 лет назад считалось, что для качественной передачи речи нужно не менее 32-48 kbps
И сейчас так считается, а все вариации на тему MELP, это уже не речь а "а-ля робот Вертер", где передается, по сути, текст, а воспроизводит синтезатор.
|
|
Дата: 02 Сен 2010 00:04:31
#
RN3ASW
Без сомнения, вещь интересная, но это уже ближе к системе распознования-синтеза речи.
Для моего понимания эта штука не доступна.
|
|
Дата: 02 Сен 2010 00:07:36
#
Programmist
И сейчас так считается, а все вариации на тему MELP, это уже не речь а "а-ля робот Вертер", где передается, по сути, текст, а воспроизводит синтезатор.
Это на 600 bps робот, на 4800 отличная речь, которую немузыкальное ухо при 100% качестве канала может спутать с аналогом. Это из реальных опытов, а не домыслы.
|
|
Дата: 02 Сен 2010 00:24:26 · Поправил: Programmist (02 Сен 2010 00:29:21)
#
Rulez Reloaded
На 9600 простое БПФ с выброшенными "палками" дает приемлемую разборчивость, пусть тут на 4800 в 2 раза лучше, но какова цена? Небольшой уход в сторону от стандартной речи выдаст полную абракадабру. Сжатие при помощи БПФ и психоакустики и распознавание - синтез речи вещи хоть и родственные, но подход другой.
А MELP я этот не испытывал, и скорее всего не буду, не в этой жизни :)
|
|
Дата: 02 Сен 2010 00:29:24
#
Programmist
Вам не интересно, не смогли, ну и ладно. Есть люди, кому интересно. Они делают новое. Вам так не кажется? А мне кажется.
|
|
Дата: 02 Сен 2010 00:42:10 · Поправил: Programmist (02 Сен 2010 01:46:26)
#
Rulez Reloaded
Правильно делают, только нужно называть вещи своими именами: Если это кодек для сжатия сигнала то это кодек, а если это распознавалка речи то это распознавалка речи. Там работы еще на много лет хватит.
P.S. Немного не в тему, но представил у себя дома вместо колонок набор музыкальных инструментов, исполняющих лунную сонату при помощи электроприводов :))
И подмигивающий зеленым светодиодом силиконовый девайс для исполнения вокальных партий.
|
|
Дата: 02 Сен 2010 09:24:08
#
Если это кодек для сжатия сигнала то это кодек, а если это распознавалка речи то это распознавалка речи. Там работы еще на много лет хватит.
А не пробовал ли кто устроить жёсткое испытание - передать музыку например. Что будет? :)
|
|
Дата: 02 Сен 2010 12:18:44
#
Sergey4565
Пробовал, только не на исходниках, а на какой-то готовой железке. Если "кодек" не может захватить речь, получается какая-то смесь похрюкивания с DTMF. Тоже самое выходит с женским голосом. О музыке не может быть и речи.
До настоящего распознания, конечно очень далеко. Имхо сейчас это старое доброе БПФ с более жесткой психоакустикой. Ну а на приеме недостающие элементы спектра с успехом "подпевает" генератор (синтезатор).
На самом деле, я посвятил этим вопросам немало времени и примерно представляю себе границу возможного и невозможного в этой области.
|
|
Дата: 02 Сен 2010 12:36:52
#
Rulez Reloaded
Легкий оффтопик, но я как-то слышал работу вокодера с голосом, говорящим на польском и ирландском. :) Это было нечто. Подозреваю, что с азиатскими языками будет тоже забавно.
|
|
Дата: 02 Сен 2010 12:44:18 · Поправил: Programmist (02 Сен 2010 13:04:03)
#
RadioElk
Так психоакустика на том и основана, что недостающие (или инвертированные) части спектра мозг дорабатывает сам. И если Вы не знаете языка, то получится просто птичье пение.
При небольшой тренировке, человек способен читать инверсию как нормальный голос. Это все равно что носить очки, переворачивающие все кверху ногами - постепенно все встанет на свои места.
Кстати, музыка с низким битрейтом очень быстро утомляет, потому что велика нагрузка на "собственный процессор". И слушаем мы по большому счету не музыку а то, как она нам представляется музыкой.
|
|
Дата: 02 Сен 2010 13:03:10
#
Programmist
Польский я понимаю. Но фонетика языков разная. И вокодер, который настраивался по одному языку, звуки другого может передавать хуже, считая отдельные фонемы шумом, особенно фрикативные, естественно. :)
|
|
Дата: 02 Сен 2010 13:08:34 · Поправил: dezigner (02 Сен 2010 13:09:20)
#
Programmist
И куда это вас понесло. То распознавалки речи, то психоакустика. Низкоскоростные вокодеры вполне себе неплохо звучат и иностранная речь понятна и мужчину от женщины отличить легко. Например кодек AMBE-LR 1200bps. |
|
Дата: 02 Сен 2010 13:09:06 · Поправил: Programmist (02 Сен 2010 13:10:02)
#
RadioElk
Польский я понимаю. Но фонетика языков разная
Совершенно верно, в этом недостаток "кодеков" настроенных под определенный стандарт речи. Оперативно перестраиваться они пока не умеют. Так что работы в этой области хватит еще на долго :)
|
|
Дата: 02 Сен 2010 13:10:42
#
Programmist
P.S. Немного не в тему, но представил у себя дома вместо колонок набор музыкальных инструментов, исполняющих лунную сонату при помощи электроприводов :))
И подмигивающий зеленым светодиодом силиконовый девайс для исполнения вокальных партий.
А теперь представьте оркестр, играющий по нотам гениального композитора, дошедшим до нас через столетия в предельно сжатом виде, звучит превосходно. ;)
Речевые кодеки основаны не на психоакустике, а на том что голосовой акустический тракт изменяется гораздо медленнее чем звуковые колебания, фактически передаются параметры акустических резонаторов и источников возбуждения, всё это работает, разумеется что передавать музыку через речевой кодек то же самое что заставить человека голосом изобразить оркестр.
|
|
Дата: 02 Сен 2010 13:12:18
#
dezigner
И куда это вас понесло
Да, действительно. Просто для меня это "больная тема".
|
|
Дата: 02 Сен 2010 13:19:03 · Поправил: Programmist (02 Сен 2010 13:33:05)
#
petr0v
Речевые кодеки основаны не на психоакустике
Для экономии места назвал все эти технологии психоакустикой. Обсуждать все подробности этого дела - нужен отдельный форум (и не один) :))
фактически передаются параметры акустических резонаторов
А вот параметры акустических резонаторов как раз то и не передаются, потому как не знает их никто заранее. Вот и настроены они определенным образом, отсюда и "птичья песня".
|
|
Дата: 02 Сен 2010 13:36:23
#
Rulez Reloaded
разработка, распространение и т.д. средств защиты информации контролируется ФСБ. Но с другой стороны, никто не мешает просто оцифровывать голос вокодером, не предпринимая никаких мер, направленных на защиту информации.
Всё верно. А потом - самая соль - завернуть голос в какой-нибудь хитрый FEC с переменными параметрами. Т.е. помехоустойчивое кодирование формально шифрованием не является, но и угадать параметры с бухты-барахты не выйдет.
Programmist
представил у себя дома вместо колонок набор музыкальных инструментов, исполняющих лунную сонату при помощи электроприводов :))
называется MIDI.
Sergey4565
А не пробовал ли кто устроить жёсткое испытание - передать музыку например. Что будет? :)
А не забивал ли никто гвозди-сотки шуруповёртом, например. Что будет?
По теме, David Rowe таки выпустил альфа-версию Codec2, опенсорсного вокодера на 2550 бит/с. По первой ссылке есть образцы записей и сравнение с MELP.
А тут есть сишные реализации LPC-10 и MELP. |
|
Дата: 02 Сен 2010 13:54:02 · Поправил: Programmist (02 Сен 2010 14:00:07)
#
http://fantozer.forumbb.ru/viewtopic.php?id=36
Не важно, что все будут говорить одним голосом, зато какова скорость передачи!
Можно в крайнем случае еще один бит задействовать (мужик-баба).
Ну и осталось совсем немножко - правильно речь распознать :) |
|
Дата: 02 Сен 2010 13:55:40
#
Programmist
а каким боком это относится к радио?
|
|
Дата: 02 Сен 2010 14:02:17 · Поправил: Programmist (02 Сен 2010 14:17:52)
#
Sashman
Самым прямым: передача информации по радио в максимально узкой полосе.
|
Реклама Google |
|